LLM 的 Hello World
用 李白 896 首诗作为教材,训练一个能模仿诗仙风格的小型 GPT。约半小时跑完,你不需要任何机器学习背景,只要会 Python 基础就能看懂。
给模型一句开头,它接着往下写。点下面的提示词试试。
不只是跑通一个脚本,而是真的理解每一步在做什么。
Self-Attention 让每个字"看到"上下文,这就是 GPT 理解语言的秘密。
交叉熵损失衡量预测的靠谱程度,梯度下降一步步让预测更准。
自回归采样——每次预测下一个字,串起来就成了连贯的诗句。
Embedding、Attention、FFN……每一行代码对应网络的一层,不再抽象。
点击架构图中的模块,看看它做什么、代码长什么样。
点击左侧模块
查看说明和代码
整个 GPT 模型的定义,去掉注释也就几十行。完整代码见 GitHub 仓库。
克隆、装依赖、开始训练。半小时后你就有了一个会写诗的小模型。
把代码下载到本地。
只需要 PyTorch。
坐等半小时,看 loss 一路下降。