LLM short intuitive explanation

记录观看 karpathy 大神的长视频的笔记。

pretraining

收集庞大的数据集（如 huggingface 的 fineweb2），利用预训练好的 tokenizer 给文字编制数字索引，然后通过 embedding 层转化为高维向量，在 embedding 层训练过程中，具有相近词意的 token 的向量会接近。pretraining 阶段最终生成的是 base model，也就是一个根据上文自动补全的机器人，还不是一个问答助手。

base model 模型特点：

时效性：模型会精准记忆出训练语料中出现过的内容，但是如果没有出现，很容易胡言乱语（幻觉）。
随机性：每次下文输出内容不会完全相同，因为最后的模型输出采用了采样机制，引入了随机性。比如在在 softmax 给出最有可能的前三个词中随机选一个。

网站资源：

tiktokenizer tokenizer
bbycroft llm 网络可视化

post training

这阶段更换训练数据集，换成一问一答的格式，这些数据都是人类标记出来的。即所谓的 Supervised Fine-Tuning, SFT。此外，这阶段还完成减轻幻觉的工作。具体方法是，探寻 base model 的知识边界，然后把一些明显幻觉的问题标注出来，label 是“我不知道”，加入训练集中进行训练。这样，llm 能学到在他不熟悉的问题能诚实回答不知道。此外，还可以借助联网搜索，这种 label 带上了联网搜索的标记，并加上用户问题，然后把搜索的结果作为上文输入，并总结成回答。这一阶段生成的 model 称为 instruct。

有趣的事实：

如何看待问 deepseek“你是什么模型”，回答“我是 chatgpt”? 之所以出现这种回答，是预训练语料中出现了类似场景，然后 post training 阶段没有做对应的微调，比如在 sft 训练集中加入这个问题和定制的答案”我是 deepseek“。或者没有在 system prompt 中加入”你是 deepseek“的提示词。
当询问一个需要计算或者思考过程的问题，引导模型展示中间步骤对于结果的正确有积极作用。这是因为，llm 是逐 token 吐出的，下一个 token 是根据之前一定大小的 window 生成的。如果省去中间过程直接出结果，对于模型的要求太高，就容易产生幻觉。因此提示词最后包含 step by step 会更好。或者是”use code”, llm 会把 code 送到其他服务器单独执行并返回结果，这样利用 llm 的 tool use，结果更可靠。