我是如何看懂 DeepSeek中的 GRPO 算法?
📡 本文内容正在更新中
我们的编辑团队正在优化这篇文章,请稍后回来查看完整内容。
一、如何看懂 DeepSeek中的 GRPO 算法? 1、前置知识 概率统计, 微积分 深度学习基础(损失, 归一化,反向传播,梯度下降,Pytorch等) 信息熵, 交叉熵, 绝对熵(KL 散度) Transformers,Bert, GPT等模型 2、LLM 训练流程 预训练 数据格式:掩码无监督学习 目标:学习海量语言数据中的知识和语言结构。 指令微调 数据格式:(prompt
— 内容更新中,感谢您的耐心 —
