Doge 资讯 - 聚焦狗狗币动态，掌握加密货币前沿信息 - 第159页 - Dogely Crypto

DeepSeek背后的数学：深入解析GRPO

本文深入探讨群体相对策略优化（GRPO）背后的数学原理，这是驱动DeepSeek卓越推理能力的核心强化学习算法。我们将解析GRPO的工作原理、关键组成部分，以及它为何成为训练先进大规模语言模型的颠覆性技术。 GRPO的基础什么是GRPO？群体相对策略优化（GRPO）是一种强化学习（RL）算法，专门设计用于增强大规模语言模型（LLM）的推理能力。与传统的RL方法不同

Doge资讯 2025-02-25 191 阅读
解读 DeepSeek 关键 RL 算法 GRPO

DeepSeek GRPO：面向超大规模RLHF的梯度正则化策略优化算法引言深入浅出/通俗易懂/浅尝深悟/简约透彻/浅显直白/言简意赅/简明扼要的先来一遍直观感受 GRPO是什么 GRPO是一种强化学习算法，就像是一个聪明的小助手，专门用来帮助像DeepSeek这样的大语言模型变得更聪明，特别是在推理能力方面表现得更好。它全名叫Group Relative Policy

Doge资讯 2025-02-25 246 阅读
我是如何看懂 DeepSeek中的 GRPO 算法？

一、如何看懂 DeepSeek中的 GRPO 算法？ 1、前置知识概率统计，微积分深度学习基础（损失, 归一化，反向传播，梯度下降，Pytorch等）信息熵，交叉熵，绝对熵（KL 散度） Transformers，Bert， GPT等模型 2、LLM 训练流程预训练数据格式：掩码无监督学习目标：学习海量语言数据中的知识和语言结构。指令微调数据格式：（prompt

Doge资讯 2025-02-25 313 阅读
深度解析DeepSeek的GRPO算法：强化学习优化的新范式

近年来，强化学习（Reinforcement Learning, RL）在游戏AI、机器人控制和复杂决策领域取得了突破性进展。然而，策略优化中的稳定性、样本效率和泛化能力仍是核心挑战。在此背景下，DeepSeek团队提出的GRPO（Gradient-Regularized Policy Optimization）算法，通过创新的梯度正则化机制，为策略优化提供了全新的解决方案。本文将从算法背景

Doge资讯 2025-02-25 275 阅读
DeepSeek用到的GRPO算法究竟是什么？

下面用通俗易懂的语言来讲解GRPO算法。 1. GRPO 是什么？ GRPO 是一种用于训练大语言模型（比如 ChatGPT 这类 AI）的强化学习算法。它的核心目标是通过“组内比较 ”的方式，让模型学会生成更优秀的回答，而无需依赖复杂的额外模型来评判好坏。举个例子：假设你是一个学生，老师布置了一道数学题。传统方法下，老师会直接批改你的答案，告诉你哪里错了（类似传统强化学习中的“教练”角色）

Doge资讯 2025-02-25 166 阅读
什么是 DeepSeek？为什么它会颠覆人工智能领域？

今年，中国农历蛇年的春节假期，对于 AI 科技界最火的两个东西，莫非和Open AI ChatGPT 类似的 Deepseek 以及春晚表演节目的人形机器人。其中Deepseek 推理模型R1的推出更是让美国总统川普说成“A wakeup call”，而且此模型推出更是让AI芯片巨头英伟达股价暴跌17%，市值缩水 6000 亿美元，创下股市历史上公司单日最大跌幅。芯片设备制造商 ASML

Doge资讯 2025-02-25 149 阅读
DeepSeek算法揭秘！它为何如此独特？

DeepSeek算法揭秘！它为何如此独特？ DeepSeek作为新兴的AI应用，其独特算法和显著优势在众多AI中脱颖而出。一、DeepSeek独特算法剖析 1、多Token预测（MTP）与FP8混合精度训练 DeepSeek通过这两项技术，显著提升了训练效率和资源利用率，实现了效率与泛化的双赢。 2、算法创新与优化

Doge资讯 2025-02-25 138 阅读
DeepSeek最强专业拆解：清交复教授超硬核解读

导读： DeepSeek的写作能力为何飞跃？PTX是否真正做到了绕开CUDA的垄断？据2月3日报道，周日晚间，五位高校教授夜话DeepSeek，从模型方法、框架、系统、基础设施等角度，阐述DeepSeek的技术原理与未来方向，揭秘其优化方法如何提升算力能效，信息量很大。如何复现o1大推理模型？DeepSeek R1技术路线和训练流程有哪些亮点？为什么DeepSeek能做到轰动全球

Doge资讯 2025-02-25 173 阅读
DeepSeek技术解析：行业革新的启示与挑战

在今年春节期间，DeepSeek这个名字成了科技界的热议话题。依托于DeepSeek-V3和DeepSeek-R1所展现出的创新技术和出色表现，DeepSeek迅速抓住了行业和大众的关注。无论是技术专家还是普通用户，都对DeepSeek的赞誉不断。这篇科普文章旨在让每位读者，无论技术背景如何，都能轻松领会DeepSeek的核心技术。 DeepSeek系列模型的技术创新 1.

Doge资讯 2025-02-25 226 阅读
DeepSeek R1 最新全面综述，近两个月的深度思考！

本文是《2025 iFLYTEK 开发者TALK 杭州站《DeepSeek深度技术解析》分享的文字版。由于时间关系，实际分享是本文的简化版。文字内容是近半个月陆陆续续记录的一些阅读笔记和思考，中途接到分享邀请（还好有点积累，不然怕是难顶doge），成稿于分享后。分享PPT： https://github

Doge资讯 2025-02-25 183 阅读

第一页上一页 1 ... 158 159 160 ... 178 下一页尾页

推荐服务

Telegram粉丝购买

Tiktok涨粉平台

文章分类

热门文章