Dogely Crypto
Doge资讯
BTC资讯
ETH资讯
加密货币安全
空投专区
人气超ChatGPT的“东方力量” DeepSeek强在哪?
中新网1月29日电(魏晨曦)一夜“重创”美国科技股、人气赶超ChatGPT。2025年新年伊始,一股来自东方的“神秘力量”——国产AI大模型DeepSeek引发硅谷震动,并迅速走红全球,令许多海外网友直呼“实力惊人”。 就在除夕这一天,DeepSeek再放大招。 1月28日凌晨,DeepSeek在GitHub平台发布Janus-Pro多模态大模型,进军文生图领域,并宣布在
Doge资讯
2025-02-26
185 阅读
【论文阅读】DeepSeekR1 :2.2.1 GRPO方法 公式一 (抽象期望值公式的展开/实现式)
【论文阅读】DeepSeekR1 :摘要(Abstract) 07:57 【论文阅读】DeepSeekR1 :目录(Contents) 15:14 【论文阅读】DeepSeekR1 :1 简介(Introduction)泛读 37:15 【论文阅读】DeepSeekR1 :1.1 贡献(Contributions) 21:58 【论文阅读】DeepSeekR1 :2.1
Doge资讯
2025-02-25
160 阅读
DeepSeek背后的数学:深入解析GRPO
本文深入探讨群体相对策略优化(GRPO)背后的数学原理,这是驱动DeepSeek卓越推理能力的核心强化学习算法。 我们将解析GRPO的工作原理、关键组成部分,以及它为何成为训练先进大规模语言模型的颠覆性技术。 GRPO的基础 什么是GRPO?群体相对策略优化(GRPO)是一种强化学习(RL)算法,专门设计用于增强大规模语言模型(LLM)的推理能力。 与传统的RL方法不同
Doge资讯
2025-02-25
165 阅读
解读 DeepSeek 关键 RL 算法 GRPO
DeepSeek GRPO:面向超大规模RLHF的梯度正则化策略优化算法 引言 深入浅出/通俗易懂/浅尝深悟/简约透彻/浅显直白/言简意赅/简明扼要的先来一遍 直观感受 GRPO是什么 GRPO是一种强化学习算法,就像是一个聪明的小助手,专门用来帮助像DeepSeek这样的大语言模型变得更聪明,特别是在推理能力方面表现得更好。它全名叫Group Relative Policy
Doge资讯
2025-02-25
223 阅读
我是如何看懂 DeepSeek中的 GRPO 算法?
一、如何看懂 DeepSeek中的 GRPO 算法? 1、前置知识 概率统计, 微积分 深度学习基础(损失, 归一化,反向传播,梯度下降,Pytorch等) 信息熵, 交叉熵, 绝对熵(KL 散度) Transformers,Bert, GPT等模型 2、LLM 训练流程 预训练 数据格式:掩码无监督学习 目标:学习海量语言数据中的知识和语言结构。 指令微调 数据格式:(prompt
Doge资讯
2025-02-25
290 阅读
深度解析DeepSeek的GRPO算法:强化学习优化的新范式
近年来,强化学习(Reinforcement Learning, RL)在游戏AI、机器人控制和复杂决策领域取得了突破性进展。然而,策略优化中的稳定性、样本效率和泛化能力仍是核心挑战。在此背景下,DeepSeek团队提出的GRPO(Gradient-Regularized Policy Optimization)算法 ,通过创新的梯度正则化机制,为策略优化提供了全新的解决方案。本文将从算法背景
Doge资讯
2025-02-25
252 阅读
DeepSeek用到的GRPO算法究竟是什么?
下面用通俗易懂的语言来讲解GRPO算法。 1. GRPO 是什么? GRPO 是一种用于训练大语言模型(比如 ChatGPT 这类 AI)的强化学习算法。它的核心目标是通过“组内比较 ”的方式,让模型学会生成更优秀的回答,而无需依赖复杂的额外模型来评判好坏。 举个例子: 假设你是一个学生,老师布置了一道数学题。传统方法下,老师会直接批改你的答案,告诉你哪里错了(类似传统强化学习中的“教练”角色)
Doge资讯
2025-02-25
143 阅读
什么是 DeepSeek?为什么它会颠覆人工智能领域?
今年,中国农历蛇年的春节假期,对于 AI 科技界最火的两个东西,莫非和Open AI ChatGPT 类似的 Deepseek 以及春晚表演节目的人形机器人。其中Deepseek 推理模型R1的推出更是让美国总统川普说成“A wakeup call”,而且此模型推出更是让AI芯片巨头英伟达股价暴跌17%,市值缩水 6000 亿美元,创下股市历史上公司单日最大跌幅。芯片设备制造商 ASML
Doge资讯
2025-02-25
129 阅读
DeepSeek算法揭秘!它为何如此独特?
DeepSeek算法揭秘!它为何如此独特? DeepSeek作为新兴的AI应用,其独特算法和显著优势在众多AI中脱颖而出。 一、DeepSeek独特算法剖析 1、多Token预测(MTP)与FP8混合精度训练 DeepSeek通过这两项技术,显著提升了训练效率和资源利用率,实现了效率与泛化的双赢。 2、算法创新与优化
Doge资讯
2025-02-25
119 阅读
DeepSeek最强专业拆解:清交复教授超硬核解读
导读: DeepSeek的写作能力为何飞跃?PTX是否真正做到了绕开CUDA的垄断? 据2月3日报道,周日晚间,五位高校教授夜话DeepSeek,从模型方法、框架、系统、基础设施等角度,阐述DeepSeek的技术原理与未来方向,揭秘其优化方法如何提升算力能效,信息量很大。 如何复现o1大推理模型?DeepSeek R1技术路线和训练流程有哪些亮点?为什么DeepSeek能做到轰动全球
Doge资讯
2025-02-25
153 阅读
第一页
上一页
1
...
159
160
161
...
510
下一页
尾页
如何在Telegram上用粉丝宝黑客策略打造活跃的加密货币社区
了解通过科学方法和有效技巧,迅速扩大社区规模并提高会员互动。
了解更多
推荐服务
Facebook刷粉
Telegram粉丝购买
Tiktok涨粉平台
文章分类
Doge资讯
BTC资讯
产品分类
热门文章
比特币历史价格走势图(2009年至2023年)|BTC历年价格走势详情
5074阅读
币圈交易所佣金收费标准最新一览(2025年)
4275阅读
Uniswap发币记:以太坊Gas费飞上天
3138阅读
911爆料网github:GitHub开源平台引发争议,匿名爆料网成社会焦点
2338阅读
CryptoTab Browser:通过浏览器挖矿,轻松获取加密货币
1855阅读
比特币期货ETF是什么意思?一文读懂比特币期货ETF
1278阅读