最新文章
电商个性化新体验:DeepSeek智能推荐,重塑消费者旅程
电商个性化新体验 在电商行业,个性化体验已经成为吸引和留住消费者的关键因素之一。DeepSeek利用先进的深度学习和数据分析技术,对消费者的购物行为、偏好、历史记录等多维度数据进行深入挖掘和分析,从而为消费者提供个性化的商品推荐和服务。 这种个性化的购物体验,不仅提高了消费者的购物满意度和忠诚度,还...
DeepSeek深度推荐:8本重塑思维认知的经典书单 | 大隐月读
当Deepseek成为最流行的“答案之书”,我们不妨让它来为我们推荐8本重塑思维认知的经典书单。 首先采访一下DeepSeek,它推荐书单的独到之处。 1.综合多领域知识 DeepSeek的书单融合了文学、科技和社会科学等多个领域的经典与前沿作品,满足不同读者的多元化需求。 2.人机共创理念 Dee...
人气超ChatGPT的“东方力量” DeepSeek强在哪?
中新网1月29日电(魏晨曦)一夜“重创”美国科技股、人气赶超ChatGPT。2025年新年伊始,一股来自东方的“神秘力量”——国产AI大模型DeepSeek引发硅谷震动,并迅速走红全球,令许多海外网友直呼“实力惊人”。 就在除夕这一天,DeepSeek再放大招。 1月28日凌晨,DeepSe...
【论文阅读】DeepSeekR1 :2.2.1 GRPO方法 公式一 (抽象期望值公式的展开/实现式)
【论文阅读】DeepSeekR1 :摘要(Abstract) 07:57 【论文阅读】DeepSeekR1 :目录(Contents) 15:14 【论文阅读】DeepSeekR1 :1 简介(Introduction)泛读 37:15 【论文阅读】DeepSeekR1 :1.1 贡献(Contri...
DeepSeek背后的数学:深入解析GRPO
本文深入探讨群体相对策略优化(GRPO)背后的数学原理,这是驱动DeepSeek卓越推理能力的核心强化学习算法。 我们将解析GRPO的工作原理、关键组成部分,以及它为何成为训练先进大规模语言模型的颠覆性技术。 GRPO的基础 什么是GRPO?群体相对策略优化(GRPO)是一种强化学习(RL)算法,专...
解读 DeepSeek 关键 RL 算法 GRPO
DeepSeek GRPO:面向超大规模RLHF的梯度正则化策略优化算法 引言 深入浅出/通俗易懂/浅尝深悟/简约透彻/浅显直白/言简意赅/简明扼要的先来一遍 直观感受 GRPO是什么 GRPO是一种强化学习算法,就像是一个聪明的小助手,专门用来帮助像DeepSeek这样的大语言模型变得更聪明,特别...
我是如何看懂 DeepSeek中的 GRPO 算法?
一、如何看懂 DeepSeek中的 GRPO 算法? 1、前置知识 概率统计, 微积分 深度学习基础(损失, 归一化,反向传播,梯度下降,Pytorch等) 信息熵, 交叉熵, 绝对熵(KL 散度) Transformers,Bert, GPT等模型 2、LLM 训练流程 预训练 数据格式:掩码无监...
深度解析DeepSeek的GRPO算法:强化学习优化的新范式
近年来,强化学习(Reinforcement Learning, RL)在游戏AI、机器人控制和复杂决策领域取得了突破性进展。然而,策略优化中的稳定性、样本效率和泛化能力仍是核心挑战。在此背景下,DeepSeek团队提出的GRPO(Gradient-Regularized Policy Optimi...
DeepSeek用到的GRPO算法究竟是什么?
下面用通俗易懂的语言来讲解GRPO算法。 1. GRPO 是什么? GRPO 是一种用于训练大语言模型(比如 ChatGPT 这类 AI)的强化学习算法。它的核心目标是通过“组内比较 ”的方式,让模型学会生成更优秀的回答,而无需依赖复杂的额外模型来评判好坏。 举个例子: 假设你是一个学生,老师布置了...
什么是 DeepSeek?为什么它会颠覆人工智能领域?
今年,中国农历蛇年的春节假期,对于 AI 科技界最火的两个东西,莫非和Open AI ChatGPT 类似的 Deepseek 以及春晚表演节目的人形机器人。其中Deepseek 推理模型R1的推出更是让美国总统川普说成“A wakeup call”,而且此模型推出更是让AI芯片巨头英伟达股价暴跌1...
