狗狗币 - 相关文章

电商个性化新体验：DeepSeek智能推荐，重塑消费者旅程

📅 2025-02-26 👁 222 次阅读

电商个性化新体验在电商行业，个性化体验已经成为吸引和留住消费者的关键因素之一。DeepSeek利用先进的深度学习和数据分析技术，对消费者的购物行为、偏好、历史记录等多维度数据进行深入挖掘和分析，从而为消费者提供个性化的商品推荐和服务。这种个性化的购物体验，不仅提高了消费者的购物满意度和忠诚度，还...

DeepSeek深度推荐：8本重塑思维认知的经典书单 | 大隐月读

📅 2025-02-26 👁 1181 次阅读

当Deepseek成为最流行的“答案之书”，我们不妨让它来为我们推荐8本重塑思维认知的经典书单。首先采访一下DeepSeek，它推荐书单的独到之处。 1.综合多领域知识 DeepSeek的书单融合了文学、科技和社会科学等多个领域的经典与前沿作品，满足不同读者的多元化需求。 2.人机共创理念 Dee...

人气超ChatGPT的“东方力量” DeepSeek强在哪？

📅 2025-02-26 👁 234 次阅读

中新网1月29日电(魏晨曦)一夜“重创”美国科技股、人气赶超ChatGPT。2025年新年伊始，一股来自东方的“神秘力量”——国产AI大模型DeepSeek引发硅谷震动，并迅速走红全球，令许多海外网友直呼“实力惊人”。　　就在除夕这一天，DeepSeek再放大招。　　1月28日凌晨，DeepSe...

【论文阅读】DeepSeekR1 ：2.2.1 GRPO方法公式一（抽象期望值公式的展开/实现式）

📅 2025-02-25 👁 206 次阅读

【论文阅读】DeepSeekR1 ：摘要（Abstract） 07:57 【论文阅读】DeepSeekR1 ：目录（Contents） 15:14 【论文阅读】DeepSeekR1 ：1 简介（Introduction）泛读 37:15 【论文阅读】DeepSeekR1 ：1.1 贡献（Contri...

DeepSeek背后的数学：深入解析GRPO

📅 2025-02-25 👁 211 次阅读

本文深入探讨群体相对策略优化（GRPO）背后的数学原理，这是驱动DeepSeek卓越推理能力的核心强化学习算法。我们将解析GRPO的工作原理、关键组成部分，以及它为何成为训练先进大规模语言模型的颠覆性技术。 GRPO的基础什么是GRPO？群体相对策略优化（GRPO）是一种强化学习（RL）算法，专...

解读 DeepSeek 关键 RL 算法 GRPO

📅 2025-02-25 👁 272 次阅读

DeepSeek GRPO：面向超大规模RLHF的梯度正则化策略优化算法引言深入浅出/通俗易懂/浅尝深悟/简约透彻/浅显直白/言简意赅/简明扼要的先来一遍直观感受 GRPO是什么 GRPO是一种强化学习算法，就像是一个聪明的小助手，专门用来帮助像DeepSeek这样的大语言模型变得更聪明，特别...

我是如何看懂 DeepSeek中的 GRPO 算法？

📅 2025-02-25 👁 336 次阅读

一、如何看懂 DeepSeek中的 GRPO 算法？ 1、前置知识概率统计，微积分深度学习基础（损失, 归一化，反向传播，梯度下降，Pytorch等）信息熵，交叉熵，绝对熵（KL 散度） Transformers，Bert， GPT等模型 2、LLM 训练流程预训练数据格式：掩码无监...

深度解析DeepSeek的GRPO算法：强化学习优化的新范式

📅 2025-02-25 👁 302 次阅读

近年来，强化学习（Reinforcement Learning, RL）在游戏AI、机器人控制和复杂决策领域取得了突破性进展。然而，策略优化中的稳定性、样本效率和泛化能力仍是核心挑战。在此背景下，DeepSeek团队提出的GRPO（Gradient-Regularized Policy Optimi...

DeepSeek用到的GRPO算法究竟是什么？

📅 2025-02-25 👁 187 次阅读

下面用通俗易懂的语言来讲解GRPO算法。 1. GRPO 是什么？ GRPO 是一种用于训练大语言模型（比如 ChatGPT 这类 AI）的强化学习算法。它的核心目标是通过“组内比较 ”的方式，让模型学会生成更优秀的回答，而无需依赖复杂的额外模型来评判好坏。举个例子：假设你是一个学生，老师布置了...

什么是 DeepSeek？为什么它会颠覆人工智能领域？

📅 2025-02-25 👁 172 次阅读

今年，中国农历蛇年的春节假期，对于 AI 科技界最火的两个东西，莫非和Open AI ChatGPT 类似的 Deepseek 以及春晚表演节目的人形机器人。其中Deepseek 推理模型R1的推出更是让美国总统川普说成“A wakeup call”，而且此模型推出更是让AI芯片巨头英伟达股价暴跌1...

最新文章