加密货币 - 相关文章

DeepSeek R1 最新全面综述，近两个月的深度思考！

📅 2025-02-25 👁 208 次阅读 📂 AI应用

本文是《2025 iFLYTEK 开发者TALK 杭州站《DeepSeek深度技术解析》分享的文字版。由于时间关系，实际分享是本文的简化版。文字内容是近半个月陆陆续续记录的一些阅读笔记和思考，中途接到分享邀请（还好有点积累，不然怕是难顶doge），成稿于分享后。分享PPT： https://git...

DeepSeek R1的原理

📅 2025-02-25 👁 207 次阅读 📂 AI应用

大家还记得ChatGPT 3.5和4.0刚上线时的震撼吗？它们在自然语言处理上的表现可以说是质的飞跃，但也有不少学术大佬吐槽，说Transformer架构本质上只是个统计模型，缺乏真正的逻辑推理能力。比如，经典的“3.11和3.8哪个大”问题就暴露了这一点。为了弥补这些不足，OpenAI推出了Ch...

DeepSeek 成功的数学原理与实践

📅 2025-02-25 👁 195 次阅读 📂 AI应用

今天我们来回顾一下**群体相对策略优化 (GRPO)**背后的数学原理，这是 DeepSeek 强大推理能力的核心强化学习算法。我将一一分析 GRPO 的工作原理、关键组成部分，以及它为何能颠覆大型语言模型（LLM）训练的方式。 GRPO 的基础什么是 GRPO？ **群体相对策略优化（GRPO）...

【中英字幕】详解！DeepSeek群体相对策略优化（GRPO）

📅 2025-02-25 👁 174 次阅读 📂 AI应用

【必看珍藏】2月6日，安德烈·卡帕西最新AI普及课：深入探索像ChatGPT这样的大语言模型｜Andrej Karpathy 03:31:24 【中英双语】DeepSeek R1 理论概述 | GRPO + RL + SFT 25:36 通俗易懂讲解DeepSeek R1，奶奶都能听懂｜强化学习｜模...

DeepSeek 中的 GRPO 算法全面解析

📅 2025-02-25 👁 180 次阅读 📂 AI应用

摘要：为特定任务调整大型语言模型 (LLM) 通常涉及通过使用人类反馈 (RLHF) 的强化学习对偏好数据进行微调。虽然这些数据通常来自不同的标注者群体（例如，不同的文化背景、种族、公司团队等），但传统的 RLHF 方法采用“一刀切”的方法，即，它们不加区分地假设并优化一个单一的偏好模型，因此无...

人机之间如何使用DeepSeek的GRPO算法实现更好的交互

📅 2025-02-25 👁 171 次阅读 📂 AI应用

一、DeepSeek的GRPO DeepSeek的GRPO（Group Relative Policy Optimization，群体相对策略优化）是一种强化学习算法，专门针对大语言模型的训练而设计，具有高效性和稳定性。以下是GRPO算法的核心特点和工作原理： 1、特点 1）无需价值函数模型：与传统...

出人意料！DeepSeek

📅 2025-02-25 👁 161 次阅读 📂 AI应用

机器之心报道 DeepSeek-R1 非常热门，而在其公布的训练配方中，GRPO（Group Relative Policy Optimization）非常关键，是 DeepSeek-R1 核心的强化学习算法。 ...

【DeepSeek】DeepSeek小模型蒸馏与本地部署深度解析DeepSeek小模型蒸馏与本地部署深度解析

📅 2025-02-24 👁 227 次阅读 📂 AI应用

一、引言与背景在人工智能领域，大型语言模型（LLM）如DeepSeek以其卓越的自然语言理解和生成能力，推动了众多应用场景的发展。然而，大型模型的高昂计算和存储成本，以及潜在的数据隐私风险，限制了其在某些场景下的应用。为了克服这些挑战，DeepSeek引入了知识蒸馏技术，通过将大型模型的知识转移到...

什么是DeepSeek

📅 2025-02-24 👁 176 次阅读 📂 AI应用

所以昨晚，DeepSeek在DeepSeek-V3之后发布了另一个革命性的模型，即DeepSeek-R1和我的孩子，这看起来是一个重大的发布，因为这个模型在几个基准测试中已经超越了OpenAI-o1，即SOTA推理模型。除了DeepSeek-R1，该团队还共同发布了许多其他型号 DeepSeek-...

Unsloth微调DeepSeek

📅 2025-02-24 👁 324 次阅读 📂 AI应用

一站式大模型API聚合平台🔴 https://DMXAPI.com 🚀 国内直连OpenAI、Claude、Gemini，💰注册送1美金！推荐一个目前全网价格最实惠的合租平台，ChatGPT，MidJourney，奈飞，迪士尼，苹果TV等热门软件应有尽有 - https://dub.sh/unib...

最新文章