Dogely Crypto News - 最新加密货币新闻与市场分析 - 第167页 - Dogely Crypto

DeepSeek的分歧，多方观点的激荡

一、【Mstech】DeepSeek的分歧，谈谈算力需求领导好，我们今天重点研究DeepSeek，除了基础的体验外，也去Github上学习了他的Technical Report（如需相关资料可私信），同步梳理了脑图如下。不得不说，DeepSeek是颠覆式的大模型，在MMLU-Pro等大模型测试上，和全球巨头站在同一身位。于此同时，市场也关注到了DeepSeek的一些参数（训练时间是LIama

Doge资讯 2025-02-22 148 阅读
极致性能背后的算力逻辑：DeepSeek如何重构AI研发的底层叙事

2025年伊始，来自中国的开源AI模型DeepSeek爆火。随后，美国总统特朗普、OpenAI首席执行官奥特曼纷纷发声，承认其给AI行业带来的“震撼”。《纽约时报》评价称，DeepSeek能与OpenAI的ChatGPT媲美，“仅此一点就已经是一个里程碑”。DeepSeek是如何在AI竞赛中脱颖而出的？它是否走出了大模型发展的一条新路？　　算力困局：　　AI竞赛的“不可能三角”

Doge资讯 2025-02-22 135 阅读
深度拆解：DeepSeek

这两天，DeepSeek-V3 低调发布，在国际上狠狠秀了一波肌肉：只用了 500 多万美金的成本，带来了不输 Claude 3.5 的成绩，并开源！　下面，让我们以更加系统的方式，来看看这次的 DeepSeek-V3，是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个维度来拆解 V3，所用到的图表、数据源于技术报告：《DeepSeek-V3 Technical Report》。　

Doge资讯 2025-02-22 180 阅读
提高DeepSeek大模型服务器可扩展性的方法

在当前人工智能（AI）技术迅猛发展的时代，深度学习模型的规模和复杂性日益增长，如何保证其在大规模部署中的稳定性和高效性成为了一个至关重要的课题。DeepSeek作为一个代表性的深度学习大模型，如何提升其服务器的可扩展性，以应对海量数据处理、动态负载变化和高效资源调度，已经成为开发者、系统管理员以及架构师亟需解决的问题。本文将深入探讨提高DeepSeek大模型服务器可扩展性的方法，从硬件资源

Doge资讯 2025-02-22 162 阅读
一文读懂DeepSeek（深度求索）：有限计算资源下的顶尖大模型

DeepSeek（深度求索）引起硅谷“恐慌”，性能超越了美国的顶尖模型，且研发成本更低，使用的芯片性能也较弱。甚至有人猜测DeepSeek（深度求索）模型对美国股市都构成了威胁。中国AI公司证明了用有限的计算资源，足以做出顶尖水平的模型。这一开源模式有望推动AI从“寡头游戏”转向“全民创新”，重塑产业格局，促进更公平、高效、可持续的AI发展路径。

Doge资讯 2025-02-22 173 阅读
超详细解读：DeepSeek

📌 研究内容 ⚙️ 解决的核心问题主要解决了在大规模语言模型领域提升性能、降低成本、优化训练和推理效率以及增强多领域任务处理能力等核心问题 🔨 是否是新问题: 否 🔬 科学假说论文中虽未明确以传统形式提出科学假说，但在模型研发过程中蕴含了如下关键假设：无辅助损失负载均衡策略假设假设采用无辅助损失的负载均衡策略能够有效解决混合专家（MoE）模型中专家负载不均衡问题

Doge资讯 2025-02-22 219 阅读
DeepSeek创新点详解

DeepSeek创新点详解一、引言 DeepSeek-V3 是国产 AI 公司深度求索推出的新一代混合专家（MoE）大语言模型，凭借 6710 亿总参数和 37B 激活参数的稀疏架构，在性能、效率和成本之间实现了革命性平衡。其创新技术不仅在国际开源社区引发轰动，更以 550 万美元的极低训练成本，成为 AI 普惠化的重要里程碑。本文将深入解析其核心创新点，并结合代码示例说明技术实现原理。二

Doge资讯 2025-02-22 151 阅读
deepseek无辅助损失的负载均衡策略

无辅助损失的负载均衡策略是一种用于解决深度学习中专家混合系统（MoE）负载不均衡问题的方法，它不依赖额外的辅助损失函数来实现负载均衡，而是通过直接调整专家接收输入的概率来平衡各个专家的负载，以下是具体介绍及举例：策略原理动态调整接收概率：系统会根据每个专家的历史利用率情况，动态地调整其接收新任务的概率。对于那些利用率过高的专家，降低其接收新任务的概率

Doge资讯 2025-02-22 170 阅读
国产大模型之光-DeepSeek-v3技术报告解读

https://github.com/deepseek-ai/DeepSeek-V3 <|fim_begin|> pre<|fim_hole|> suf<|fim_end|> middle<|eos_token|>。

Doge资讯 2025-02-22 192 阅读
DeepSeek开源DeepSeek

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。 2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型

Doge资讯 2025-02-21 153 阅读

第一页上一页 1 ... 166 167 168 ... 510 下一页尾页

推荐服务

Telegram粉丝购买

Tiktok涨粉平台

文章分类

产品分类

热门文章