Dogely Crypto News - 最新加密货币新闻与市场分析 - 第168页 - Dogely Crypto

DeepSeek系列论文解读之——DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture

DeepSeek MoE：通向专家终极专精化的技术革命写在前面： DeepSeek 是由国内顶尖AI研究机构深度求索（DeepSeek）发布的大模型。涵盖架构创新（MoE设计）、训练范式（混合预训练）、能力增强（数学推理）等研究方向。它的老东家是做私募量化的幻方量化，国内四大量化之一，国内少有的A100万卡集群厂商。论文大要：【要点】：DeepSeekMoE是一种混合专家（MoE）模型架构

Doge资讯 2025-02-21 179 阅读
【资料分享】DeepSeek

一、摘要本文介绍了 DeepSeek-VL2——一款基于混合专家（MoE）架构的视觉语言模型，旨在提高多模态理解的效率与性能。相比其前身 DeepSeek-VL，DeepSeek-VL2 通过引入动态图像切片编码策略和深度SeekMoE语言模型，大幅提升了在视觉理解、视觉问题回答、文档分析、表格处理等任务中的表现。特别地，动态切片策略能够高效处理不同长宽比的高分辨率图像

Doge资讯 2025-02-21 144 阅读
【DeepSeek论文精读】4. DeepSeek

0. 论文概况 0.1 简介 2024 年 5 月，DeepSeek 发表论文「 DeepSeek-V2：强大、经济且高效的混合专家语言模型」（DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model）。论文介绍了 DeepSeek-V2

Doge资讯 2025-02-21 209 阅读
爆火的DeepSeek到底是什么？（一次性讲解清楚）

1. DeepSeek模型概述 1.1 开发背景与目标 DeepSeek模型是由DeepSeek团队开发的开源大规模语言模型系列，旨在探索通用人工智能（AGI）的奥秘，并以长期主义视角回答人工智能领域的关键问题。其开发背景是当前人工智能领域对于更高效、更强大语言模型的需求，以及对开源模型在性能和成本效益上与闭源模型竞争的探索。DeepSeek团队的目标是通过技术创新，降低模型的训练和推理成本

Doge资讯 2025-02-21 131 阅读
一文搞懂DeepSeek

DeepSeek推出了DeepSeek-V3，这是一个强大的混合专家（Mixture-of-Experts，MoE）语言模型，总参数量达到6710亿，每个标记（token）激活的参数量为370亿。为了实现高效的推理和成本效益高的训练，DeepSeek-V3采用了在DeepSeek-V2中经过充分验证的多头潜在注意力（Multi-head Latent Attention，MLA）和

Doge资讯 2025-02-21 167 阅读
深扒DeepSeek技术优势与GPT差异化

一、大模型竞赛格局中的DeepSeek 定位在生成式AI 领域，OpenAI的GPT系列长期占据技术话语权，但中国科技企业深度求索（DeepSeek）推出的同名大模型，通过差异化技术路径在2023年跻身全球第一梯队。根据SuperCLUE中文大模型评测（2023Q4），DeepSeek在语义理解、逻辑推理等关键指标已实现GPT-4 Turbo 90%以上的性能表现

Doge资讯 2025-02-21 151 阅读
DeepSeek赋能高校教师与研究生，彻底杀疯了！

转发这个文章到朋友圈，积赞30个（设置全部人可见）“或”发送至满100人的学术交流群内，保留一天，添加文末工作人员微信，领取15天 ChatGPT Plus 会员账号（支持使用DeepSeek R1）国内直连，不需要梯子。 📚 培训导读 📚 热烈欢迎各企事业单位、高校及科研机构加入我们的培训分享盛会！本期公众号文章，我们特别为您策划了四场不同的培训课程，汇聚了最尖端的学术资源和技能提升机会

Doge资讯 2025-02-21 161 阅读
deepseek快是因为使用了“混合专家”模型

发信人: cybereagle (2/3的沉默@XMUCSD), 信区: CPlusPlus 标题: Re: deepseek快是因为使用了“混合专家”模型发信站: 水木社区 (Fri Jan 24 23:09:31 2025), 站内因为不是啊 LLM中用MoE最早是谷歌大脑搞的吧【在 finlab 的大作中提到: 】 : 我有些好奇，人类大脑的神经元也是按照功能分区的，

Doge资讯 2025-02-21 157 阅读
DeepSeek原理介绍

DeepSeek原理图 DeepSeek是由幻方量化创立的人工智能公司推出的一系列AI模型，包括DeepSeek Coder、DeepSeek LLM、DeepSeek-V2、DeepSeek-V3和DeepSeek-R1等。以下是对DeepSeek原理的通俗介绍：核心架构方面 - 混合专家架构（MoE）： MoE架构就像是一个有很多专家的团队。每个专家都擅长处理某一类特定的任务

Doge资讯 2025-02-21 163 阅读
深度求索开源国内首个 MoE 大模型 | DeepSeekMoE：在专家混合语言模型中实现终极专家专业化

文章目录一、前言二、主要内容三、总结一、前言在大语言模型时代，混合专家模型（MoE）是一种很有前途的架构，用于在扩展模型参数时管理计算成本。然而，传统的 MoE 架构（如 GShard）会激活 N 位专家中的 top-K 专家，但在确保专家专业化（即每位专家获取的知识不重叠且重点突出）方面面临挑战。作为回应，研究者提出了 DeepSeekMoE 架构，以实现终极的专家专业化

Doge资讯 2025-02-21 135 阅读

第一页上一页 1 ... 167 168 169 ... 510 下一页尾页

推荐服务

Telegram粉丝购买

Tiktok涨粉平台

文章分类

产品分类

热门文章