DeepSeek中的多头潜在注意力(MLA)浅尝

📡 本文内容正在更新中

我们的编辑团队正在优化这篇文章,请稍后回来查看完整内容。

MLA是MHA的变体,因此先来看看MHA。 MHA(多头注意力) MHA通过将输入向量分割成多个并行的注意力“头”,每个头独立地计算注意力权重并产生输出,然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。 将 Q Q Q分成了多个部分,每个部分进行注意力。比如 Q Q Q的形状 [ s e q , d i ] [seq,d_i] [seq,di​]、

— 内容更新中,感谢您的耐心 —