
发布日期:2024-03-08 08:12 点击次数:181
今天是DeepSeek“开源周”第二日,DeepSeek文告开源DeepEP,第一个用于MoE模子熟悉和推理的开源EP通讯库。
昨天,DeepSeek则开源了代码库FlashMLA,这是针对HopperGPU优化的高效MLA解码内核,针对可变长度序列作了优化。
MoE(夹杂内行架构)和MLA(多头潜在细心力机制)被合计是DeepSeek以低资本竣事了得发扬的中枢原因。
粗浅默契,MoE架构是由多个专注于垂直时代的内行模子单干融合来竣事最终输出效果,迪士尼彩乐园最高代理熟悉资本和推理资本更低。有音书称,GPT-4就使用了MoE架构,由8个220B模子构成。但MoE架构的漏洞之一是会加多通讯资本。
DeepEP通讯库等于针对通讯武艺的优化,其特色包括:高效、优化的全员调换;节点内和节点间均复旧NVLink和RDMA;用于熟悉和推理预填充的高隐晦量内核;用于推默契码的低蔓延内核;原生FP8颐养复旧;活泼的GPU资源扫尾,竣事野心-通讯重复。
MLA则是让模子瞻望更远位置的token迪士尼彩乐园旧版,从而增强语义默契武艺。DeepSeek的FlashMLA专为英伟达HopperGPU打造了高效MLA解码内核,很是针对变长序列进行了优化。