上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。
这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。
“FlashMLA 是一款针对英伟达 Hopper 架构 GPU 优化的高效 MLA 解码核心,专门为处理变长序列的服务场景进行了优化。
FlashMLA 是深度求索专为 Hopper 架构 GPU(如H800)设计的高效解码内核,通过优化可变长序列的多头潜在注意力计算,在解码阶段实现 3000GB/s 内存带宽和 580TFLOPS 算力的极限性能,显著提升大模型长上下文推理效率。