微软BitNetb1582B4T模型推出20亿参数仅占04GB内存

 公司新闻     |      2025-04-22 04:16:14    |      小编

  BitNet b1.58 2B4T 拥有 20 亿参数,其核心创新在于采用了原生 1-bit 训练方式,而非传统的训练后量化。这种创新架构使得模型在保持高性能的同时,大幅降低了计算资源的需求。在性能方面,BitNet b1.58 2B4T 直追同规模的全精度模型,而在内存占用上,其非嵌入内存占用仅为 0.4GB,远低于同类竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。

  据悉,BitNet b1.58 2B4T 模型摒弃了传统的 16 位数值,转而采用定制的 BitLinear 层,将权重限制为 -1、0 和 1 三种状态,形成三值系统。这种设计使得每个权重仅需约 1.58 位信息存储,极大地节省了内存空间。其次,层间激活值以 8 位整数量化,形成了独特的 W1.58A8 配置。此外,微软团队还调整了 Transformer 架构,引入了平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)以及 subln 归一化等技术,确保了低位训练的稳定性。

  Emc易倍体育官网app

  微软团队的技术报告显示,BitNet b1.58 2B4T 在 GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异,整体性能媲美主流的 1B-2B 参数全精度模型。该模型在能耗和CPU解码延迟上具有显著优势,每 token 能耗仅为 0.028 焦耳,解码延迟低至 29 毫秒。

  尽管已取得显著成果,微软团队并未止步。他们计划进一步优化 BitNet b1.58 2B4T,包括增强对 GPU 和 NPU 的支持,将上下文窗口延长至 4096 token,探索多语言模型的开发,以及研究更大规模模型的硬件协同设计方案。

  联名活动火爆致小程序“崩了” 古茗回应:流量激增触发排队机制 已紧急扩容

  Emc易倍体育官网app

  相册重磅升级!华为Mate 70/Pura 70等推送HarmonyOS NEXT 5.0.0.155

  7000mAh 超大电池加持,轻薄也能持久战 —— OPPO K12s 星芒白图赏

  从阎良少年到C909之父 ,中国大飞机如何冲破全球天际线,爱攻电竞显示器打造车内电竞未来空间