微软BitNetb1582B4T模型推出20亿参数仅占04GB内存

微软BitNetb1582B4T模型推出20亿参数仅占04GB内存

 BitNet b1.58 2B4T 拥有 20 亿参数,其核心创新在于采用了原生 1-bit 训练方式,而非传统的训练后量化。这种创新架构使得模型在保持高性能的同时,大幅降低了计算资源的需求。在性能方面,BitNet ...

查看详细
易倍体育网站:蚂蚁集团推出新款MoE大语言模型使用国产AI芯片训练其性能与完全使用英伟达芯片、同规模稠密模型及MoE相当

易倍体育网站:蚂蚁集团推出新款MoE大语言模型使用国产AI芯片训练其性能与完全使用英伟达芯片、同规模稠密模型及MoE相当

 近日,蚂蚁集团Ling团队发表了一篇技术成果论文。论文显示,蚂蚁集团推出了两款不同规模的MoE大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为168亿(激活参数27.5亿...

查看详细
Emc易倍体育:北京君正回应大模型适配问题现阶段尚未直接运行于自家芯片

Emc易倍体育:北京君正回应大模型适配问题现阶段尚未直接运行于自家芯片

 近日,北京君正的公司动态引起了投資者的关注。有投资者在互动平台上询问北京君正的CPU设计团队关于XBurst系列和Victory系列芯片是否能够与DeepSeek系列大模型兼容,并是否能在该公司CPU平台及其他搭载RI...

查看详细
Emc易倍体育:DeepSeek开源周一杀:极限压榨硬件性能

Emc易倍体育:DeepSeek开源周一杀:极限压榨硬件性能

 上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。  这是DeepSeek专为英伟达Hopper ...

查看详细
联想零售发力AI普惠!来酷科技推出DeepSeek本地部署服务

联想零售发力AI普惠!来酷科技推出DeepSeek本地部署服务

 近日,联想集团旗下智慧零售与智能制造企业来酷科技,运营的全国联想直营店正式推出“DeepSeekR1模型本地部署服务”。作为联想集团面向终端消费者的直营零售与直营服务窗口,来酷科技以129元普惠价面向全网开售该服务,通...

查看详细