重要进展!大模型基于中国芯片实现AI突破效果与英伟达H800相当

 公司新闻     |      2025-04-20 05:43:05    |      小编

  3 月 24 日消息,据彭博社援引知情人士报道,蚂蚁集团使用中国制造的半导体开发训练人工智能模型的技术,可将成本降低 20%。该消息透露,蚂蚁集团使用包括关联公司阿里巴巴集团和华为在内的国产芯片,通过所谓的混合专家机器学习方法训练模型,取得的效果与英伟达 H800 等芯片的结果相当。

  对此,蚂蚁集团方面回应称,蚂蚁针对不同芯片持续调优,以降低 AI 应用成本,目前取得了一定的进展,也会逐步通过开源分享。

  蚂蚁集团 Ling 团队的技术成果论文《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展 3000 亿参数混合专家 LING 大模型》已发表在预印版 Arxiv 平台上。

  蚂蚁集团推出了两款不同规模的 MoE 大语言模型 —— 百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为 168 亿(激活参数 27.5 亿),Plus 基座模型参数规模高达 2900 亿(激活参数 288 亿),两者性能均达到行业领先水平。

  除了自研性能领先的大模型以外,该技术论文最大的突破在于提出了一系列创新方法,以提升资源受限环境下 AI 开发的效率与可及性。实验表明,其 3000 亿参数的 MoE(混合专家)大模型可在使用国产 GPU 的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及 MoE 模型相当。

  作为国内较早布局 AI 大模型的厂商,蚂蚁自研的百灵大模型 2023 年已通过备案,重点布局在生活服务、金融服务、医疗健康等场景的应用。

  据技术成果论文,虽然 DeepSeek、阿里通义千问、MiniMax 等系列的 MoE 大模型在特定任务中展现出卓越性能,但是 MoE 模型的训练通常依赖高性能计算资源(如英伟达 H100/H800 等先进 GPU),高昂成本制约了在资源受限环境中的普及应用。

  易倍体育官方入口 易倍体育官网

  同时,近年来英伟达高性能芯片持续短缺,相比之下,低性能加速器供应更充足且单机成本更低。这种差异凸显了构建跨异构计算单元与分布式集群无缝切换技术框架的必要性。

  因此,Ling 团队设定的目标是 “不使用高级 GPU” 来扩展模型,并通过提出创新性的训练策略,旨在突破资源与预算限制实现高效大语言模型训练,从而推动 AI 技术向普惠化方向发展。

  具体而言,团队提出的创新策略包括:1)架构与训练策略革新:动态参数分配与混合精度调度技术;2)训练异常处理机制升级:自适应容错恢复系统缩短中断响应时间;3)模型评估流程优化:自动化评测框架压缩验证周期超 50%;4)工具调用能力突破:基于知识图谱的指令微调提升复杂任务执行精度。

  据技术论文,Ling 团队在五种不同的硬件配置上对 9 万亿个 token 进行 Ling-Plus 的预训练,其中使用高性能硬件配置训练 1 万亿 token 的预训练成本约为 635 万元人民币,但利用蚂蚁的优化方法后,使用低规格硬件的训练成本将降至 508 万元左右,节省了近 20%,最终实现与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当的性能。

  此前,DeepSeek 通过一系列算法创新及工程优化,使用性能较低的英伟达 H800 训练出了性能与顶尖模型相当的 V3 与 R1,为大模型的训练开辟了新的道路,让更多的企业和研究机构看到了降低成本、提高效率的可能性。如果蚂蚁集团的技术成果得到验证及推广,意味着国产大模型能够寻找成本更低、效率更高的国产芯片或其他替代方案,以进一步降低对英伟达芯片的依赖。

  有分析指出,MoE 模型的训练通常依赖于如英伟达所售 GPU 这类高性能芯片,这使得训练成本对许多中小企业而言过于高昂,限制了更广泛的应用。蚂蚁集团一直在致力于提高大语言模型的训练效率,并突破这一限制。从其论文标题即可看出,该公司将目标定为 “在无需高端 GPU 的情况下扩展模型规模”。

  这一方向与英伟达的战略背道而驰。英伟达首席执行官黄仁勋曾表示,即便更高效的模型(如 DeepSeek 的 R1)出现,对计算力的需求仍会持续增长,企业要实现更多营收将依赖更强大的芯片,而非通过更便宜的芯片来削减成本。他坚持打造具备更多处理核心、更高晶体管数量和更大内存容量的大型 GPU 的战略。

  蚂蚁集团的研究论文凸显出中国 AI 领域技术创新和发展速度的加快。如果其研究成果属实,这将表明中国在人工智能领域正逐步走向自主可控,特别是在寻求成本更低、计算效率更高的模型架构来应对英伟达芯片出口限制的背景下。

  压力越大,反弹越有力,中国传统自古就有行到水穷处,坐看云起时,阴阳之道互相转化,看着是困难重重,但春脚步是不会停止的

  易倍体育官方入口 易倍体育官网

  什么叫“通过所谓的混合专家机器学习方法训练模型”,加个“所谓”是什么意思?

  国产人工智能技术发展势头强劲,大模型构建堆叠成效明显,加油,国产人工智能技术!