DeepSeek打破GPU算力限制绕过英伟达开启国产适配新征程

 公司新闻     |      2025-04-07 06:13:15    |      小编

  在当下科技飞速发展的时代,AI 领域的每一次突破都备受瞩目。近期,DeepSeek 的大语言模型在全球范围内爆火,再次将 GPU 算力限制这一关键话题推到了大众视野的中心。这一事件不仅引发了科技界的热烈讨论,更在全球范围内掀起了对 AI 技术发展方向的深刻思考。

DeepSeek打破GPU算力限制绕过英伟达开启国产适配新征程(图1)

  随着人工智能技术的迅猛发展,大语言模型的训练和应用对 GPU 算力的需求与日俱增。然而,美国政府接连出台的制裁方案,已对我国 AI 算力供应形成全面围堵之势。

  在 AI 成为中美科技企业争相投入的重要发展方向之际,我国在大模型领域与美国的差距正逐步缩小,且在自动驾驶、机器人等 AI 应用方向形成领先优势,这使得美国在 AI 相关领域对我国的制裁持续收紧,试图通过硬件限制来制造模型上的代差。在此背景下,GPU 算力的获取和使用成为了我国 AI 产业发展的关键制约因素。

DeepSeek打破GPU算力限制绕过英伟达开启国产适配新征程(图2)

  长期以来,英伟达凭借其 CUDA在 AI 芯片领域占据着垄断地位。CUDA 是一种软硬体整合技术,作为通用编程框架,它能让开发者利用英伟达的图形处理器(GPU)进行计算,大大降低了研发大模型的难度。全球 90% 的 AI 论文实验基于 CUDA,特斯拉用它训练自动驾驶,OpenAI 用它搞出 ChatGPT,学术界甚至将 CUDA 代码当作 “科研货币”,这就是英伟达能够成为最具价值的美国科技公司,以及其 CEO 黄仁勋敢称 “英伟达就是 AI 基础设施” 的底气所在。

  但最新的发现却令人眼前一亮。DeepSeek 在研发大语言模型时,做出了一个大胆且极具创新性的举动 —— 绕过了英伟达的 CUDA 框架。当使用英伟达的 H800 芯片训练时,DeepSeek 采用的是英伟达底层硬件指令 PTX语言,而非行业通用的高级编程语言 CUDA。

  DeepSeek 模型在当下的人工智能领域中展现出了诸多优势,在性能、开源性、成本等多个方面都有着突出的表现。与那些专有 AI 模型不同,DeepSeek 的开源属性意味着企业和开发者能够自由地使用和定制它。

  他们可以根据自身的业务需求和应用场景,对模型进行个性化的调整和优化,极大地拓展了模型的应用范围和灵活性。无论是开发创新性的应用程序,还是进行学术研究,开源特性都为使用者提供了便利,促进了技术的交流与共享,推动了人工智能技术的快速发展。

  DeepSeek 的旗舰模型 DeepSeek - R1 采用了混合专家(MoE)架构,拥有 6710 亿参数,通过这种架构实现了较高的计算效率和显著的性能提升。模型系以 transformer 架构为基础,自主研发深度神经网络模型,并基于注意力机制,通过海量语料数据进行预训练,还经过监督微调、人类反馈的强化学习等方式进行对齐。

  在训练过程中,DeepSeek 运用了多头潜在注意力(MLA)等先进技术来提高效率,通过混合专家(MoE)技术来优化计算能力。尽管与主要竞争对手相比,DeepSeek 在资源使用上相对较少,但凭借这些先进技术,它依然能够提供令人瞩目的性能。

  在美国数学竞赛和全国高中数学联赛上,大幅超过了其他所有开源闭源模型,生成吐字速度从 20tps 大幅提高至 60tps,相比 v2.5 模型实现了 3 倍的提升,能够带来更加流畅的使用体验。

  DeepSeek 能够处理广泛的任务,包括自然语言处理、代码生成、数学推理等。它就像一个高度智能的助手,既可以理解和处理人类语言,又能与计算机代码协同工作。

  在自然语言处理方面,它可以实现语义分析、问答对话、篇章生成等任务;在代码生成领域,DeepSeek - coder 系列模型在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能;在数学推理方面,DeepSeek - math 也展现出了接近顶尖模型的水平。

DeepSeek打破GPU算力限制绕过英伟达开启国产适配新征程(图3)

  DeepSeek 在训练成本上具有明显的优势。例如,DeepSeek - v3 这个参数量高达 6710 亿的大模型,在预训练阶段仅使用 2048 块 GPU 训练了 2 个月,且只花费 557.6 万美元,其训练费用相比 GPT - 4 等大模型要少得多。

  DeepSeek - v3 的使用价格也比平均价格更便宜,每 100 万个 token 的价格为 0.48 美元,其中输入 token 价格为每 100 万个 token 0.27 美元,输出 token 价格为每 100 万个 token 1.10 美元,整个训练过程仅用了不到 280 万个 GPU 小时。较低的训练成本和使用价格,使得 DeepSeek 对于企业和开发者来说更具吸引力,能够在保证性能的同时,降低研发和使用成本,提高资源利用效率。

  对于程序开发人员而言,CUDA 是一种更加友好的高级语言,开发者只需专注于程序和算法的运行逻辑,无需过多考虑程序在 GPU 等硬件上的具体执行方式,开发难度较低。而 PTX 接近汇编语言,允许进行细粒度的优化,如寄存器分配和 Thread / Warp 级别的调整,但这种编程方式极为复杂且难以维护,这也是行业普遍使用 CUDA 的原因。DeepSeek 此举,意味着他们将优化做到了极致。

DeepSeek打破GPU算力限制绕过英伟达开启国产适配新征程(图4)

  这说明DeepSeek 拥有擅长写 PTX 语言的内部开发者,若之后使用国产 GPU,在硬件适配方面会更加得心应手。只要了解国产硬件驱动提供的基本函数接口,就可以仿照英伟达 GPU 硬件的编程接口编写相关代码,让自家大模型更容易适配国产硬件,这为其在不同硬件环境下的广泛应用提供了可能性,有助于突破外部技术限制。

  易倍体育官方网站 Emc易倍体育

  目前,DeepSeek 已在适配国产 GPU 方面取得了显著成果,已全面适配华为昇腾系列 AI 处理器,支持在昇腾平台上进行高效的推理和训练任务;与天数智芯在高效协作下,仅用时一天便成功完成了与 DeepSeek R1 的适配工作,并正式上线多款大模型服务;还完成了对摩尔线程 MT 系列 GPU 的适配,支持在其硬件上进行深度学习任务,DeepSeek V3 和 R1 模型也完成了海光 DCU 适配并正式上线。

  韩国的一名分析师表示,“这凸显了 DeepSeek 非凡的工程水平,并表明美国对华制裁加剧的‘GPU 短缺危机’激发了他们的紧迫感和创造力。”

  在当前美国制裁的大环境下,DeepSeek 的这一突破无疑为我国 AI 产业的发展带来了新的希望和机遇。它不仅展示了我国科技企业在困境中突破技术封锁的决心和能力,也为国产 GPU 的发展和应用开辟了新的道路。

  DeepSeek 的成功,让我们看到了绕过国外技术垄断,实现自主创新和技术突破的可能性。随着越来越多的企业关注和投入到这一领域,未来 PTX 语言有望得到进一步的发展和优化,甚至有可能成为上位替代,与 CUDA 分庭抗礼。

  DeepSeek 绕过 CUDA 的这一创举,不仅是其自身技术实力的体现,更是我国 AI 产业在应对外部挑战时的一次勇敢尝试和突破。相信在未来,随着技术的不断进步和创新,我国的 AI 产业将能够摆脱外部的限制,实现更加独立自主、高质量的发展。