小米大模型端侧部署探索聚焦于端侧 AI 的发展,深入剖析其重要性、面临挑战及应对技术探索,为未来智能终端应用开辟新径。
端侧 AI 意义深远。于隐私安全,数据本地处理,规避云端传输风险,捍卫用户隐私防线;可靠性层面,网络波动下仍稳健运行,降低连接依赖,提升系统容错力;成本效益显著,削减云端资源需求,大规模部署尤具优势;且能精准迎合用户习惯偏好,定制个性化服务,优化体验。小米凭借海量端侧设备,以软硬件融合为基,矢志攻坚轻量化本地部署大模型技术,抢占智能高地。
然而,端侧部署 LLM 挑战重重。硬件性能悬殊,手机算力、内存及带宽远逊服务器 GPU,存储资源紧俏。如 6B 模型内存占用易超手机容量,拖慢推理速度,未优化时每秒仅处理 20 tokens 以内,难及阅读需求。
为此,小米积极探寻技术革新。剪枝策略多管齐下,移除不重要权重或神经元连接,结构化剪枝因硬件亲和性突出受青睐,借 mask 训练校准损失,少量恢复训练即超越同类预训练模型。量化技术为数据瘦身,将浮点数转为定点数,精心调控量化位宽、粒度、范围并处理离群值,依硬件特性选适配方法,辅以参数弥补手段确保精度不减。投机推理创新发力,化解自回归缺陷,一次性生成多个 tokens,提升带宽利用效率,如端侧 Tree attention 借 logits 采样验证优化推理流程,加速比达 1.7 - 2.1 倍。
小米已在 MiLM 端侧部署迈出坚实步伐,涵盖高通与天玑多平台,适配 1.3B - 6.7B 模型。未来展望气势恢宏,模型性能将攀更强巅峰,个性化服务更趋细腻入微,多技术深度融合协同,持续深挖端侧 AI 潜能,为用户编织更智能、高效、安全的数字生活新篇,引领智能设备变革浪潮,驱动端侧 AI 从理论愿景稳健落地为广泛现实应用,重塑人机交互格局与智能体验范式。