在生成式 AI 的浪潮下,基于实时互动技术的对话式 AI 正加速在各行各业落地实践。但当前 AI 硬件普遍面临交互生硬、情感连接弱、同质化严重等问题,声网带你从技术、场景、情感多方面一起探讨行业破解思路。
6 月 27 日下午,在美丽的泰华梧桐村,深圳湾联合声网和多家企业,从教育、随行、家居、娱乐等不同的侧面,剖析 AI 陪伴的新产品、新技术、新趋势、新机遇!结合 Labubu IP 热潮提出核心议题:如果硬件能对话,情感陪伴价值如何突破?旨在连接行业伙伴,碰撞 AI 硬件落地新火花。
本文内容基于声网 AIoT 产品总监冯晓东《对话式 AI 硬件破局新思路》的分享和对话实录整理,探讨了 AI 硬件的机遇和挑战,以及声网基于实时互动技术打造的对话式 AI 解决方案。
声网 AIoT 产品总监冯晓东,毕业于哈尔滨工业大学,现任声网对话式 AI 开发套件产品负责人。拥有超 10 年行业经验,曾于霍尼韦尔、UCloud负责物联网产品开发。深耕多模态交互与实时语音技术,聚焦对话式 AI赛道,推动其在陪伴、教育、智能家居等场景落地。
自 ChatGPT 引爆 AI 硬件市场后,万物皆可 AI 的印象已经逐渐深入人心,而海内外大小玩家的纷纷入局,让这个市场始终处于蓬勃发展的阶段。
市面上将对话式 AI 或者 AI 硬件主要分为两大类,一类是生产力工具,一类则是情感陪伴。
前者已经很常见了,从最早的 AI 翻译耳机、办公类的个人笔记、个人助手,比如早期最负盛名的 Ai Pin,都是往生产力工具的方向去做。
但其实大家忽略了情感陪伴的场景,从现在来看,情感陪伴也是有着巨大的市场空间的,而且它涵盖的面也很广,从 AI 宠物,到 AI 情感陪聊,还有追星、占星等等。
根据 IDC 的数据,截止到 2025 年,智能玩具的市场规模在 250 亿美元,其中 AI 相关的产品占比约三成,而 AI 产品中与 GPT 相关的也占了三成,也就是说,生成式 AI 相关的规模大概在 25 亿左右。
另据 IMARC 预测,到 2033 年,全球市场规模将增长至 600 亿美元,年复合增长率达 16%~20%,其中亚洲市场占据主导地位。
大家都想要一个 J.A.R.V.I.S.,但是现实却是平台上居高不下的退货率。来自京东消费产业人士的认为,过往的 AI 硬件居高不下的差评率都来源于交互体验上,核心问题无外乎三点:
而在复杂的家庭环境中,背景噪音、其他人的打断等随机因素让有效语音的识别率仅有 65%。
还有 AI 玩具普遍缺乏「打断」机制,当用户试图纠正 AI 的错误回应时,需要等待机器的「自说自话」,对于沉浸感的破坏程度相当明显。
当你试图和一个 AI 硬件对线 轮左右的对话后就能知道对方是个 AI 而无法产生任何情感的共鸣。但是对百分之八九十的小朋友而言,当 Ta 和一个宠物去沟通交流的时候,能够在 10 分钟内迅速产生情感投射的行为。
市面上有大量的开源硬件、开源方案,而为了迅速上市,不少企业选择不做定制化开发直接上市,这样的短期主义造就了市面上大量的没有生命力的同类型产品,最终让产品走向了退货、吃灰的结局。
一是根深蒂固的硬件思维,追求快速量产、拼参数、压成本和一次性销售,这样的传统硬件思维在 AI 时代并非良药。过度比拼参数和成本而忽视体验导致产品缺乏粘性,用户容易退货。
而 AI 硬件的核心高成本在于云端服务如 ASR、大模型、TTS、RTC,而非硬件本身。因此,赚钱的思维需要转向产品思维,从硬件思维向体验思维转变,后者则需要我们去考虑情感的连接、对话的流畅度。
另一个困局则是国内用户长期的付费习惯,如音视频付费的习惯在国内花了近 20 年才培养起来,现阶段国内用户对软件/服务付费的认知尚未培养成熟。若希望 AI 硬件的行业持续发展,则必须建立支持持续付费的理念,一旦用户产生粘性并愿意为增值服务付费,就能构建出健康的商业模式。Alexa 的语音包付费率达 62%,Google Nest 的服务付费率达 42%,而硬件本身的利润微不足道,这足以证明体验驱动的持续付费模式是可行且可持续的出路。
面对这些问题,应该先忘记卖硬件的想法,想想如何「卖体验」。硬件只是入口,如何打造高价值的场景和良好的体验,才是产品的价值所在。
去年 10 月,OpenAI 推出了震惊全网的 Realtime API,开发者接入 Realtime API 后,就可以为产品带来更好的互动体验。而声网在美国的兄弟公司 Agora 就是语音合作伙伴之一。
声网不做硬件,只专注于让设备拥有「数字灵魂」,这是对传统的「硬件思维」发起的挑战,让其内在的交互能力和体验,成为产品的价值所在,而非物理参数的堆砌或者一次性的销售。
从最早的确保「听得见」(QoS 时代),到「听得清、听得懂」(QoE 时代),最终实现「听得心」的跨模态、拟人化交互(AI QoE 时代)这一阶段。
为此,声网推出了核心的「对话式 AI 引擎」,让 AI 知道何时该听/说、如何实现带语义理解的自然打断、如何表达得更自然更拟人。
针对硬件行业,声网发布了对话式 AI 开发套件,提供了一整套的在硬件场景里端到端的解决方案。
加上声网在业界内对芯片的广泛支持,甚至能够做到一小时从跑通 Demo、一天实现产品原型送样到量产的惊人速度。
此外,声网还汇聚了全球最全的 ASR、LLM、TTS 供应商。在这样的背景下,声网还积极融合在娱乐、教育等领域积累的经验和用户洞察,构建了开放的生态,把「低延迟、高自然度」的能力开放给 AI 硬件,加速 AI 硬件的体验落地、降低创新门槛。无论是国内大厂还是海外创业团队,让他们都能用同一套引擎,专注自己的场景创新。
如果你对上面这些论述没有概念的话,国内几个真实案例或许可以帮你更加了解声网在 AI 硬件体验升级上的功力。
来自珞博智能的芙崽(Fuzozo)是声网技术赋能的标杆案例,它成功的原因在于它真正实现了有温度的情感陪伴。
在早期,珞博智能就把真正的能力放在了 MEM(多模态情感大模型)和长周期、长期记忆上,并没有选择去卷硬件、卷参数。剩余的体验相关和其他部分就交给了第三方和声网。
借助声网对话式 AI 的能力,芙崽大幅优化了 AI 交互的实时性和稳定性,让实时情感陪伴和个性化交互的核心体验能够最大化得到保障,为用户带来了全新的陪伴体验。
今年 3 月,集贤科技发布了「灵语灵珠」 AI 玩具创新计划。灵语灵珠 AI 玩具采用了声网的对话式 AI 开发套件,快速实现了 AI 语音交互的能力,让 AI 玩具更智能、更灵敏、更安全。
去年 11 月发布的 Looktech AI 眼镜来自回车科技。这款 AI 眼镜的一大亮点就是搭载了基于 ChatGPT-4o、Claude、Gemini 等大模型的 AI 助手 Memo,具备自然对话和记忆功能,并通过丰富的智能体小程序满足用户在不同场景中的需求。
在声网的对话式 AI 能力的加持下,用户和 Memo 进行语音交互时,实现了超低延迟响应、噪声屏蔽以及智能打断等能力,让其核心体验更上一层楼。
专注于 AI 角色化智能硬件的赛博创力,致力于推动 IP 潮玩行业的 AI 化产业升级,对于其产品核心的语音对话体验,也基于声网的 RTC 技术来实现了稳定的实时响应、语音换角、情感断点等能力。
如果 Labubu 能和你对话,抛出这个话题之前,很多读者留言表示,大 IP 根本不想说话怎么办?面对这个问题,声网其实在思考的是:假如 IP 会说话,我们应该干什么?
声网在与珞博 Fuzozo 合作的产品做出来之后,已经有很多类似做陪伴的硬件来找声网,希望它们能开口说话。
但声网的调研结果显示,很多用户、特别是女性朋友,希望的是 IP 不说话最好。一方面是用户需求,还有一方面则是对话体验和来自 token 方面的压力。
珞博在产品设计时做了一个非常巧妙的事情,就是把芙崽的五个角色设定为外星人,在有限的时间内才可以张口说话。
声网并不会定义什么场景应该怎么说、说什么话,这个更多的是产品方要做的运营。而至于角色和对话设计,赛博大舞台做得蛮不错,尤其是对于人物的刻画方面,能摸索出一条属于 IP 场景下独有的路。
声网解决的就是实时音频和实时视频的能力,实时音视频或者多模态,目前比较看好的是两个场景:
目前大量的小朋友用豆包做各种各样的试题、背诵、单词,手机明显不是一个很好的硬件载体,很多家长不太愿意让孩子用手机。教育行业和硬件多模态结合是趋势,这一领域的 AI 硬件也是声网落地最多的场景。
未来的个人助手一定是多模态结合的,它能够感知你,除了天天听你说话之外,还会看到你所看到的东西,通过理解你看到的东西,同步你的认知表达,对你个人持续的增进了解。而随身助手最好的硬件载体就是智能眼镜。
小结一下,当前 AI 硬件的痛点包括交互生硬、情感薄弱、同质化严重,根源在于过度追求硬件参数而忽视情感连接。对话式 AI 硬件需要从「硬件思维」转向「体验思维」,打破「理想丰满,现实骨感」的行业困境。
声网提出「AI+IoT」新思路——硬件仅为入口,服务才是终身价值。通过声网 RTC 技术实现用户体验的提升,为 AI 硬件注入数字灵魂。■