新闻资讯
歌尔智能眼镜语音分离算法 解决复杂环境人声混叠痛点
随着AI大模型持续向终端侧下沉,智能眼镜、开放式耳机等近耳设备正成为人机交互的重要入口,消费者也对音频产品的音质表现、智能交互效率与沉浸式体验提出更高要求。针对当前智能眼镜在复杂环境下双向对话与翻译存在的人声混叠、AI识别不准的行业痛点,歌尔在语音采集增强领域首次推出智能眼镜双路语音分离算法。
戴智能眼镜,并于嘈杂环境通话时,对方听不清你说话,这种尴尬你遇见过吗?使用翻译功能时,AI把旁人闲聊视为你要翻译的内容,这种情况你经历过没?这些问题,正成为智能眼镜普及途中的“阻碍物”。
政策东风与市场需求双重驱动

2026年时,政府工作报告明确地提出了要深化“人工智能+”应用,进而推动新一代智能终端普及开来。这一政策所释放的信号,给音频与智能终端产业注入了强心剂,在此之后,智能眼镜、开放式耳机等近耳设备迎来了发展的窗口期。并且,在上海张江科学会堂举办的那场中国国际音频产业大会,恰恰是踩中了这个时间节点。
消费者针对音频产品的需求正处于发生质变的状态,过往大家伙唯独关心 “能不能发出声音”,如今却要求音质具备良好的品质、交互拥有智能化的特性、沉浸感呈现强烈的程度,特别是在于公共场合运用智能眼镜之际,用户期盼既能够清晰地听到内容,又不会对他人造成打扰,这为声学技术提出了程度更高的要求。
复杂场景下的语音分离难题
在咖啡馆、机场、街头等嘈杂环境里,智能眼镜经常性地出现人声混叠状况,当对着对面之人交谈时候,周围背景音以及其他人说话声,皆会被麦克风一同拾取起来,致使AI没办法精准识别出,哪句话是给予它的指令,哪句话是跟朋友的闲聊。
歌尔于大会之上所最先发布的智能眼镜双路语音分离算法,刚好是针对此一痛点,而此套方案可适配多种麦克风阵列组合,借助深度神经网络降噪技术,于嘈杂场景里能按照实际情况精准拾取佩戴者与对讲人双方语音,促使双向对话、能够实时翻译变得更加流畅。
全链路技术能力系统展示
歌尔展台现场将“语音采集增强 + 沉浸式音效”全链路技术能力予以展示,其中除了语音分离算法之外,还把 AI 智能通话降噪、VPU 骨传导鼻托模组、立体声录音等功能进行了集成,这些技术组合而成后,使得智能眼镜于全场景当中都能够维持稳定且清晰的语音交互。
尤为值得予以关注的是,VPU骨传导鼻托模组 ,它凭借感应佩戴者讲话之时骨骼所产生的震动,以此来采集语音信号 ,能够切实有效地规避环境噪音所带来的干扰 ,哪怕是处于地铁 、商场等极为嘈杂的场所之中 ,也能够确保语音指令得以被准确无误地识别。
轻薄设计下的音质突破
智能眼镜因追求轻便,故而常常在声学空间这方面作出妥协,传统产品不是音质显得单薄,就是音量有所欠缺,更别说所谓的沉浸感了,歌尔针对此行业难题,定制研发了高性能扬声器,在有限的体积范围之内达成了音质方面的突破。
他们将低音予以增强、动态那种杂音加以抑制、失真予以消除、立体声之空间予以转化,整合了四项自主研究而得出算法,低音听感的表现如同功效提升3dB之情形,杂音被抑制的比率超过90%,失真被消除的比率最高能达到80%以上,这些所呈现之数据表明的是,用户于听音乐以及看电影之际,能够获取到更接近于头戴耳机的那种环绕效果。
一站式工具链加速产业落地
在智能眼镜品牌商的范畴里,音频方案的开发调试常常极为耗费时间与精力。歌尔所展示的一站式音频工具链解决方案,它涵盖了从算法设计开始,历经仿真调试,一直到产品量产的整个流程。这一套工具链能够把音频应用开发周期缩短大概60%。
原应耗时半年的音频调校工作,如今或许仅需两个月便可完成。对于亟欲抢占市场的智能眼镜品牌来讲,这般效率提升直接转变为竞争优势。产业协同的创新模式,正促使整个行业加速迈向成熟。
从技术突破到体验升级
指向用户体验根本改善的,是语音分离算法以及沉浸式音效的落地。只有当智能眼镜在任何环境下都能稳定工作,用户才会切实将其当作日常使用的设备。歌尔的技术方案眼下正把“能用“转变为“好用”。
现在,这项技术已然步入了能够实施量产的阶段,随着人工智能大模型持续朝着终端一侧下沉,智能眼镜作为人机交互关键入口的地位将会越发稳固,音频技术的每一回突破,都在为这个未来场景铺垫道路。
智能眼镜的音频体验从“听个响”正在经历迈向“沉浸式交互”的跨越,倘若有一天你戴上智能眼镜,在闹市区能够清晰通话、准确翻译着,你会更乐意用它去做些什么呢,欢迎在评论区分享你的想法,也别忘记点赞转发,以便让更多人看到音频技术的新进展。



