摘要:语音交互属人机交互的范畴,是一种比较前沿的交互方式。
当初,苹果SIRI的智能语音控制功能惊艳一时,语音交互带给人类巨大便捷。如今,近场(近距离)语音交互的辉煌成为过去,远场(远距离)到来。
语音交互属人机交互的范畴,是一种比较前沿的交互方式。今年7月,小米AI音箱发布,其最大亮点就是此类功能,用户只需说一声“小爱同学”就可唤醒它。所有智能设备与人的语音交互,都离不开一套可听清人声、从而做出反应的“唤醒技术方案”。
而声智科技就是小米AI音箱麦克风阵列和“唤醒技术方案”的提供者。带着对该技术的疑问,投资家网记者在近日采访到了声智科技创始人陈孝良,听他聊聊声智与语音交互技术背后的故事。
声智的唤醒技术方案
陈孝良早前在中科院声学所任职,从事工业级、国防级声学相关研究。2016年,语音交互市场持续火热。在经过多番调研、反复思量后,陈孝良与他在中科院的朋友成立了声智科技。
成立以来,声智科技专注于远场人工智能交互,提供从软硬件到云服务的远场语音交互技术方案,以及从芯片模组、PCBA到工业设计的Turnkey产品方案。
语音交互的基础建立在智能设备可以准确收集、识别人声,从而达到唤醒。在唤醒技术方案上,声智科技推出了领先行业的单麦/双麦,4+1, 6+1等麦克风阵列方案。
所谓麦克风阵列,就是收集语音数据的前端硬件,只有精准收集人声,才能谈人机交互。
传统的单麦克风系统只适用于低噪声、无混响、距离声源很近的情况,比如人和手机语音助手的交互。而在远距离语音交互场景中,距离声源远、环境中的大量噪声、多径反射和混响都会导致拾取信号的质量下降,严重影响语音识别率。基于此,多麦克风处理语音的麦克风阵列应运而生。
麦克风阵列是按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。
而在市场上大卖的亚马逊Echo智能音箱,就是使用4麦以上的麦克风阵列。声智的4+1, 6+1等麦克风阵列方案可以说领先行业。
采访中,陈孝良显得很健谈。唯独谈及语音交互市场现状时,他减慢了语速冷静分析着自己投身的行业。
语音交互市场的现状
尽管语音交互市场持续火热,但整个行业还存在诸多现实的问题。
首先,远场语音交互的声音辨识度还很低。
复杂的现实环境和实验室的环境天壤之别,不同场景中有不同的噪音,智能设备如何在复杂环境中准确识别人声,一直是行业的最大痛点。
“声智的远场语音识别率,目前已达到90%,但是距离人和机器随心所欲的对话还有一个漫长的阶段”陈孝良坦言。
产品落地的迫切
远场语音交互技术不应用在实际产品上,它就只是一个实验室研究。
市场上的语音产品中,将这项技术应用在智能音箱上的居多。亚马逊的 Echo、 京东的叮咚、小米AI音箱、阿里的天猫精灵,可以看出,只有落地产品才能抢占市场份额。
巨头布局整个生态
回顾过往,整个语音交互市场从来不缺巨头的参与。
国外的微软、谷歌、苹果、亚马逊早早布局了各自的语音产品,国内百度、京东、阿里也相继进入语音交互市场。
声智的竞争优势
不久前,声智科技宣布完成近亿元的A轮融资,由百度、蓝港互动、洪泰基金、峰瑞资本联合财务投资。
资本垂青的背后,是声智在前景广阔的语音交互市场中独特的优势:
一、一体化语音交互方案
“做为整个生态链里的技术解决方案提供商,声智在技术上一定要具备优势。只有得到市场验证的技术,才可以获得合作伙伴的认可。”陈孝良对记者说到。
完整的语音产品方案除了麦克风阵列为主的硬件前端,还有云端、合作内容两部分。
硬件前端是麦克风阵列、降噪算法、芯片、硬件平台等;云端是语音识别和语义理解、语音数据;合作内容是音乐、天气、短信、通话等应用工具。
声智科技的一体化语音交互方案包括了领先的麦克风阵列方案,以及云端服务。
基于这些核心技术,百度、腾讯、小米、360、联想等著名品牌相继与声智建立合作。
二、在各个领域实现产品落地
目前,声智科技在智能家居、智能汽车、智能安防、智能金融、智能教育都有落地产品。
除了在智能音箱领域与小米的合作,声智在智能安防领域有 “奇虎360小水滴智能摄像头;智能机器人领域有“奇虎360儿童陪伴机器人”。
而在智能车载领域,声智科技对准驾驶员语音控制和全车语音控制的用户需求,提供了单麦识别优化算法和分布式麦克风阵列方案。
三、持续盈利
不止语音交互市场,纵观整个人工智能行业,可以实现持续盈利的公司也没有几家。人工智能领域,还处于投入开发阶段。
声智科技做为一家技术驱动型公司,通过卖技术、产品、服务,已达到持续盈利。
“我们的产品质量上好一点,成本上控制低一些,这些可以形成竞争优势。最早的时候,一套开发板卖几千块,也是营收。”陈孝良感慨。
语音交互市场的巨大前景
与其他行业相同,国内语音交互市场同样依赖国外核心芯片。同时,国外巨头虎视眈眈准备进军中国语音交互市场。我们国家整个语音交互市场的现状非常严峻。
不可否认的是,语音交互市场的前景是广阔的。人工智能带来的社会变革,就是让人类选择更便捷的生活方式。
在众多智能产品中,用户可以通过各种手段对其进行控制,而语音交互无疑是最便捷的操控手段。所以,人工智能的发展将与语音交互发展深度相连。
在这场智能变革的浪潮中,持续优化远场语音交互体验、打通与产业链上下游企业的合作,正是声智科技未来应做的事。
首席内容指导:投资家网蒋东文(曾用名:蒋冬文)
8月以来,港股市场在月初经历了短暂的调整之后,展现出了强劲的韧性,迅速实现反弹,并迎来了连续四周的稳...
投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。
2016年注册于北京的中氢新能技术有限公司,下设位于大兴的装备制造公司、位于海淀区的技术研究院、材料...
一度无比高光的理想汽车,猝不及防遭遇重挫。
2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...
2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...
2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...