智能音箱的战场,却成了这家公司的红利收割场

锌财经

2019-11-16

+ 关注

作者 | 许梦

来源 | 锌财经(ID:xincaijing)

2015年京东和科大讯飞合资成立的灵隆科技,推出第一台中文智能音箱。到现在国内智能音箱大战已然战旗烈烈。

今年天猫精灵、小米AI音箱相继宣布销量突破1000万台大关,百度也传出2019年智能音箱的KPI是1000万台。

从占据市场前三的小米小爱、百度小度、天猫精灵魔盒,到华为智能音箱、联想音箱、腾讯王者荣耀智能机器人……在这场音箱鏖战背后,却有一家共同的远场语音技术服务商——声智科技。

他们主要为B端用户提供SoundAI

Azero智能操作系统和服务,以及深度结合应用场景的人工智能技术和产品解决方案,并拥有声学传感阵列,远场声学处理,远场语音唤醒,远场语音识别,远场双工通话,远场声纹识别等自主核心技术。

我们平常使用的智能音箱的智能交互服务大多是声智提供技术支持。可以说,声智科技是伴随着智能音箱赛道兴起应运而生的。

使用SoundAI Azero智能操作系统的产品

时间倒回三年前,市场并没有多少人看好语音交互。“那时候大家觉得人脸识别会更好,因为它涉及到安防,政府会有一定的需求。”声智科技创始人、董事长兼CEO陈孝良说。

图像光靠人脸识别就可以重金卖出,相比之下,语音从收集声音、降低环境干扰到识别口音和方言、转化文字等,技术链条过长,而且交互落地场景匮乏,市场前景不明。

但陈孝良认为,声音可以解决人跟物的连接问题,这是个更大的市场。从中科院声学研究所出来,从语音识别领域切入,他创办了声智科技。

语音识别技术,就是为了让机器人听明白人在说什么。语音识别是让机器通过识别和理解,把语音信号转变为相应的文本或命令。通俗来说就是给机器装上耳朵,让机器听懂人类语言,实现人与机器交流。

远场语音识别是通过麦克风阵列前端处理算法,即使在三至五米的距离说话也可准确识别。而近场语音识别,主要指手持设备近距离语音,比如输入法中的语音输入。

彼时,行业普遍的技术思路是从近场过渡到远场,在近场环境中加一些模拟噪声、模拟环境等。

从中科院副教授辞职创业,陈孝良对于方向想得明白。他认为,远场语音交互是未来人机交互的趋势之一,声智直接就是做远场语音交互。和不少AI公司一样,声智刚开始也是从安防领域切入。

当时,360也正在寻找一个能解决摄像头远场语音问题的技术服务商。很多摄像头虽然能录像,但是摄像头距离一拉远,收音含混不清。当360找到他们,双方一拍即合。声智抓住这一市场痛点进行针对性研发。成立3个月后,声智提供技术支持的首款语音安防产品——奇虎360小水滴智能摄像机正式上线。

奇虎360小水滴智能摄像机

“摄像头销量很好。”陈孝良告诉锌财经。第一个订单不仅吸引来了360这个重要客户,后来360也成为第一波押注声智的股东。2016年5月,声智拿到了峰瑞资本、奇虎360、润浙资本的上千万天使轮融资。

如果说和360的合作是试水成功,那么成为小米音箱远场语音交互方案的唯一供应商,让声智一炮打响。

2016年8月,小米联创王川来声智考察技术。彼时,陈孝良团队已经做出了智能音箱模型。

在硬件上,声智科技凭借声学信号方面的技术积累,研发出单麦、双麦、4麦克风阵列、6麦克风阵列和8麦克风阵列等。其中麦克风阵列集成了全方位唤醒、声源检测、定向拾音、噪音拟制、混响消除、回声抵消、声纹识别等多项技术。

据陈孝良介绍,小米AI音箱包含6麦环形阵列技术和远场唤醒技术,具有Dual-wake、Free-cut、One-shot等独有的定制功能。而在小爱音箱mini上,声智提供了4麦远场语音交互技术,解决了小型智能音箱体积较小(麦克风阵列与大音量喇叭相距很近)、低成本喇叭失真较大的技术困难。

小米AI音箱

智能音箱为声智在人工智能硬件领域撕开了一个口子。随后,百度、阿里、联想、华为等客户纷至沓来。

为什么选择一个成立不到两年的初创公司作为技术提供商?陈孝良认为,靠的是技术的黏性。语音交互技术不断迭代,只有跑在前头了,才有后边客户的积累、数据积累以及市场规模的积累。

在语音交互的领域,除了单点实验的突破外,最重要的是规模化验证。谁最先实现规模化,谁就会占领先机。

声智是通过使用麦克风阵列及相关算法,对目标说话人的声音进行远场增强并匹配远场语音识别。在技术落地之初,很多厂商设备的芯片、传感器与其麦克风阵列并不兼容。

声智的解决方案是最大限度屏蔽芯片的差异化,通过算法处理芯片、传感器、麦克风阵列不一致性的问题,以此实现产品的规模化。

“厂商在芯片上要支持你,传感器也要支持你的算法,要实现兼容,需要推动整个产业链条。”陈孝良提到。他回忆那段日子,每天游说于芯片厂商、传感器厂商之间,说服他们进行产品升级。通过算法的更新优化减少对硬件的依赖,进而降低芯片成本,设备的成本也得以迅速降下来。以智能音箱为例,其价格从一上市的上千元已经降至现在几百元。

在横向上,陈孝良团队不再满足于做单点语音硬件突破,开始在各种各样的设备以及应用场景中实现智能语音功能。也就是说,无论是什么智能设备,不管用在哪个场景里边,都能嵌入智能语音应用。

从攻坚单点技术,到追求底层架构泛化, SoundAI Azero智能操作系统问世。这是一套底层AI

OS,在该系统上,企业可根据自己的需要可进行二次开发。

“作为技术产业链条中的一环,那我们就希望提供一套通用的,能够支持二次开发的,能够兼容更多设备和场景的AI操作系统,让客户在上面去开发他们逻辑以及开发自己的产品。”陈孝良说。

在这套通用交互系统里,无论设备是带屏使用还是语音操作都可以,交互方式兼容。

Azero系统默认集成信息查询、影音娱乐、LOT控制等200+项常用技能与服务 图片来源于受访者

智能音箱之后,声智也将范围拓展至智能电视、机顶盒、智能卫浴等智能家居领域,在汽车、安防、金融、教育、医疗、机器人等行业,都看到了SoundAI

Azero智能操作系统的身影。

他们服务的客户规模也越来越大、title也越来越响,华为、小米、百度、腾讯、阿里、中国移动、中国联通、中央人民广播电台、联想、创维、宝洁、万科、奇虎360、金蝶、浪潮、国美……声智已然在远场语音交互占据大半江山。

陈孝良没有放慢节奏,而是加快了脚步,面对一直在变化的市场,陈孝良和他的团队随时出击。

2074阅读 111人喜欢
创业快讯 查看更多精彩内容 打开