车东西(公众号:chedongxi)
文 | 晓寒
随着这一轮人工智能技术的兴起,语音交互和图像识别技术迅速在消费电子乃至汽车领域普及。近来无论是国产还是合资品牌上市的新车,在进行市场宣传时无一不在强调其车联网和语音交互功能。
然而就在车企大肆宣传的背后,科大讯飞这类各种语音技术公司才是真正的幕后英雄。
无独有偶,虽然名声不及科大讯飞响亮,但本文的主角,拥有中科院声学所背景,为BAT和小米、华为等一系列巨头提供语音交互技术的声智科技也是不得不提的一个玩家。
随着GTIC 2018全球智能汽车供应链创新峰会重磅嘉宾对话系列报道启动,车东西奔赴声智科技北京办公室,与声智科技战略合伙人、副总裁李智勇展开对话,就声智科技的发展现状、产品体系,以及其对车内语音交互应用前景的看法等关键问题进行了深入交流,弄明白了这家创业为何能够在语音交互领域得到BAT、360、小米等一系列大公司青睐的原因。
一、一家中科院声学所背景的公司
作为一家语音交互技术公司,声智科技最引以为傲,以及对外进行传播时的一个关键标签就是其中科院声学所的背景。声智科技创始人、CEO陈孝良此前为中科院声学所的副研究员,曾参与海军某重大项目(为舰艇研发声学相关的作战设备),以及国家863等科研项目,在声学领域耕耘多年。
2015年,语音交互、智能音箱等技术与设备逐渐在消费领域普及,陈孝良及其团队也开始酝酿到体制外创业。彼时,声智科技战略合伙人、副总裁李智勇则还在360工作,任高级投资经理和战略分析师。
▲李智勇
李智勇告诉车东西,那时候360正在寻找语音赛道上的玩家准备投资,刚好经人介绍认识了陈孝良等人。
聊完之后双方彼此认可,于是李智勇就拉来峰瑞资本一起,向陈孝良及其团队提供了超过1000万元的天使投资(丰瑞资本领投),直接促成陈孝良及其团队于2016年一起离职创办了声智科技,而李智勇随后也以战略合伙人和副总裁的身份加入声智一起创业,负责战略规划和商业落地事宜。
随后在2016年和2017年底,声智科技又先后获得由俞敏洪参与创办的洪泰资本领投的1600万元PreA轮和百度的A轮融资。
李智勇透露,经过2年多的发展,声智科技团队规模已百人,在老的中科院团队基础之上又大量补充了来自亚马逊、腾讯、360等大型互联网科技公司的力量,形成了声学+计算机科学+互联网的团队结构。
二、提供全套语音交互解决方案
粗略来说,目前这波以智能音箱或车内语音交互为代表的中远场语音交互技术主要分为如下几个步骤:
1、由麦克风阵列拾取外界语音命令,并对其进行、降噪、增强等处理。2、将处理后的声音上传至云端并将其识别为文字。
3、用NLP自然语言理解技术对文字进行处理,了解用户意图。4、根据用户意图,为用户反馈内容(如音乐,天气等信息)或者进行具体控制操作(如打开天窗)。
按照这个框架,声智科技目前的核心产品主要集中在1和2,即为B端客户提供软硬件一体的拾音和语音识别系统。
虽然看似简单,其实背后还有不少细分技术。
▲搭载声智科技技术的部分产品
例如在有许多人说话的场景中拾音时首先要识别哪些是噪音,哪些是实际的语音命令。在拾取声音之后还要对不需要的噪音进行处理并增强语音命令的声音才能供识别系统使用。而在语音识别步骤,则需要大量的语料,并运用神经网络才能训练出一个高准确率的识别系统。
“与Siri等挨着手机说话的近场语音交互技术不同,中远距离拾音背景环境复杂噪音更多,不对声音进行处理单靠计算机很难做识别。”李智勇向车东西说道,“而这正是我们声学+计算机科学+互联网的团队结构的优势。”
李智勇告诉车东西,声智科技目前已经拥有百余家客户,包括BAT、小米、华为、360等巨头与大型科技公司的智能语音交互设备都会用到其产品与技术。
除了前两步,李智勇透露声智也在向上述第3和第4步进发,目前已经与各大内容平台完成了对接,从而为一些传统行业的客户提供一套涵盖4大步骤的完整解决方案。
三、车内语音交互的第一要务是便利
对于行驶在公路上的汽车来说,用语音命令来操作导航、音乐系统,或是控制门窗与空调系统被普遍认为是比低头去按按钮更好的交互方式。最近一两年上市的新车,无论是国产还是合资品牌,无一不在强调其语音交互功能,甚至有厂家也就着语音交互技术大肆宣传智能和互联网特性。
但就目前一些车型的实际体验来说,其语音交互系统离智能二字还有段距离,表现为语音识别准确率不够,对语句意思理解不到位,或者是控制功能不足等。
“我觉得目前是一些厂商把出发点搞错了。”对于目前车内语音交互市场的现状,李智勇这样评论道,“我们首先应该解决便利问题,其次才是实现智能。”
在李智勇看来,由于技术所限,目前的各类人工智能技术都是弱人工智能,基于此的语音交互技术也是这样。在这种背景下,车企与技术公司应该先解决最基础的便利性问题,而后才是追求智能。
例如使用语音技术控制导航系统,应该先将产品做到能够准确识别命令,准确搜索到地点,并迅速执行导航操作,而不是去琢磨让语音系统能够听懂多种方言,或者是去猜测用户的目的地等。
那么给汽车与给音箱等设备提供语音交互技术究竟有何异同呢?李智勇认为,两者整体的逻辑相似,最大的不同其实在于声学前端处理与用户判断两个方面。
首先,车内场景环境比室内场景更为复杂多了风噪、胎噪、其他交通车辆的噪音等,同时还包括车内的音乐与乘客之间的交谈等,与室内场景区别较大,因此需要不同的降噪算法。
其次,车内语音交互系统还要具备判断不同乘客的能力。例如“打开车窗”这个命令,如果系统不知道是谁在说话,就不知道究竟是要打开哪一扇车窗,这就要求在车内设置分布式麦克风阵列来予以解决。
“与技术相比,汽车开发的漫长周期和复杂流程才是真正的挑战。”在讲完车内语音交互技术的特点后,李智勇补充道。以设置分布式麦克风阵列为例,在车机里安装麦克风需要找车机的生产商,而如果还要在车顶和车内其他位置安装,又要与其他汽车零部件供应商去沟通,比消费电子产品复杂太多。
四、与腾讯一起让语音交互上车
就在声智科技以其拾音和语音识别方案在消费电子领域攻城略地之时,其也在盯着中国每年2000万+辆的汽车市场。
李智勇告诉车东西,2017年末的时候其也腾讯达成了合作,共同研发一款搭载语音交互功能的车载系统,声智在其中提供拾音及语音识别模块。在声智科技办公室,车东西也看到了这款车载系统的Demo原型,采用了长条状的矩形设计,整体尺寸非常大。
▲声智科技与腾讯合作的车机样机
据悉,这款车载系统目前已经研发完成,腾讯正在与某自主品牌合作推动其量产装车事宜,年底即可看到搭载该车机的3款量产车型上市。
▲声智科技与腾讯合作开发的车载系统Demo
“正如此前说的,由汽车产业比较复杂,因此我们前期在切入汽车产业时也会与腾讯这类合作伙伴一起推动。”李智勇说道。与此同时,李智勇透露称其也在寻求与车企组建合资公司这样的途径来实现自家技术的量产装车。
在采访最后,车东西与李智勇也谈到了车内交互技术的未来发展趋势。
车东西观察到,以蔚来ES8的Nomi为代表,车载交互系统正在具象化,例如蔚来Nomi这样的实体形象可以通过旋转来看着司机乘客,并作出相应的表情,增加语音交互系统的趣味性。
▲蔚来Nomi
李智勇则认为,具象化只是第一步,车内交互系统未来还会与视觉和其他技术结合,做到“读懂”司机乘客。例如车内摄像头能通过观察驾驶员的面部表情来判断其心情状态从而有针对性地与之交谈,或是在看到副驾驶有异性时会自动播放一些浪漫的音乐等。
“车内交互是一个非常有意思的领域,声智也会从语音交互开始,向更多交互方式前进。”李智勇总结道。
结语:从“小事”开始创业
产品层面,声智科技主要围绕语音交互系统的拾音与识别两个步骤进行布局,其中又以远场语音交互技术为其最强项。
表面上看,声智科技只涉及了语音交互产业链里的“小部分”,但其实是在对自己的强项进行深入钻研,仅在远场语音交互领域,声智就开发了包括波束成型、噪声抑制、人声干扰抑制、语音增强、声源测向、声纹识别等几十个细分技术方向,并以这种专业度拿下了BAT、360、小米、华为等一系列巨头或大企业客户。
在把消费电子领域的一件小事儿做好后再切入汽车等其他行业,对于声智科技来说,不失为一个好的发展策略。