车东西(公众号:chedongxi)
文 | 晓寒
自动驾驶技术兴起后,英特尔、英伟达、高通等科技公司纷纷入局,声势浩大地成立了自动驾驶部门并推出了一系列产品。
今年夏天,几位来自微软亚洲研究院,曾参与过Hololens核心算法开发,以及微软认知服务研发的研究员创办了自动驾驶公司——DeepMotion深动科技,算是替微软“补上”了这个缺口。
近日,DeepMotion向车东西独家展示了他们的技术DEMO——一套通过摄像头阵列来帮助无人车实现3D感知、高精地图绘制与定位的方案。DeepMotion方面表示,这是国内唯一一套低成本、高精度的解决方案,技术难度非常之高。
那么这家“微软”系公司背后有何故事?他们的技术路径又有哪些特点呢?且看车东西本期硬创先锋为你揭秘。
一、微软系自动驾驶团队
DeepMotion的办公室位于北京北四环边上的一栋大厦里,面积不算大,但是布局的非常紧凑,今年7月份才刚刚整理完毕。
公司共有四位创始人,蔡锐、李志伟、杨奎元和张弛,分别担任CEO、CTO、首席科学家和研发总监的职务。在创办DeepMotion之前,蔡锐、李志伟、杨奎元 三人已经在微软亚洲研究院工作了将近10年的时间。
(从左到右依次为,杨奎元、李志伟、蔡锐、张弛)
张弛之前虽然还没有正式入职,但是他是微软亚洲研究院与中山大学联合培养的博士生,也参与了很多项目,因此与蔡锐、李志伟、杨奎元三人也非常熟悉。
2016年起,科技圈有两个方向最火,一是AR/VR,二就是自动驾驶技术。“虽然我们整天都扎在项目里做研发,但其实也在密切关注外面的形势。”提起为何要离职创业,DeepMotion的CEO蔡锐这样向车东西说道,“2016火了一整年后,AR/VR技术其实并没有像预期那样爆发,而另一边包括自动驾驶公司在内的AI应用则在高速发展。”
AR/VR和自动驾驶技术之间这种发展落差让蔡锐等人开始思考新的发展路径。
“我们选择创业方向的标准主要有两点,项目的发展前景以及自身的技术储备。”DeepMotion CTO李志伟向车东西介绍道,“相较而言,自动驾驶技术是社会的刚需,也最能改变世界。”
2017年春节前后,李志伟他们在研究了多个方向后,最终选择了自动驾驶作为自己的创业方向。开公司创业就像是盖房子,方向与创始人只是框架,想要发挥房子的功能,一支高质量的团队就像墙壁一样必不可少,而砌墙则需要资金的支持。
“我们四个都不是土豪,”提起创业之初的资金来源,蔡锐并没有遮遮掩掩,他坦言在公司成立前就拿到了投资。
蔡锐告诉车东西,在确定了创业方向后,他们借助身边的朋友将项目BP送到了一些投资人手里,然后就约着和投资人见面。“那天我们约了两家投资方,中午一家晚上一家,”蔡锐说道,“结果两家投资方都在当天确定要投。”
提起微软,大部分人的第一反应都会是word、excel、ppt这些办公软件。那么这支从微软出来的队伍,为何能够做自动驾驶技术呢?
“我们是国内唯一两个参与Hololens软件算法研发的研究员。”李志伟这样向车东西说道。CEO蔡锐和CTO李志伟参与过微软旗下很多项目,但是提起之前的工作,他们最引以为傲项目还是微软的明星AR产品—Hololens。
(Hololens)
在项目期间,李志伟主要负责Hololens 6自由度相机追踪技术,采用了摄像头+IMU惯导模块的VI-SLAM技术方案,解决的是AR头盔的空间位置与姿态问题。与他搭班的蔡锐负责的则是场景重建技术,即用头盔上的深度摄像头去重建外界物体的几何模型,从而将虚拟的画面叠加到真实环境中去,实现AR效果。
首席科学家杨奎元和研发总监张弛虽然没有参加Hololens项目,但两人在微软参与了很多的AI和3D立体视觉相关项目。具体点说,杨奎元研究的是如何用深度学习等AI技术,来帮助Bing搜索、微软小冰等产品实现图片识别与搜索功能。在杨奎元的帮助下,微软必应团队构建了10亿级图像理解平台。
张弛负责的是3D立体视觉,即通过对多个摄像机拍摄的画面进行处理,来恢复出场景的3D几何结构。读博士期间,张弛参加了多个立体视觉方面的评测竞赛, 也拿到过几个第一。
所以总结起来说,DeepMotion的四个创始人在基于计算机视觉的定位、识别、三维场景重建技术,基于AI技术的图像识别等技术方面有着深厚的积累。“之前的技术积累与自动驾驶技术强相关,区别无外乎是应用的领域与具体形式不同罢了。”李志伟总结道。
二、产品:先做一部分技术
从宏观上来说,可以粗略地将自动驾驶系统分为地图定位、感知、规划、控制等部分。
其工作原理即先确定自己的位置并通过高精地图来规划一个行驶路线,在行驶中通过感知系统来探测周边的环境,随后计算模块则根据本车与其他交通参与者的运动信息,计算出车辆应该采取的动作,随后再通过控制系统,让汽车实现加减速和转向等具体动作。
DeepMotion CTO李志伟告诉车东西,这摄像头阵列、GPS、IMU等传感器是严格同步的。FPGA提供了低成本的深度学习计算能力,实现了实时、智能的传感器控制算法。
DeepMotion方面认为,其系统在感知部分有两大优势,一是能够实现像素级的感知能力,二是能够对世界进行3D重构。
(DeepMotion的像素级感知能力)
在其演示的Demo中,除了精准的像素级语义分割外,车东西还观察到DeepMotion的感知画面上显示的是一3D的城市场景,场景中的汽车是一个个立方体,而非一个个绿框。而最为重要的是,这个场景还能左右进行旋转,以及切换到俯视图视角。
(3D重建)
那么这种像素级的感知能力,以及3D场景重建技术对自动驾驶技术来说有什么用呢?
在DeepMotion研发总监张弛看来,自动驾驶汽车对外部信息掌握的越详细,其就越能够做出最佳的驾驶决策。像素级感知系统可以识别出树木、栅栏以及路牙 等更多的物体,而3D场景重构则意味着能让无人车以20cm的精度准确知道自己与道路上其他交通参与者的运动关系,从而做出更好的驾驶决策。
不过需要指出的是,感知系统的识别精细度越高、识别的内容越丰富,其对于计算能力的需求自然也越高。
DeepMotion研发总监张弛也向车东西坦言,上述Demo演示的部分算法确实需要较大的计算量,因此是在英伟达TX2上进行运算的,目前还没有完全放到FPGA计算模块里。
“我们也在着手对这部分算法进行简化,未来会逐步搬到FPGA上面去。”张弛补充道。
当有了高精地图后,无人车在行驶时可以将采集到的图像与高精地图中的辅助定位信息进行比对,再结合着GPS与IMU惯导模块,来确定车辆的的精确位置,例如在道路的哪条车道里面,从而实现高精定位。
三、商业规划:高精地图有望明年商用
第二部分已经提及,DeepMotion目前采取的是先做一部分自动驾驶技术的发展路径,而非是一家全栈式自动驾驶方案提供商。
目前,全球的自动驾驶初创主要两种商业路径,一是做完整的方案提供给Tier1供应商或是车厂,但是这条路径要求技术具有高成熟度,并且时间漫长,并且还面临着Tier1自由自动驾驶技术的激烈竞争。
因此谷歌Waymo、Uber等公司想出了另外一条路径,即与车厂合作来生产符合质量要求的自动驾驶汽车,运营一支自动驾驶车队,直接为消费者提供出行服务。
(谷歌Waymo的无人驾驶网约车)
很明显,不做全栈式解决方案,也就意味着DeepMotion现阶段并无法往这两条路径上靠。那么他们这种发展模式的商业路径又是如何呢?
“TOB,我们目前是一家TOB公司。”DeepMotionCEO蔡锐向车东西说道。在他看来,DeepMotion目前最大的商业模式就是将现有的感知、高精地图和高精定位技术方案输出给其他有需要的公司。
“至少在我们看来,国内没有第二家有这种精确的像素级的感知能力,并且还能实现3D场景重建的方案。”谈及为何能将技术卖出去时,蔡锐也说的直截了当。
蔡锐认为,虽然搞自动驾驶技术的方案商、车厂或是Tier1也都自行在做上述三大部分功能,但是由于团队基因与技术积累问题,各家不一定每个部分都强,因此DeepMotion希望将自己的长处输出出去。
“我们与很多业内公司交流过,”蔡锐说道,“他们看好我们的技术,尤其是高精地图与高精定位部分的能力。”从蔡锐的话中能够看出,DeepMotion的高精地图与高精定位功能在眼下有着更强的市场需求。
蔡锐告诉车东西,他们已经与一些地图商进行了积极接触,对方对这种利用摄像头+GPS+IMU的低成本生产方案非常感兴趣,目前DeepMotion正在与其进行技术论证,并有望在2018年实现商业落地。
据悉,图商或自动驾驶公司一般都在用搭载有激光雷达、高精度RTK定位等设备的地图采集车来制作高精地图,但是上述设备售价高昂,一辆采集车动辄百万甚至数百万元,因此各家的车队规模都比较小,无法大规模采集数据,更何况实时更新数据了。
(高德地图测绘车)
而一旦DeepMotion的技术通过论证,不仅图商可以迅速组建一支大规模的采集车队,并且也让这套采集方案有了众包的可能—即将其部署到大量的社会车辆上,让其在每天的日常行驶中源源不断地采集数据。
不过众包地图也并非是拼凑几个硬件那么简单。
“对于众包高精地图方案,车端计算和云端都是是必不可少的。”DeepMotion研发总监张弛补充道。“云端算法通过全局优化,将收取到的零散的地图数据整合成一张完整的高精地图,这是相当复杂的一件事。虽然我们已经攻克算法难题,但工程实现上还有很多工作要做。”