特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

车东西(公众号:chedongxi)
作者 |  James
编辑 |  晓寒

特斯拉纯视觉自动驾驶的秘密,被自家高管全曝光了!

不久之前,特斯拉取消了Model 3和Model Y车型的毫米波雷达,在全球第一个实现了纯视觉的L2级自动驾驶系统,引起了自动驾驶行业以及相关机构的密切关注。

马斯克虽然简单解释过走纯视觉路线的原因——避免多传感器感知结果不一致的问题,但外界对这答案并不满意,依然有不少观点在质疑特斯拉的做法。

而特斯拉的AI高级总监Andrej Karpathy刚好在日前发表了一篇干货十足的演讲,从技术的角度详细介绍了特斯拉走纯视觉路线的原因,以及背后的核心做法。

Andrej的演讲时长为40分钟,但是他本人语速惊人,甚至可以说内容量至少是是40分钟演讲的1.5倍,并且给出了大量技术细节与实际案例,非常具有说服力。

他在演讲中讲到,从特斯拉开发自动驾驶之初,就没有考虑为车辆加入激光雷达和高精地图,因为这会导致建图、维护成本大幅上升。而随着AI能力不断提升,特斯拉直接取消了毫米波雷达。

纯视觉感知最大的问题就是无法测量距离、速度和加速度。不过纯视觉感知和人眼类似,人脑能“脑补”出距离并拥有优秀的驾驶技术,神经网络同样有这样的能力。

在过去4个月时间里,特斯拉人工智团队的核心20名成员搞定了这件事。

特斯拉收集了221种共100万段10秒钟的短视频,利用对物体自动标签化,经过7轮影子模式循环,最终在纯视觉感知中取得了不错的效果,超越了毫米波雷达+摄像头的传感器融合方案。

特斯拉甚至为此建立了一台全球排名第五的超级计算机,采用5760个英伟达A100 Tensor Core GPU,10PB容量的NVME存储。

以下为Andrej Karpathy演讲核心内容的编译。

▲特斯拉AI高级总监在CVPR 2021上的演讲

一、毫米波雷达表现不稳 特斯拉更相信视觉传感器

演讲开始时,Andrej首先谈到了自动驾驶的必要性,并且总结了自动驾驶的三大优势。

人类驾驶一辆车,反应时间通常需要250毫秒;观察周围交通环境通过旋转头部看后视镜判断;同时人的精力有限,难免出现注意力不集中的现象。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲人类驾驶VS机器驾驶

当机器在驾驶时,反应时间通常小于100毫秒,拥有360度的感知能力,同时机器永远不会累。

Andrej说道:“全球每天有近3700人在车祸中丧生,自动驾驶技术能够显著减少车祸发生的概率。同时,由人类驾驶的出行成本太高,如果机器驾驶出行成本也将明显降低。”

因此,自动驾驶技术十分必要。

从十多年前开始,谷歌等科技公司开启了自动驾驶技术的研发。从当年的视频中可以看到,谷歌的表现并不出色,在一个左转路口处方向飘忽不定。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲谷歌无人车多年前的自动驾驶表现

经过长时间的研发,自动驾驶技术应对各种场景的表现都能做到非常出色。同时,行业内也发展出了两条截然不同的感知技术路线。

其中一条是纯视觉感知,另一条是激光雷达、高精地图、视觉传感器的融合感知。

Andrej说道:“很多自动驾驶车辆在车顶装上昂贵的激光雷达,就能够感知360度的环境,并测量距离。不过,如果要使用激光雷达,还需要高精地图的匹配。根据高精地图存储的车道线、红绿灯等信息,就能够实现自动驾驶。”

不过,特斯拉所走的路线完全不同。特斯拉希望基于环绕车身的8个摄像头实现自动驾驶。当车辆行驶在道路上时,需要自动驾驶电脑判断哪里是车道线、哪里是红绿灯。

也就是说,激光雷达+高精地图的技术路线本质上是匹配的过程,而纯视觉技术路线则是寻找的过程。

同时,Andrej指出,纯视觉方案显然是一个更具拓展性的技术路线。当前,特斯拉在全球范围内已经交付了百万辆汽车,因此打造一套全球范围的高精地图并不现实,因此特斯拉选择了纯视觉的技术路线。

他说道:“想要实现纯视觉感知实际非常困难,需要基于视频打造非常优秀的神经网络。不过,一旦纯视觉系统真正投入使用,将是一套通用的系统,并且理论上全球任何区域都能使用。”

几年前特斯拉开始研发Autopilot时,就已经确定不使用高精地图和激光雷达,全车的传感器有8枚摄像头和1个毫米波雷达。从几年的成果来看,无论是实际效果还是功能丰富程度,特斯拉在量产自动驾驶行列中一直处于头部。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲特斯拉希望仅使用视觉传感器完成自动驾驶

Andrej说道:“特斯拉已经把其他传感器(激光雷达)‘扫进了尘埃’中。”

与此同时,特斯拉没有停止前进的脚步。今年5月开始,特斯拉开始生产移除毫米波雷达的Model 3和Model Y车型,让车辆的自动驾驶感知彻底转向纯视觉。

Andrej给出的理由是:你已经不再需要毫米波雷达了。

他还引用了马斯克此前的一条推文,推文中说,如果毫米波雷达和视觉感知的结果不一致,你更倾向于相信谁?

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲马斯克推特

Andrej表示,从人们的主观感受上,多传感器会更加精准。不过,毫米波雷达感知数据中的噪音实际上拖累了整个自动驾驶系统的判断。

特斯拉早已认识到了这一点,因此取消毫米波雷达只是时间问题。

二、20人 特斯拉甚至打造了世界第五超算

谈到纯视觉感知,人们最大的疑问就是摄像头感知的2D画面,神经网络预测的深度、速度、加速度是否准确呢?

Andrej认为,当人类驾驶时,人眼所看到的画面也是2D的,但是人脑的神经网络能够计算出距离。因此,如果机器的神经网络模拟人脑,也就能够计算出深度、速度、加速度。

并且,经过几个月的研发,特斯拉已经能够证明这条路线是可行的。

例如,在拥堵路段,前方车辆走走停停,距离、速度、加速度都会实时变化,如果能够始终追踪正前方的车辆,判断将会非常精准。但是毫米波雷达并非如此,毫米波雷达的感知具有比较大的随机性,可能感知到其他物体,并产生一个错误数据。

最终,毫米波雷达不确定的感知数据会让传感器融合变得非常困难。

决定采用纯视觉感知的特斯拉有三个需求,第一是大量的视频数据,百万段规模的视频;第二是干净的数据,包括对物体标签化,并且拥有深度、速度、加速度信息;第三是多样化的数据,大量的边缘案例。

此后,特斯拉需要在此基础上训练一个足够大的神经网络。

在数据标签化阶段,特斯拉采用数据自动标记数据的方法,当车辆感知周围环境后,用自动驾驶电脑本地处理数据。上传至服务器之后,如有不精准之处,也能用人工的方式清理、验证数据。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲特斯拉自动数据标签化

同时,在实际使用中,特斯拉的自动标签化的方法还能够应对沙尘、雨、雾、雪等极端天气。

Andrej介绍,在过去四个月时间里,特斯拉的研发人员总结出了221个收集数据的触发条件,Andrej在演讲中展示了其中一部分,其中包括视觉、雷达传感器不匹配,视频出现抖动,监测到画面闪烁等等。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲特斯拉总结的221项数据收集触发条件(部分)

同样在过去四个月时间里,特斯拉完成了广泛的数据收集,最终在特斯拉数据引擎中完成了七种影子模式和七个循环的验证。

Andrej说道:“最开始,我们用视频数据集训练神经网络,训练之后分发到特斯拉汽车的影子模式中。在车辆端,需要不断验证神经网络的准确性。如果在行驶中出现了221个触发条件中的一个,系统就会自动收集视频片段,自动标签化物体之后合并至一个训练集中。我们一遍又一遍重复这个循环,让神经网络变得越来越好。”

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲特斯拉数据引擎

在完成七轮影子模式的循环验证之后,特斯拉一共处理了100万条10秒短视频,这些视频全部来自特斯拉车身拍摄的画面。同时,特斯拉为60亿个物体做了标签化处理,同时包含精准的深度和速度信息。这些数据一共有1.5PB,可以说非常庞大了。

Andrej说道:“处理这些数据的核心团队只有20人。”

通过一个框图能够解释为什么20人的团队能够处理如此多的数据。

Andrej说道:“在框图上部,摄像头感知的画面输入,图像解压后就会进行数据融合处理。首先会在摄像头上融合信息,然后在所有时间上融合信息。利用Transformer架构、循环神经网络,或者直接用3D卷积,都能够取得很好的效果。在融合完成之后,又会形成分支,分离成为主干,再次分离形成终端。”

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲神经网络架构

为什么要不断分离形成终端呢?Andrej解释道,研发人员可能对大量的输出结果感兴趣,但是不可能用一个神经网络单独输出每一项结果。同时,分支结构的另一个好处是它在终端解耦所有信号,所以当研发人员正在处理特定对象的速度、加速度等信息时,就能够拥有小神经网络,不用触及其他信号就能完成工作。

最终结果是,这种架构能让工作效率更高。因为研发人员一致都在微调终端结果,从骨干到终端的修改则是偶尔进行。

要处理如此多的数据,特斯拉搭建了一个世界排名第五的超级计算机。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲特斯拉超级计算机

这个集群使用了720个节点,每个节点8个英伟达A100 Tensor Core GPU(共5760GPU),实现了1.8 exaflops的性能。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

英伟达A100 Tensor Core GPU

这个超级计算机采用10PB NVME存储,读写速度能够达到1.6TB/s。Andrej介绍,这可能是全世界最快的数据存储设备。

未来,特斯拉会让这台超级电脑运行Dojo项目,特斯拉希望通过Dojo不断训练其神经网络,帮助特斯拉Autopilot不断进化。

三、纯视觉优势凸显 270万公里自动驾驶0事故

在转向纯视觉感知后的特斯拉,效果如何呢?Andrej举出三个典型案例。

第一个案例是前方车辆快速刹车时,视觉传感器和毫米波雷达出现了截然不同的表现。

图中黄色线条代表毫米波雷达感知的距离、速度、加速度图像(从上至下),蓝色线条代表纯视觉传感器的感知结果。可以发现,毫米波雷达在其中有多次出现距离突然降低为0、速度突然提升、加速度突然为0的情况。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲前车紧急制动时,两种传感器感知效果对比

这是因为突然减速之后,毫米波雷达并不能很好追踪前方车辆,因此多次重启,就像是车辆在短时间内重复消失,又出现了6次,这很可能误导自动驾驶系统。

由纯视觉传感器感知的信息和毫米波雷达的信息大致重合,但是没有出现距离、速度、加速度突变的情况,表现非常稳定。

第二个案例是路上常见的立交桥。由于毫米波雷达没有垂直分辨率,所以会认为立交桥是一个静止在前方的物体。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲车辆感知到桥梁认为是静止物体,采取制动措施

传感器感知数据融合之后,车辆认为行驶前方存在静止物体,并判断紧急刹车。这种情况在高速公路上十分危险。

第三个案例是行驶前方出现一辆停靠路边的大货车。此时,毫米波雷达无法判断前方究竟是一辆车还是一个普通的静止物体。因此,毫米波雷达将这项任务交给视觉传感器,最终在距离车辆110米的距离时,才感知到前方的卡车。

特斯拉公开为什么干掉雷达!AI主管亲自演讲解读

▲毫米波雷达感知距离不如摄像头

如果用纯视觉传感器,在180米的距离时感知到了前方的货车,并从145米处有明确的感知信息,开始减速。

显然,纯视觉传感器的表现再次胜过毫米波雷达+视觉传感器的融合模式。

Andrej介绍,类似的场景特斯拉一共总结了6000个,可以分70个类别。这些场景每天都会运行,不断提升神经网络的能力。除此之外,特斯拉还用仿真测试的方式,建立了1万个场景,不断测试。这些测试数据相当于人类10年的驾驶时间。

同时,特斯拉也将纯视觉感知加入到影子模式的测试中,经过七轮影子模式的测试,已经相当于人类1000年的驾驶时间。

在发布之前,特斯拉已经进行了1500万英里(约合2400万公里)的驾驶里程,其中170万英里(约合274万公里)都处于自动驾驶状态,目前没有出现过任何一起事故。

Andrej也承认,一些遗留的堆栈还存在一些问题,每隔大约500万英里就会出现一次崩溃问题。但他相信,这些问题会被逐渐解决。

在演讲的最后,Andrej说道:“纯视觉能够精准感知深度、速度、加速度信息。实现纯视觉是一件困难的事情,并且需要大量的数据,不过纯视觉的方向至少是正确的。”

结语:纯视觉感知并非毫无道理

2021年将是激光雷达量产上车之年,今年不少重磅车型都将搭载激光雷达,期待实现更好的L2级自动驾驶。与此同时,特斯拉今年甚至取消了毫米波雷达,用纯视觉做L2级自动驾驶,这在业内引发不小争议,也成为行业内的热议话题。

听过特斯拉AI高级总监Andrej Karpathy的演讲之后,相信在会让人们一定程度上相信纯视觉可被执行,自动驾驶行业内的这一争议将变为结果导向。如果自动驾驶能够做得好,方向就是正确的。