车东西(公众号:chedongxi)
作者 | 小崔
编辑 | Juice
“没有高精地图、没有判断代码,特斯拉FSD V12全靠数据训练。”
这是上周五马斯克在路测特斯拉FSD V12的直播中反复提到的一句话,而在这次路测直播中,特斯拉FSD V12全程运行了45分钟,马斯克仅接手一次。
上周五,马斯克在X(原Twitter)上直播进行了特斯拉FSD V12的实时路测,测试车辆为一台搭载Hardware3.0硬件的老款Model S,不过软件已经是最新版FSD V12。
▲马斯克X直播视频
有意思的是,按照加州的法律,驾驶员边开车边使用手机属于违法行为,但当地警局表示,由于当时没有警察亲自目睹这一情况,所以不会对马斯克开罚单。
从整个直播视频来看,特斯拉FSD V12的表现堪称完美。无论是经过满是路障的施工区域、车流量较大的环岛还是无障碍左转和靠边停车,特斯拉FSD都能够完美应对。
唯一一次出问题的情况是,Model S在直行路口等到左转绿灯亮时突然启动,马斯克这才及时接手刹停。
从技术上看,特斯拉FSD V12版本采用的是端到端的大模型技术,一端输入环境图像,一端输出控制指令,中间是一个神经网络大模型,用马斯克直播中的话说就是“光子进、行为出”,几乎接近人类真实驾驶。
马斯克还在直播中坦言,特斯拉FSD V12不需要高精地图,也没有一行规则判断代码,也就是说系统不再按照“if……then……”进行工作,取而代之的是数据驱动。
直播结束后,马斯克也在评论区回复了网友的各种问题,并透露了特斯拉FSD V12在算力算法上的一些布局。
实际上,马斯克这场直播早在8月16日便有预告,他曾在X上发文:下周开直播用特斯拉FSD V12去找扎克伯格约架,不过,约不约架已经不重要了,马斯克更多的还是想测试特斯拉FSD V12的实际表现。
而在5月份的股东大会上,马斯克也表示,特斯拉可以从需要人工干预转向完全自动驾驶,这是一个非常重要的里程碑。
按照目前的情况来看,特斯拉在自动驾驶上采用的端到端大模型技术已经相当成熟,估计特斯拉FSD V12版本的正式发布就是这个里程碑时刻,而自动驾驶行业也将迎来划时代的一刻。
一、全程45分钟 仅接手一次
在特斯拉自动驾驶软件团队负责人Ashok Elluswamy的陪同下,马斯克驾驶Model S从特斯拉工程总部出发,期间经过各种复杂路口,全程45分钟只接手过一次,其余时间几乎都只是坐在驾驶位上拿着手机直播,虽然画质只有480p,但这场直播也吸引了上千万网友围观。
马斯克的这场直播不算太长,但是全程几乎都在进行特斯拉FSD的实测。
为了表明这次直播路测没有提前安排路线,马斯克一开始便在地图上随机选择了第一个目的地——斯坦福大学。开启特斯拉FSD系统后,Model S开始行驶,马斯克双手便离开方向盘,自己拿着手机进行直播。
行驶不久,Model S便经过一段满是路障的施工区域,通行区域相对较窄,几乎只能够Model S单车通过,而且还是弯道行驶。
▲路测车辆经过施工区域
不过,Model S顺利通过,期间几乎没有任何停顿,也没有碰倒任何路障。
随后,Model S经过此次路测的第一个红灯,它的处理方法是在到达路口之前缓慢减速,随后在路口停下,等待左转红灯变绿后便十分平稳地左转进入另一条道路。
此时,马斯克补充说道:“可能直播的画面比较模糊,但我们的实际感受是车辆很平稳。”
几分钟过后,Model S又经过一段减速路口,此时前方还有自行车驶过,Model S缓慢减速,等自行车经过后再通过路口,几乎不受任何影响。
▲路测车辆通过减速路口
另外,在经过环岛路段时,Model S先是在进入环岛的路口等待环岛中的其他车辆先行驶过,期间有四辆车辆紧跟而行,Model S也是等四辆车全部通过后才进入环岛,离开环岛时也比较顺畅,直接找准路口,一把便驶离环岛进入新的路段。
▲路测车辆进出环岛
不过,就在汽车行驶至19分钟左右,Model S需要经过一段十字路口直行,但此时直行路段为红灯,大概等了10几秒,左转路段变为绿灯,而Model S却突然启动,行驶方向依旧是直行,这时其他路口的车辆还在通行,马斯克和副驾的工程师才及时接手刹停车辆,好在并未发生任何事故。
▲路测车辆闯红灯
马斯克对此表示,特斯拉FSD V12还在进行测试,这也是为什么V12迟迟没有发布的原因。
接下来的20多分钟里,Model S又经过了新的摆满路障的施工区域、减速带和行人较多的十字路口,Model S都顺利通过,还实现了靠边停车。
▲靠边停车
直播过程中,马斯克反复强调,特斯拉FSD V12系统内部没有任何条件判断代码,能够通过这些测试是因为经过大量的数据训练,从而形成了像人类驾驶一样的记忆,而在特斯拉FSD V11版本中,控制栈中有超过30万行C++代码。
当然,用于训练的数据不仅要量够,还要质量高,只有向系统投喂更多人类优秀驾驶行为的数据,特斯拉FSD V12系统才能向更高程度进化。
另外,马斯克在直播中谈到,特斯拉FSD V12不用一直联网就能完成一切操作。如果有干预行为发生,系统会将它记录下来并上传至云系统进行分析。
在帧率方面,特斯拉FSD V12采用8个摄像头,以每秒36帧的速度进行拍摄,系统的计算速度可以达到每秒50帧,而实际路况只需要每秒24帧便可以正常运行FSD V12,也即是说,无论是摄像头帧率还是系统计算速度,在实际运行过程中都是可以应对各种路况的。
虽然直到全程路测结束,马斯克都没有去找扎克伯格约架,但毫无疑问,就这次直播路测特斯拉FSD V12而言,马斯克已经赢了。
二、与网友开会 评论区解答
从整个直播路测的效果来看,马斯克这次向网友展示了特斯拉FSD V12强大的性能,几乎让更多网友开始“迷信”特斯拉的全自动驾驶。
而在直播之前,马斯克还串进了网友WholeMars的Space,和里面开会的网友聊了10多分钟,为自己的直播预热。
▲马斯克和网友聊天(来源:网络)
在这10多分钟里,马斯克介绍了特斯拉为什么要采用端到端大模型技术,还聊到了特斯拉在算力方面的运用。
马斯克透露,特斯拉FSD的AI训练主要采用的是英伟达的硬件,由特斯拉Dojo超算作为辅助,今年大概花了20亿美元(约合人民币145亿元)在AI训练上面。
另外,他认为高端GPU还会继续短缺,未来全人类80%~90%的算力都会用在神经网络上,世界会进入强算力依赖阶段。
有网友提问:“拥有5000张H100是什么感觉?”特斯拉却表示,这还不够,特斯拉马上要上线由10000块H100组成的GPU集群,来训练新版本的FSD系统。
而在直播过后,网友也纷纷在马斯克的X评论区留言,对特斯拉FSD V12的表现表示赞赏。
有网友表示特斯拉FSD V12是一个重大的突破,马斯克也回复表示认同。
▲X网友评论
还有网友直接表示这很棒!
▲X网友评论
有意思的是,有网友认为特斯拉FSD V12的表现很棒,并邀请马斯克到亚洲地区来测试一下,并放出了一张亚洲某地的交通动图。
▲网友评论动图(来源:网络)
不知道面临这样的十字路口,特斯拉FSD V12又将如何面对?
除此之外,马斯克还在X上介绍了更多关于特斯拉FSD V12版本的信息,他透露Hardware 4.0版本的FSD系统将会比Hardware 3.0版本的FSD延迟6个月推出,特斯拉目前需要先在Hardware 3.0基础上将FSD系统开发得更好,然后在全球范围内进行应用。
▲马斯克X回复
同时,马斯克还对特斯拉FSD V12的算力系统进行了更准确的补充,特斯拉设计的AI电脑算力仅为100W,而在这微不足道的算力上足以实现自动驾驶。特斯拉目前拥有超过400万辆能够为AI进行训练的汽车,而这个规模在几年内还会突破到1000万辆。
▲马斯克X回复
不得不说,论营销这块,果然还得是马斯克啊。
三、自动驾驶的ChatGPT 特斯拉率先量产
特斯拉FSD V12能够做到45分钟车程仅接手一次,这在自动驾驶行业来说已经算是不错的表现,那么特斯拉FSD V12又是如何做到的呢?
马斯克其实在直播中也介绍过,特斯拉FSD V12采用的是端到端大模型技术,不需要代码、高精地图,只需要数据投喂AI进行训练。那么,其背后的技术逻辑又是怎样的呢?
具体来看,目前的自动驾驶技术大致可以分为两类,一类是间接感知方法,即传统主流驾驶方案,通过多个工程模块进行组合完成智能驾驶任务。这一方案下,自动驾驶系统工作的流程为:摄像头和雷达感知收集图像数据,然后各模块将采集到的数据进行诊断和规划,最后向车辆发出控制指令。
▲传统多模块解决方案(图源网络)
另一类驾驶技术便是行为反射方法,即采用端到端技术方案,该方案基于深度神经网络,通过摄像头采集驾驶场景的信息,将其作为深度卷积神经网络模型的输入,再不断对网络模型进行训练,得到学习好的网络参数,从而对智能车方向盘转角进行预测。
这一方案将此前各模块的感知和规范集成到一个大模型之中,而采集到的数据直接从一端输入至大模型,大模型能够根据数据计算迅速做出判断从另一端向车辆发出控制行为。
而端到端大模型最关键的地方便是深度学习和强化学习,这与人类的学习行为是类似的。
为实现自动驾驶技术的自我演进,特斯拉开发了影子模式。每一款特斯拉量产车都配备了影子模式,影子模式负责在用户驾驶过程中采集各类驾驶数据,其中包括高价值的corner case数据,而特斯拉采集的数据包括车辆的位置、速度、方向和加速度等信息,这些数据将被存储在特斯拉的数据中心中,然后由数据引擎进行分析和处理。
▲特斯拉影子模式
影子模式下,车主每使用FSD行驶一公里,大模型都可以收集更多数据,并随着时间的推移在自动驾驶行为方面有所改善。
与传统的多模块处理方案相比,特斯拉端到端人工智能方案最大的优势便是可以避免级联误差。
传统的多模块化架构其实是一种流水线工作,后一个模型的输入参数是前级模型的输出结果,如果前级模型输出的结果有误差,就会影响下一级模型的输出,导致级联误差的出现,最终影响整套系统的性能。而端到端的大模型输入一端有且只有摄像头采集到的驾驶场景信息,也就不存在级联误差。
另外,端到端人工智能方案还省略了大量繁琐的中间步骤,简化了流程,基于组件的系统工作更少。
当然,端到端大模型还存在诸多痛点,而其中最大的痛点便是可解释性差。
▲黑盒示意图(图源网络)
端到端大模型由数据驱动替代规则驱动,不再按照“if…then…”的规则运行,而是根据不断收集到的人类驾驶真实数据进行判断,虽然能做出正确的决策,但方法和理由是什么都不清楚,具体依照的哪些数据更无从得知。
即便出了差错,由于端到端模型是作为一个整体工作的,因此我们几乎无法找到模型中应该为这次失败负责的“子模块”,也就没办法有针对性地调优。只能通过不断的训练、调参、增加参数量,来尽可能地提高模型的准确率,但100%的安全率似乎永远也无法达到。
第二个痛点则是端到端驾驶模型很难引入先验知识。目前的端到端模型更多地是在模仿人类驾驶员动作,但并不了解人类动作背后的规则。想要通过纯粹数据驱动的方式让模型学习诸如交通规则、文明驾驶等规则比较困难。
另外,端到端大模型也很难恰当处理长尾场景。对于常见场景,我们很容易通过数据驱动的方式教会端到端模型正确的处理方法。但真实路况千差万别,我们无法采集到所有场景的数据。对于没有见过的场景,端到端大模型的性能还很难保证。
最后,端到端驾驶模型通常通过模仿人类驾驶员的控制行为来学习驾驶技术。但这种方式本质上学到的是驾驶员的“平均控制信号”,而“平均控制信号”甚至可能根本就不是一个“正确”的信号。比如,面对会车情况时,本车是选择让旁边车道的车先走,还是抢在其之前走,司机本身也是有两个选择的。而当前情况下的概率分布真值又很难获得,这又非常依赖大规模数据的积累和数据真值的清洗。
综合来看,端到端大模型最厉害之处便是无限接近人类真实驾驶,而背后的痛点也不少。
结语:自动驾驶行业即将迎来拐点
毫无疑问,特斯拉采用的大模型技术会推进自动驾驶行业的快速发展。
从模仿人类的驾驶行为出发,到不断超越人类的驾驶行为,特斯拉FSD V12目前已经能够在大多数情况相爱做到比人类驾驶更安全。
而特斯拉还在不断给FSD系统投喂数据,每天都有超过400万辆车在行驶过程中收集数据,按照这样发展下去,特斯拉FSD的涌现时刻也即将到来,自动驾驶行业也将迎来新的拐点。