理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

车东西(公众号:chedongxi)
作者 |  Janson
编辑 |  志豪

车东西12月27日消息,时隔9个月李想回归大众视线,开展连续三天直播,要将理想汽车升级为一家AI公司。而与此同时,理想汽车的智驾也进行了一次重大升级,也迎来了新功能——AI推理可视化技术。

理想在此版本推出的“AI推理可视化技术”可以通过独特的交互理念将智驾模型的思考推理过程以视觉形式展现给用户。

这一技术展示了OneModel端到端模型的直出轨迹路线能力,能够让驾驶员提前理解AI的思考和执行过程。

理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

▲AI推理可视化界面

从车东西此次的体现来看,这次的升级最显而易见的变化便是可以让用户可以清晰地看到车本身的推理过程。

从界面上整体一看,也是科技感满满,对于科技宅或者是对智驾、AI感兴趣的消费者“杀伤力极大”。

这种做法在业内尚无其他同行推出,通过将智能驾驶系统的端到端大模型思考和运行过程直接展示给车主,使其变得可视化,确实是一种巧妙的创新。

而这,可能也是目前端到端智驾中用户感知最强,消除驾驶者不安感的有效方法。

一、展示车机推理过程 用户可开上帝视角

仔细来看,AI推理可视化技术全面展示端到端(E2E)和视觉语言模型(VLM)在决策过程中所经历的思考过程,涵盖从物理世界输入到最终决策输出的各个环节。

在用户开启导航和NOA后,在感知界面右下角点击“AI推理”按钮,即可打开。

这一技术通过中控屏或副驾驶屏进行展示,具体包括以下几个方面。

理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

▲端到端模型“脑回路”显示窗口

E2E模型窗口能够在一个窗口中展示自车、其他车辆、道路车道线以及预测的行驶轨迹。

其中,蓝色轨迹线表示模型计算出的正确轨迹,而灰色轨迹线则表示偏移轨迹。

轨迹线的计算结果在10个窗口中展示,每个窗口代表一种模型输出,最终选择“老司机”开法概率最高的轨迹进行操作。

理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

▲复杂路口左转端到端模型“脑回路”

从实际表现来看,在一个复杂路口左转的场景中,端到端模型“脑回路”显示窗口清晰的列出了端到端下一步要做什么,给了驾驶员比较好的预期管理。

理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

▲注意力系统

其次,注意力系统用于评估实时视频流中的交通参与者行为及环境路况,通过分析其类型、位置、速度和角度等属性,辅助E2E模型计算最佳行驶轨迹。

该系统以热力图的形式展示工作状态,颜色较暖的区域表示对智能驾驶决策影响较大,颜色较冷的区域则表示影响较小。

理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

▲VLM提示模块

最后,VLM展示了其在感知、推理和决策过程中的能力。当识别到影响智能驾驶的环境变化和交通规则时,VLM能及时做出合理的推理决策。

这一过程通过对话形式展现,左侧对话气泡记录交通和环境信息,并保存事件发生时的时间点和摄像头图像,右侧则展示VLM的推理过程和最终决策。

目前,VLM思维链可视化支持多种场景,包括夜晚无灯小路、丁字路口、公交车道、学校路段减速等多种复杂交通环境。

从车东西整体试用的情景来看,三种视觉交互的方式很直观,也有帮助驾驶员理解车机的意图,减少了被理想NOA“激进”驾驶“吓到”的可能。对此车东西还找了两个有代表性的场景来测试这套新的交互系统。

1、长隧道情况

长隧道场景是可以检验理想NOA感知能力的典型场景之一,由于在长隧道内光线不足加上GPS无信号,车机可用的传感器先验数据相对较少,更多需要依靠车身自己的视觉融合技术。

此次理想隧道NOA能力便是在北京开通不足一年的清河北隧道进行了测试。

清河北隧道全长1.5公里,双向四车道,最大深度26m,属于城市主干路中较长较深的隧道之一了,由于横跨海淀多个片区,日常车流量也很大。

理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

▲理想NOA驶入清河北隧道

本次测试是在一个周五的晚高峰前夕,车流量已经涨起来了,但车辆依旧在隧道里可以保持稳定行驶,不会“画龙”。

可见OneModel端到端模型的直出轨迹路线能力在这里派上用场。在注意力系统中,由于车道左边紧贴着墙壁,NOA系统也是把靠墙一侧的边线进行了重点突出。

理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

▲注意力系统对边线的把握十分到位

值得一提的是隧道中限速40km/h,VLM模型也很好的进行了识别,但考虑到了当时的通行效率,理想NOA选择了跟随车流速度,十分智能。

不过,在出隧道后的一个复杂路口,三个左转车道被识别成了导航中显示的两个,可见理想的NOA系统在车道信息中还是调用了导航数据,没有完全依赖纯视觉。

2、有GPS遮挡的施工路段

相比于隧道,这次车东西在施工道路上的选择直接上了“强度”,不光找了没有高精地图的施工路段,而且是高架路的施工路段。

经常在上海等有高架桥下辅路开车经验的人都知道,由于GPS信号的遮挡,在高架桥下辅路开车一直是信号盲区,一不小心就会走错路。

理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

▲被修路+主路遮盖信号的北清路

而这次,车东西选择了正在修建北清路高架的地下辅路部分,不仅没有高精地图,同时也有顶部高架遮挡GPS信号,能不能开好就要看理想这次NOA的实力了。

理想最新智驾体验:10条脑回路肉眼可见!原来端到端是这么思考的

▲遇到修路临时标线很好的循迹

当车辆在辛庄桥左转后便正式进入北清路的辅路,现场都是高架桥施工和地面改道的临时标线,但是理想NOA一点都没有犹豫,直接开了进去。

由于已经接近晚高峰,路上的车流量已经比较大了,但是理想还是做到了快慢有序,积极选择更快的车道,VLM也是识别到了目前处于施工路段,提示注意安全。

可以说在施工道路的表现还是超过了预期。

 结语:理想寻求智驾交互新方式

一直以来,高阶智驾一直在新司机不敢用,老司机不爱用的状态中寻找平衡点。

而理想此次在确保通行效率的前提下,通过将新的AI推理过程展示给驾驶员,降低系统和用户之间的信息差来提升用户信任,可谓是一个相对理想有效的尝试。

目前,这样的交互内容还比较简单,但作为一个提升智驾信任感的尝试,无疑是一个好的开端。