32问理想AI转型:从辅助驾驶、自研芯片到具身智能,高管集中回应外界质疑

车东西(公众号:chedongxi)
作者 | 国仁、颐圣
编辑 | 志豪

车东西6月18日消息,在日前举行的Livis Day理想汽车软件与具身智能发布会上,理想汽车正式发布了围绕软件、AI芯片、基座模型和具身智能的一系列技术进展。

理想汽车介绍了自研AI推理芯片马赫M100 Ultra、马赫 VLA、3D ViT、马赫Mind等核心能力,并进一步阐释了其从电动车向“具身智能汽车”演进的技术路径。

发布会后,理想汽车CTO谢炎、理想汽车基座模型负责人詹锟接受了包括车东西在内的媒体采访。

32问理想AI转型:从辅助驾驶、自研芯片到具身智能,高管集中回应外界质疑

▲理想汽车CTO谢炎

两位高管围绕L9 Livis上市后的辅助驾驶体验反馈、理想追赶特斯拉FSD V14的路径、自研芯片马赫M100的架构和量产挑战、车内AI算力中心、舱驾融合、基座模型以及具身智能汽车等话题进行了详细回应。

32问理想AI转型:从辅助驾驶、自研芯片到具身智能,高管集中回应外界质疑

▲理想汽车基座模型负责人詹锟

车东西在不改变原意的情况下进行了部分编辑,以下为采访实录:

一、用户体验关怎么过? 正视与FSD差距、苦练辅助驾驶基本功

1、(车东西总编张国仁提问)L9 Livis上市后,有不少用户反馈智驾变道和加速度不够积极。请问这主要是什么因素影响?芯片和平台迁移后,怎么才能恢复并超越此前的体验水平?要达到特斯拉FSD V14的效果,我们还需要做哪些工作?

谢炎:其实(辅助驾驶)的整体能力,内部评分比之前高很多,这个模型现在的上限非常高,变道切换非常类人。您讲到加速度,后续版本就会改进。这不是真正难的问题,真正难的问题是要扩大模型的感知与认知能力的上限。

看这个版本的模型在很短时间内,已经达到了量产水平。很多公司都是先发芯片,再花一段时间适配上车。我们不仅提供了高阶的智驾、城市NOA(城区领航辅助驾驶),而且比上一版本能力强很多。当前版本在特别小的路上开,能够绕开所有的车,在非常窄的3米路况上也可以通行。

詹锟:我承认当前版本有一些特性,不一定那么讨好。“慢”这个反馈,实际上是我们这个版本的选择,这不是一个难的事情,只是风格的选择。我相信你能感受到它的舒适性非常好,包括加减速、平顺度比之前高很多,这一代确实比上一代好不少。

真正的难题是能不能追上FSD,我认为追上FSD有两个层面。

第一是基础体验,具体是三方面:安全感、效率、舒适度是否能达到FSD的同等水平。相信大家如果开过FSD,它的安全感非常足,效率很好,舒适度很好,这是它的基本功。我不一定跑很难的路,但这些基本功可以达到这个水平。

第二是能力,这一点也很难追。FSD有哪些能力是别人没有的?比如特斯拉会礼让特殊车辆,有极窄通行时的感知精准度,它会识别交警指挥,这些能力非常强。

如果我们能做到这两项,就能追上FSD。在基础体验上,这需要非常好的评价体系。我们希望从自己的测试团队和产品团队开始,跟用户和媒体一起想,怎么去评价我们的模型——它的安全感、舒适和效率怎么平衡。这里有很多方法,我们很有信心可以追上FSD V14的水平。再加上我们芯片性能还没完全释放,我们可以效率更高、反应更快,所以这个问题不大。

第二个关于能力,这里有架构升级的机会。为什么别人没有、只有特斯拉有?这里有我们的一些思考。我们会去做这样的改进,把这些能力提升上来。大家想想,这些能力是怎么来的?为什么别人没有?可能是以前的范式限制了这些能力,有架构的原因,有数据的原因。它怎么就能找到这么多倒车数据?这是采集的还是合成的?怎么把这些坑坑洼洼的信息传回去?这在架构上有很好的设计。我们在这个层面做了很多尝试,目前也有一些初步的实践结果。如果这两个方面能追上FSD V14,就是一个很厉害的结果。

2、数据是这个时代最宝贵的资产。随着理想车队规模的跃升,从理想内部来看,数据的边际效应是不是出现了衰减?我们是怎么定义价值数据的?

詹锟:现在大家对于自动驾驶来说,数据的理解逐渐收敛了。

第一,数据的量要足够大,数据量足够大的本质是希望收集到更多的Corner Case(长尾场景)。从Normal Case来看,现在的供应商都已经可以采集了,找个几百人的车队就可以去采,Normal Case是足够的。但是采集Corner Case非常难,必须要足够大的车队才行。

基数大,但不是说把所有数据都传回来,这没有意义。现在大家有很多方法在车端做出很好的neural trigger(神经网络触发器),来判断这个场景是难场景还是简单场景,然后把这些关键数据传回来。这也是现在特斯拉很强的重要原因之一。

对我们来说,我们现在规模已经很大了,主要来源于我们很早就做了很好的基建统一。我们从理想ONE开始就可以回传数据了。但从理想L9开始,是全栈所有数据回传。现在到了Livis具身智能更强了,现在回传的数据可以理解为达到了L4自动驾驶的公司采集车队的数据质量,360°点云和摄像头数据做了精准的对齐,这些数据给了我们长尾收敛、思考问题的机会。

第二点,质量要高,主要指行为质量高。现在大家逐渐收敛到端到端的范式,无论做VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型)都可以,但是一定得知道Action的行为,这时候行为质量就非常重要,行为的干净程度、一致性很重要。这对于使用众包车队的公司来说很有挑战。

因为每个人的开车习惯不一样,怎么在这么多的众包用户中找到一致行。这是我们努力做的事,而且也看到了很多机会点。这相比于采集车队来说,难度就在这里。采集车队的众包行为没那么好控制,但我通过算法可以迅速把好的行为留下来,坏的行为去掉。比如每次过红绿灯时,是不是稳定的加速度;遇到丁字路口时,能否稳定减速;每次超车时是否合理变道,这些都需要清晰的判断。

正因为我们有很大的车队,所以可以筛选出很多高质量的用户行为和用户数据。我们用后面的方法来筛选,就简单很多。因为他在发起行为时,我不确定他的行为好不好。但他开完以后,通过看他的后车距离、变道幅度和角度,就知道是否合理。所以我通过后面完整的数据来看,就可以知道他的每一个行为是不是合理。这对于我们来说非常重要,也是我们现在投入最大力度做的事情。

现在数据规模上去以后的边际效应有没有衰减?首先,模型能力要朝着100分去努力,而这一定是个“对数曲线”,是慢慢衰减的,不可能线性增长。但是我们的数据质量,能随着车队规模的增大而增长,其实也在抵抗这个对数,我们有更多的机会采集到我们想要的数据。虽然确实越往后面,数据收敛的作用就没那么快了,但我们也希望通过规模,把它的速度加起来。

3、前年有一个共识,理想、华为小鹏处于自动驾驶的第一梯队。接下来VLA、世界模型、数据驱动,大家投入了很大的数据、算力和资金。大家认为随着时间延长,各家的能力差距会越来越大。但从最近的表现来看,差距反而在缩小,自动驾驶的Scaling Law似乎没有起来。接下来理想要拉大差距的话,会做什么事?

詹锟:一年前到现在,智驾格局确实发生了变化,感觉差距变小了。但从另一个角度看,从一年前到现在,很多玩家已经不在了,现在至少智驾的玩家收敛了。

有几个原因。一是智驾是重投入,它不是把一个公司的算法带到另一个公司就能转起来,它是一个系统,涉及到系统、人、技术、算力、平台,这是很大的壁垒,无法在短期内建起来。

为什么感觉第一梯队差距没拉大?这里要思考,我们如何建立护城河,靠什么能让别人无法快速追上。我认为要参考特斯拉。

第一,全栈才能建立真正的护城河。算力、芯片、基础设施能不能完全统一在自己的可控范围内,这很重要。如果只是算法,中美之间的人才流动很快,很容易被迁移。但如果整套技术是全栈的,迁移成本很高,也很难。

第二,下苦功夫。(也就是)愿不愿意把精力投入到苦功夫上,是护城河。哪些是苦功夫?比如精细地洗数据。这里有很多细节,这些细节并不高大上,但这些一点一滴的细节才能形成护城河。我们也会在这方面持续加大投入,逐步把护城河建起来。现在已经有全栈自研的机会了,我们会加大投入,把这些苦功夫做下来。

虽然第一梯队之间的差距感觉变小了,但大家跟特斯拉的距离并没有缩小,特斯拉还是很强。如果我们完成年底追上特斯拉的计划,是有机会脱颖而出的,也是我们一直想做的事情。

4、昨天介绍的马赫VLA,我理解这是一套技术体系而不是一个单独的模型,现在的智能驾驶模型中还有“L”(Language语言)的部分吗?

詹锟:现在自动驾驶的架构,只要往后面走,大家都会有一个共同的趋势,就是把VLA(视觉-语言-行为模型)和World Model(世界模型)整合在一起。从长远来看,没有谁不往这个方向走。而且Language问题,无论做VLA还是World Model,里面的Prompt(提示)都要用Language。所以肯定有Language,只是Language怎么用的问题。

我觉得更本质的问题是马赫VLA到底是Language Based Model还是Vision Based Model?昨天说的机器智能和语言智能,我觉得这两个可能正好是两个不同方向的base。机器智能来说,我觉得Vision Based(基于视觉)是更合理的,它是对空间理解、对3D空间的感知、对环境服务是更合理的。Language肯定有用,对理解环境、理解交通、理解指导、理解复杂的思考决策都是有价值的。马斯克一直在说要把Reasoning(推理)上车,虽然还没上,但大家都在往这方向做,而且Language一直是我们很重要的一个中间监督项。

但对于语言智能来说,Language Based(基于语言)永远是最好的,没有哪个语言智能是用Vision Based的。但要不要Vision(视觉)?那必须要,否则怎么能看到车内人的动作呢?从长远来看,基于Vision和Language原生的基础模型,可能是长远的未来趋势。

谢炎:我再补充一下。大家问Language的问题比较多,回归到本质,这都是方法。如果要走向L3、L4,要解决更泛化的问题时,模型需要具备像人类一样的思考能力。

如果它只有Vision和Action(视觉和动作),它有很多数据,碰到分布以外的情况就会不知道怎么办。比如出现一头鸵鸟和一头大象时,应该怎么处理?如果是鸵鸟,碰一下没事;如果碰到大象,碰一下可能就会翻车。这只能通过大量的数据,给它几十亿公里的数据。

而一个动物,哪怕学会了所有常见情况,碰到这种从未见过的情况完全不会处理,它不知道做什么选择是对的。

我们认为越往L3、L4走,解决的问题越来越接近90%、95%、98%之后的问题——这些从来没见过的问题,需要模型具备像人类一样思考的能力。而得到像人一样推理和思考能力的来源是语言模型。

人和动物的最大区别,是人以语言作为符号进行高层次的思考,这些能力来自于语言,而不是来自于视觉。我们认为越往后走,语言的重要性会越突出,这也是未来需要很大算力的原因。因为如果只有Vision-Action,算力到了一定程度就够了。但如果要往后走,模型需要理解各种场景,比如有个警察在做手势,系统要理解他是在让你做什么,这不是靠收集数据或生成数据就能解决的问题。

5、今年理想新做的3DViT技术,之前的智驾感知是先做BEV,先拍图,后面再做OCC立起来,再到3DViT,更接近于人类的感知。倒着看有点像弯路,为什么会走这个弯路?什么条件达成了,到了今天的地步,以后会不会有新的方向进展?

詹锟:我认为这不叫技术的弯路。无论是做模型还是三维空间建模,我们把OCC定义为空间建模,这些思想都来自于上世纪。CNN(卷积神经网络)是80年代的东西,只不过2012年GPU发展时才爆发。LSTM(长短期记忆网络)也是1997的东西,到了2010年才逐渐应用。Transformer也是如此,稠密计算很早就有了,但之前没有爆发。本质原因是思想要随着当前的基础设施、硬件、算力统筹升级,不是说有一个想法就能直接用起来。所以技术迭代会一直跟随当前的环境、硬件、任务需要在变。

从自动驾驶来说,2022年特斯拉在发布会上讲BEV方案,方案也不是新的,只是基于它的强大算力,在特征级把场景做融合,这是大家没有想到的。那会儿由于算力就那么大,不能做很深的稠密高度估计,只能变成单层或者采样很稀疏的BEV。到了OCC阶段,是把稀疏变密,这是算力或硬件的一次升级带来的东西。

3DViT是什么?可以理解为基于3DGS(三维高斯溅射)或全新稠密三维空间的新的三维表示。从2025年到2026年,CVPR(计算机视觉与模式识别会议)的Best Paper都是这个领域。去年的论文是剑桥大学老师做的,基于图像直接投射出三维空间,直接预测三维深度。2026年的CVPR是DeepMind基于传感器把三维空间动静分离。所以我们未来三年内,就是基于这个路径做。我们把大家之前认为的栅格化、需要人类表征的东西,变成不用表征。OCC先不定义类别,任何物体和任何元素我都可以投射三维空间,它有外观、RGB、纹理、属性。这样的建模方式需要随着下一代的算力增加才能做到。

它不是绕弯路,而是思想随着条件的成熟才能用起来。随着大家相信Scaling Law(规模定律),把模型规模和参数规模越提越高,让这些思考发挥越来越大的作用。如果算力不够用,规模不够,想法再好也实现不了效果。

谢炎:我补充一下。高科技技术产品的商业化落地是一步一步的。比如特斯拉早期没有Mobileye,就没有今天的FSD,它不可能做到今天这种程度。今天来看,有人会说Mobileye的方法太古老了,为什么它不能一下子做到今天的端到端呢?因为当时的条件完全不具备。而条件完全不具备时去做,不能完全落地,也不能商业化。所以肯定先从Mobileye的技术栈开始,再到FSD的第一代,再不断完善。它在2021年有很多规则,现在规则越来越少。商业化是一步一步做的,大家认为有好的想法就应该一步到位,这不太现实。

6、3DViT我们大概是什么时候开始研发这个技术路径的?3DViT目前能达到跟激光雷达一样的效果吗?

詹锟:3DViT来自于去年的CVPR的论文VGGT(VGGT: Visual Geometry Grounded Transformer),这证明了2D视觉也能学会完整的3D空间结构,证明了Scaling Law在3D空间的全新可行性。

第二,之前团队一直在往这方面探索和尝试,中间做了很多方案的取舍和权衡。最后因为我们看到3D ViT对空间深度的理解、物体精细度的理解能达到激光雷达级别的效果,我们去年才正式从研究探索阶段转入产品开发阶段。在这个过程中,我们把它变成一个真实项目,放到最新的马赫VLA里面来。原来马赫VLA不一定使用3D ViT,但有了会更好。3D ViT后续还有更大的改进与优化空间,这也是追上FSD V14很重要的一环,中间的视觉信息能不能表征清楚,这是非常关键的。

3D ViT是一个纯视觉方案,它不依赖于激光雷达。它基于视觉,把空间建模成带有色彩信息的全彩点云,基于更强的视觉编码器和空间视觉表征,做到更丰富的3D理解。

关于帧率和激光雷达效果,这其实是两个问题。高帧率主要是提高反应速度,因为激光雷达帧率有限,只有10Hz,视觉能做到30Hz甚至更高,我们基于视觉能做到更高的反应速度。

能不能达到激光雷达的效果?我们是有信心的。因为我们最新所有的车都标配了激光雷达,激光雷达对纯视觉方案有非常强的监督和校验作用。不一定要达到跟激光雷达完全一样的精度吗?特别是看远处时,人也分不清大货车是20.8米还是19.8米。但在极近处,人对深度的感知非常敏感,我们也是如此,在极近处能达到激光雷达的水平,这是上线的标准。另外,理解空间以后更重要的是做出更拟人的行为决策。

7、3DViT先开始是基于Thor芯片,然后是过来才融合的马赫M100?

詹锟:3D ViT一开始就是在马赫M100做的验证,不是从Thor迁移过来的。

8、3DViT能识别近处物体。在融合了3DViT,它以后会对低矮物体进行识别吗?

詹锟:低矮物体的识别涉及两方面:一是能不能识别,二是识别精度多高。近处物体的数据精度一定更高,通过激光雷达采集回来做监督,可以很好地提升识别精度。另外,其实不只是能不能识别的问题,更关键的是识别后能不能做出合理的避让动作,这是个综合问题,不但要能理解,理解后还要做出合理的行动。在最新的马赫VLA里,这方面会做得更好,昨天发布会上也展示了很多VLA在复杂场景下的避让案例。

9、第一,关于3D ViT,3D结构对人来说很直观,但对模型来说完全不直观,3D ViT对智驾行为的改善,具体体现在哪些方面?第二,昨天发布会上提到强化学习数据提升了15倍,在马赫M100平台上,具体会在哪些场景去做强化学习?

詹锟:先说第一个问题。人眼有两个非常重要的特性:第一是实时双目,双目天然就带了3D结构,这一点很厉害;第二是前额叶很强,能抽取非常高维特征的表征。做深度学习本质上是在做表征学习,就是把信息映射到高维空间的特征,这个特征长什么样子我们没法直观描述,但它要包含所有下游想要的信息,这是大脑在做的事。

人的双眼时刻去观察3D物理空间以后,大脑中整个物理空间会有很强烈的3D感。但是摄像头,特别是单目摄像头,天然是没有3D感的。人眼如果遮住一只,当习惯了双眼训练以后,单目也能看到3D结构,因为前额叶已经把这种能力固化下来了。

对机器来说也是这个思路:用很高维的3D空间数据去训练它。即便摄像头在移动中,也能构建出三维空间,这就是典型的3D建模思路。任何一段视频进来,通过三维建模构建出三维空间,任何一个单目摄像头就可以知道三维空间是什么样,跟人的思路一模一样。通过这种方式,3D ViT就可以深刻理解3D环境。

补充一点,激光雷达也能理解3D环境,它是主动光。但3D ViT的特点是,除了理解环境的3D结构外,还能理解3D物体的属性、纹理、类型,因为它有RGB(色彩信息),保留了所有信息。甚至还能做tracking(目标追踪),就是对移动物体做动静分离,在3D环境中很容易判断目标是动还是不动,这就是光流的作用。把这些能力结合以后,高维的视觉表征就非常丰富,不会有遗漏。比如地面有个坑和沟,就很容易识别出来。

如果我拿BEV来表达的话,我没有定义什么是沟和坑,对下游决策来说就缺少了这个信息,这就叫高维表征的缺失。所以只有解决了这个问题,才能给下游提供更完整的信息,下游才能根据这些表征做出正确的动作。

以前大家熟知的“The Bitter Lesson”(苦涩的教训),是指机器不要加任何人为先验,用数据训练,一定做得比人更好。现在最新的理念是“Vision Bitter Lesson”(视觉苦涩教训),就是怎么判断视觉表征好不好?看有没有做出对应的动作。

我们通过构建一个非常好的三维空间表征标准,让下游把动作真正理解好,这样视觉能力就得到了充分的展现。

第二个问题,强化学习。强化学习最重要的是决策和行为的联合优化。现在所有训练范式中,强化学习都是post-training(后训练)阶段的一部分,主要针对训练中的弱势场景、数据分布不好的场景、或者混淆度高的场景。这需要有很精细的拆分方法,把这些场景识别出来后,让模型在里面自主探索,通过reward(奖励信号)给它反馈探索的结果对不对,对决策和行为做联合强化。具体场景非常多,比如绕行、变道等,都是通过这套方法论,找到post-training中的弱势场景来做强化,不是一概而论的。

二、马赫M100已量产上车 架构、编译器和持续迭代是难点

10、昨天看到马赫M100推出来很惊喜,您四年前看到了什么、坚持了什么?当时整个行业都还在冯·诺依曼架构的路径依赖中,您当时看到了什么需求和变化?

第二,您昨天提到整个链条要从头到尾全部变短才是真正的全栈优化,背后的组织是怎么实现的?从产品到技术到组织,您作为CTO是如何重构协作体系的?

谢炎:四年前,我们给自己立了一个很高的目标,这个目标也是一个非常合理的目标——就是自研。我们为什么要自研?我和李想有一个非常一致的意见:自研不是为了证明自己有能力做,而是真正去解决问题。

四年前我们看到的问题:一是算力成本非常高,而且会不断变高,因为车内需要越来越多的AI算力。二是我们希望通过自研做得更好。当时我们用英伟达地平线,我们给自己定的目标是,如果做不到比外购芯片更好,那做的意义不大。当时定的目标是4倍Orin的性能。

当然这个目标不是瞎定的,我们花了半年时间进行分析。如果要达到这个目标,背后有一套逻辑——要做得比英伟达更好,用英伟达的技术路线是不可行的。因为英伟达早启动几十年,积累深,资源还多几个数量级。就像跟博尔特在100米赛道上,他比你早跑2秒,那你不可能超过,唯一的机会就是跑另外一条路径。

在这个思路的指引下,我们开始看其他技术路线。就是扔掉所有以前的架构依赖,回到本质,从第一性原理看AI计算本身还有什么机会。我在读研究生时,我导师高光荣教授是数据流架构的奠基人之一,他在MIT时就做这个事。当然在通用计算时代并不成功。我们发现他的思想本质是:要做的是计算,冯·诺依曼架构相当于帮人类做一个中介去实现计算,中间有翻译层,这个翻译帮助人类更好地去编程,但这个中介和翻译会降低效率。如果回到计算的本质,可以把中间的翻译拿掉。当然的确很少有企业做过实践,中国也是如此。所以大家看到的机会都是一样的,关键是如何极致地解决这个问题,从第一性原理来倒推。我们四年前定了这样的目标,并且觉得是可行的。

关于组织协作。为什么垂直整合比较重要?因为要做到这一点,只有硬件团队不够,还必须有模型团队。我们设计芯片时,软件团队、模型团队坐在一起分析。可能跟其他公司不一样,我们是这几个团队坐在一起,而且大家比较兴奋——之前很多做软件的人根本没有机会直接对硬件团队提需求。

在组织上,我们希望以某一个核心的、有挑战的目标为中心,围绕它构建项目团队。实际团队是分开的,但像一团篝火一样,有硬件的人、有软件的人、有模型的人,大家在大目标下一起共创、一起实现。我们内部越来越多的项目会往这个方向走。它不是一个硬的组织隔离,而是一种软的合作机制。

11、第一,马赫M100是否因为没设计PCIe接口,导致对自动驾驶来说两颗芯片协同用处不大?额外一颗芯片的核心用处是什么?第二,马赫M100是不是对带宽需求不,对片上存储需求更高?第三,两位老师怎么看一些人觉得“理想太喜欢类比是因为技术判断力不足”这个观点?

谢炎:我认为未来智驾需要更多的算力。回到2022年我们设计芯片时的目标,它的性能是当时最好芯片的4倍,我们觉得够了。PCIe控制器本身也占一些面积和成本,所以就没有加,觉得四年以后怎么也够了。某种程度来说,我认为加上会更好,因为有可能未来智驾需要更多的算力。但没有PCIe不代表这个芯片不行,其实是完全可行的。

可以想象当未来的智驾能力更强时,也许不是几年,也许是两年后,需求就不一样了,这也是我们设计未来芯片时会考虑到的点。

按照昨天发布的场景,今天有一些云端的大模型最终要落到本地,特别是跟舱内视觉相关的。很多人会敏感,觉得舱内摄像头把车内信息都上传到云端不安全,所以这些信息应该在本地处理。比如在地库跟一辆车像跟机器人一样交流,而地库没有信号,所以需要很强的本地大模型,几B到几十B的模型。所以会有另外一颗芯片,更好地承担这部分工作。

关于第二个问题,我们对带宽的要求会低,但这也并不是设计SRAM容量(不是显存)的直接原因。现在HBM(高带宽内存)很火,很多人觉得带宽越高越好。计算,带宽,SRAM等等都是需要晶体管代价来实现,最终的设计都是成本/综合性能等多方面的综合设计考量后的一种选择。不同的架构设计,仅仅靠一两个指标来做简单对比,既不合理也不专业。这就像打拳击比赛,高有高的优势,体重大有体重大的优势,但不是由单一指标决定了胜负,最终比的是拳击这个运动的结果。泰森,既不是最高也不是最重的,却是拳击最强的那一个。

M100 通过编译器显式编排数据搬运与计算时序,绝大多数张量数据在片上流动完成算子运算与中间结果传递,大幅减少了对于直接进出 DDR 的访存次数,因此对外部 DDR 带宽依赖更低。

关于第三个问题。我在内部也希望给大家做类比,因为类比是帮助大家理解,只有理解的比较深,才能做出合适的类比。类比不等于我们不知道背后的原因,相反,我们希望通过类比把复杂的原理讲得更清楚。大家如果关注理想汽车的技术,会发现无论是在芯片还是智驾领域,我们都有大量公开的技术论文。每年我们都会发表几十篇顶会论文,覆盖从模型、系统到芯片的完整技术链路,而且这些论文对技术思考和实现路径都有比较清晰的阐述。

如果大家感兴趣,可以去看一下我们的论文,会看到我们背后的技术思考到底是什么。所以我们的类比并不是凭空产生的,也不是为了包装概念,而是建立在真实技术原理之上的。一个有技术根基、有原理支撑的类比,才是有效的类比。

詹锟:关于类比的问题,我来补充一下。类比有两种。

第一种是帮助对外宣传和沟通,帮助大家理解。类比成人、类比成大脑,这是为了帮助大家更好地理解技术。

第二种类比,大家也要关注。从第一性原理出发,我们在思考为什么要造未来的硅基人或具身智能,这个类比是从第一性原理看到的,而不是生硬地从技术上对应到一个简单的事物。其实技术思考很深刻,我们有很多深入的工作、精细的工作在做。从2022年到现在,我们发了近200篇论文或技术报告,这个数量非常多。虽然不是所有顶会都有中稿的文章,但投稿的文章更是不知道有多少篇了,我们在这方面有非常深的研究。

类比只是为了帮助大家理解,深入浅出地做一些说明而已。但其实技术思考是很深入的,并不是简单类比一个简单的事物。

12、看了芯片设计的架构之后,理想的核心思路是针对很多场景做特定的优化与加速。如果未来同时引入了大量的Agent应用,这套架构能不能很好地应对Agent爆发式的流量?模型的通用性是一方面,带宽和并行能力能不能应对Agent的爆发?

谢炎:您可能想问它的通用性问题。我们芯片第一个重要的业务毫无疑问是自动驾驶,但我们没有做成只能跑一个模型。它的数据流可以跑任何模型算子,不仅可以跑自动驾驶,也可以跑语言模型,昨天我介绍了我们能跑Qwen 35B(通义千问350亿参数模型)。

我们是个端侧芯片。作为端侧芯片,它的服务query(请求)不会很多。如果我们设计一个云端芯片,是同时服务1000个用户。但端侧芯片的要求不一样,它服务的对象往往只有一两个任务,它要求的是更短的延时,而不是服务更多的对象。如果是云端芯片,架构还是数据流,但设计和端侧芯片就不一样了。

13、马赫M100芯片对编译器的要求非常高,编译任务非常重。跟传统编译器相比,有什么不一样?做这个编译器对人才的要求有什么不一样?未来芯片的竞争会不会变成对新型编译器人才的竞争?

谢炎:我自己在研究生时代就做编译器。像通用CPU的编译器,其实也很难。一直以来,编译器就不是一个容易的事,如果学计算机会知道编译器是计算机里最难的课,比操作系统还难。

数据流和传统的冯诺伊曼架构不同。冯诺伊曼架构是为了适应人类的思考,把计算抽象成顺序的指令,这样人可以一步步做推理。而数据流是大规模的并发,多条数据流同时在进行,它不仅在时间上往前推,在空间上也要布局,叫时间空间编译。再加上我们没有指令顺序,基本上是用消费者-生产者的模式,大量的消费者和生产者在同步进行,这需要完全不一样的编译框架。我们做这个事花了大量的时间。

32问理想AI转型:从辅助驾驶、自研芯片到具身智能,高管集中回应外界质疑

▲数据流架构

我们对人才的要求是,不仅要懂编译,也要懂架构。反过来讲,做硬件的人也要懂软件编译器怎么用。所以我们的编译团队也是架构团队,这个芯片是软件、硬件、架构团队一起设计的。

关于未来的人才竞争,我非常同意Jack B.Dennis教授的一句话,他是数据流的鼻祖,我的导师是他的学生。他在2000年讲了一句话,他说现在计算机分工太细了,硬件的人不懂软件,芯片的人不懂编译器,软件的人不知道硬件怎么work(运作)。大家没有意识到,当同时看到硬件与软件,本质就是计算机完整的图景,当看到所有东西时,就可以创造更大的创新。看计算机理论的话,它本身不分硬件软件,本质就是如何让一个计算任务完成。为什么后面分出了硬件与软件?因为有一部分用软件来抽象效率更高,有一部分用硬件来抽象效率更高。但当需要更大的创新时,应该打破这个边界,重新看计算机是怎么设计的。

今天美国非常创新的公司,他们思考的东西是从根本上打破软硬件的边界——把传统认为是软件的东西放到硬件上,把传统认为是硬件的东西放到软件上,这样才能得到划时代的创新。如果原来怎么做,今天还是怎么做,性能的提升速度远远赶不上需求。今天摩尔定律越来越弱了,缩放定律已经失效了很多年,会拖慢整个AI发展的速度。

14、马赫M100芯片在理想的定义里是一款AI推理芯片,而不是AI训练芯片,这两者的边界是什么,背后的思考是什么?在AI训练领域英伟达已经很垄断了,跟它做竞争是不是很难追上?AI推理是个非常好的市场,你们怎么看AI芯片领域未来的市场格局或规模?

谢炎:我认为AI计算的算力市场,最终会出现99%的推理,训练只占很小的部分。从这个角度来讲,今天中国和美国大量的公司在为了更高的效率专门做推理芯片,也是这个原因,因为最终推理市场更大。如果推理市场没起来,说明AI没有真正落地。

从我们的角度而言,我们公司先要解决推理问题。训练的话,用市场上好的训练芯片,目前够我们用了。

从经济模型角度来讲,训练要的是效率,它对成本不太敏感。训练要的是在足够短的时间内迭代。至于成本高了50%,甚至高了100%,也没关系。英伟达最高端的芯片,很多公司以翻倍的价格也愿意买。但是推理芯片不一样,它要同时考虑成本与效率,而且考虑成本的比重非常高。从解决公司和业务问题来讲,推理问题更大,它跟我们想要达到目标的gap(差距)更大。如果我们做一件事的话,我们就解决机会最大的问题。

15、第一,昨天理想说是全世界性能最强的AI芯片,引起了很大的讨论,有一些质疑的声音。跟这些友商相比,理想的领先性体现在哪些方面?第二,去年M100流片,为什么今年才量产上车,有什么考量?在做芯片过程中,有什么挑战或故事可以分享下吗?你们评估过理想自研芯片预计达到多少的出货量,才能回本呢?

谢炎:我们为什么敢说自己是世界第一呢?因为我们跟市面上标准可以获得的芯片做对比,它是英伟达Thor-U三倍的性能。我们可以拿出Benchmark(基准测试),甚至可以让第三方做测试。我们也跟一个第三方测试机构聊过,测试机构说其它家都不愿意拿出来做比较。如果要公平地比较,可以拿到一个公平、综合的Benchmark去做合适的比较。

对于上车时间我们已经做得很快了。做芯片基本要5年时间,而我们用了近4年时间就实现了上车,而且模型都可以正常跑起来。

至于在过程中遇到的困难,肯定是有的。软件、编译、模型适配,这都是有很多困难在里面,而且这些坑只有实际做了才知道。昨天有些同行说,看了我们的论文以后,说把论文写得那么详细,别人家着论文是不是就可以复刻。但我们不担心,因为把这个架构要落地是非常长的距离,而且中间有很多坑,只有真正做才知道,才能迈过去,迈不过去,就停在那儿了。

第二,我觉得数据流架构for AI是一个大的技术方向,它比其它架构更适合,我希望更多的同行能跟随这条路。就像冯·诺伊曼提出来技术路线,很多公司跟随。从更长时间来看,这不是一件坏事。

16、动态数据流编译器到底难在哪,我们花了多长时间,最后是怎么攻克的?

谢炎:我们从一开始设计时就开始了,并不是流片回来再做编译器。在流片前,甚至设计时,就开始做编译器工作了,在流片前,已经把很多模型给跑通了。至于难点,传统的CPU编译器经过几十年发展,已经有一套成熟的理论,follow就好,像英伟达的上层架构、谷歌的架构,已经非常成熟,前人已经把楼的基础建得很好了,大家只要在此基础上做差异化的东西就可以。

而数据流是完全不同的架构,它要解决的问题非常类似于超级计算机或大规模计算机集群要解决的问题——当规模扩大到几十万台计算机、上百万颗核,它们之间互相通信、互相协作时,没办法通过一个中央管理员去管几十万颗核。传统冯·诺依曼架构的调度方式在这个规模上就不可行了,这是一个超大规模的并行调度问题。

17、去年年中,为什么还要重新做编译器开发?去年年中迭代的那一版主要是解决什么问题?

谢炎:编译器工作不是做完就结束了。从流片前、回片后、部署上车后,一直会持续迭代,因为编译器的核心任务是把硬件效率发挥出来,需要一版一版不断优化。去年年中那一版主要是把性能优势充分发挥出来。

我在20多年前学编译课时,老师第一课就讲:编译问题是个NP-Complete(NP完全)问题,是计算机理论里最难的问题之一。大家并不知道最佳性能点在哪,但可以不断逼近。所以“跑通”跟“跑到最好”距离非常大,而且最好永远不可及,只能不断逼近。我们在跑马赫VLA模型时,性能已经是ThorU的三倍了,但我们觉得依然有潜力可挖,依然在继续迭代编译器。

18、我想问几个芯片相关的问题。首先关于数据流架构的局限性,之前的CNN模型映射到数据流架构会比较好,但现在模型进化到了Transformer和MoE结构,芯片是否还适合模型架构的进化?

谢炎:我认为数据流架构比冯·诺依曼架构更贴近计算的本质。冯·诺依曼做的事情是为了人类编程方便,抽象了数据的顺序指令流,GPGPU(通用图形处理器)也是多个指令流,做SIMT(Single Instruction Multiple Threads,单指令多线程模型)。为了人类编程方便,用指令流顺序表达,又要有高并行度,所以需要做很多硬件额外开销,把并行度重新挖出来。

我认为数据流最重要的一个思想是:假设对人类编程的方便性降低,我靠很强的编译器,甚至靠AI编译器,能不能拿掉这部分额外开销?CPU和GPU架构里有大量的晶体管开销用在cache coherence(缓存一致性),比如instruction reordering(指令重排序)、branch prediction(分支预测)。一个CPU,30%的晶体管开销在这上面。如果不用冯·诺依曼架构,这些都可以拿掉。

cache coherence(缓存一致性)也是同样的道理,不仅缓存一致性本身会占用晶体管规模,更大的问题是,为了做到缓存一致性,并行规模不会特别大。如果把scalability(可扩展性)拉起来的话,缓存一致性就是个灾难,这是不可行的。早期有研究表明,8到16核做缓存一致性就非常困难了,时间开销很大,效率开销也很大。

讲到本质,就是这些额外开销能不能拿掉。这样做的代价就是编译难度会变大,调度难度会变大。在过去这不可行,首先并行度没那么高,除了高性能计算,就是所谓的超级计算机,模拟核爆炸或预测天气,这种场景并行度非常高,这种场景下用programming model(编程模型)是有意义的。

AI有大量的并行,需要分配到不同的计算单元时,这个架构就有优势了。我昨天讲了,帮把晶体管利用率提升。

MoE和Transformer的计算密度没那么高,特别是decode阶段可能计算密度没那么高,带宽瓶颈会更大,这的确是需要解决的问题。在计算密度不高的workload(工作负载)里,斯坦福去年有一篇论文讲Mega kernel(一项针对大语言模型低延迟推理的系统级优化技术),它把kernel做大,就是为了避免数据频繁进出。Groq和Cerebras为什么要做那么大的片上内存?就是因为数据全放在片上的效率更高,可以不进出DDR(双倍速率内存),因为DDR的瓶颈很高,而且成本也很高。今天大家都要用HBM(高带宽内存),但都不想用HBM,因为太贵了。回到车上更是如此,我们用不了HBM。我们通过架构的方式把进出DDR变少,让效率进一步提升,不仅是晶体管利用率提升,计算效率也提升。

19、芯片上有24核CPU的结构,包括NPU里面也有RISC-V的CPU核存在,这些是不是用来处理动态数据流或动态决策,就是静态编译没办法处理的情况下,会转到CPU上?

谢炎:其实24核的CPU只用来跑Linux,因为它是个SOC(片上系统),需要一个操作系统来控制AI的workload(工作负载),还要跟外界通讯,还要做IO(输入输出)。今天的自动驾驶除了AI推理还有其他任务,这些任务更适合CPU做,所以CPU不可缺。再往后走,Agent场景中30%是AI推理,30%是CPU,30%是IO。如果到了Agent的intensive workload(密集型负载),我的观点是CPU和AI都重要,这不矛盾。但AI是计算最需要解决的问题,因为模型的规模会变大,主要增大的部分就是AI的推理部分。

20、这两年有很多车企都发布了自己的芯片,正常来讲芯片是高投入、长研发、需要验证的产品,但这两年头部车企都在做芯片。从理想的角度来讲,您觉得未来有多少车企会真正做成自研芯片?在当下芯片产业链快速发展的情况下,哪些环节是被加速的,哪些过程是必须要经历的?

谢炎:第一,为什么这么多车企都发布芯片,是不是这件事很容易?我想说其实挺不容易。我们自己做这颗芯片花了4年,在新势力里我们启动最晚。大家要看发布芯片后,最终结果是最领先的模型什么时候真正落到车上。从这个时间来看,除了我们以外,其他家一般要5年时间甚至更长,我们是最快的。所以要有点耐心,第一颗芯片如果真的自己做的话,没那么容易,一般要花5年时间。

做一颗芯片和做一颗领先的芯片,难度又是不一样的。有些公司做了芯片,但这颗芯片不够领先。我跟李想说过,我最担心的事不是做不出来,最糟糕的事情是做出来了但它不领先,那公司这个钱就白花了,这是我最不想看到的结局。

我们看业界,并不是每一家公司都能做到。现在很多公司宣布做了,但并没有真正落到车上。要看它什么时候落到车上,什么时候把最高端的智驾用自研芯片跑起来,并且还能做好用户体验。再者,看是不是所有车都能用。有的公司为了证明自己能用,只用了一款车型,出货量只有几千辆,其他车还是用外购芯片,说明它也知道这件事并没有帮它解决真正的问题。

我认为要看几个指标:全量的车能不能用上,能不能快速上车,能不能跑最先进或最新一代模型,并且部署到所有车上。另外一个指标是能不能持续迭代。做一代芯片不说明问题,最终要做出第二代、第三代。很多公司只做了第一代,第二代就不做了。有些公司也可能买个IP就做了,也可以宣传自己自研。

但我们不是,因为我们连论文都可以看到,这个世界上没有第二个芯片跟我们做的一样,完全没有,甚至连这个思路都是我们提出来的,没有任何已有的IP可以follow。

32问理想AI转型:从辅助驾驶、自研芯片到具身智能,高管集中回应外界质疑

▲理想自研芯片论文入选ISCA2026

21、在芯片产业链里,哪些环节是可以被加速的,哪些环节是必须要自己踩坑的?

谢炎:有些技术是成熟的,比如偏后端的部分,有点像造房子,找工程队垒砖,是可以找到供应链加速的。但是真正要做到量产、做到最领先,设计肯定要自己做,软件要自己做。如果连软件都外包给别人的话,就不可能迭代芯片性能。当然生产一般都是fabless,大家不会自己再去造工厂,这是另外一回事,生产今天是成熟的。

回到国内,我们会越做越深。如果做芯片要持续领先的话,仅仅做芯片设计,做成GDS2(版图数据库),交给Fab(晶圆厂)去做流片,这也不够。很多部分要跟封装厂联合设计,要垂直整合。有些技术不仅仅是货架商品,由别人提供就可以,但要深入到封装制造领域才能领先。我们不会停留于此,会越做越深。

三、舱驾融合不是芯片融合 车内AI算力要统一调度

22、五年后或者再往后看两代产品,理想汽车车内的算力中心有没有可能全部使用自研的马赫芯片?第二,我们看到提升模型帧率对系统体验有明显改善,什么时候能看到更高帧率的模型上车,是7月、9月还是12月?

谢炎:我先回答第一个问题。您说得很对,我们就是这么思考的。虽然业内有一个说法叫“舱驾一体”,我们认为舱驾一体最核心的是AI算力部分,其他部分是不是一体没那么关键。因为座舱系统跟AI智驾系统可以完全独立,但AI算力可以集中在一起,这样分配效率会高很多。所以我们路线图的最终形态是车内一个AI计算中心,所有AI任务都可以到这个计算中心去计算。就像笔记本上跑OpenClaw一样,AI的计算不在笔记本上,而是在Token Provider Server(Token供应服务器)上,车里也类似,有一个Token Server(Token服务器)。

这个Token Server的优势:第一,效率非常高。第二,能做到不同任务互相隔离、互不影响。比如智驾任务的确定性——无论是内存还是带宽,能够保证不被其他任务干扰,这是软件和硬件一起设计才能实现的。只靠芯片提供商做不到这一点,需要软件跟硬件一起配合设计。

我们的优势在于,可以把一些计算单元完全隔离给智驾用,另一部分给其他任务用。如果是通用的SRT(Secure Reliable Transport,安全可靠传输协议)‌架构,它不能完全做到这一点,因为这些东西藏在硬件里,而硬件并不知道上层应用的语义。它不知道下面跑的线程是智驾任务还是其他任务,或者说它做这些事情的代价非常高。就像我昨天发布会说的,我们走向数据流架构有很多原因,有效率的原因,也有AI场景下多任务需要并行运行、对时延非常敏感、对资源确定性要求很高的原因。

詹锟:首先,LiDAR(激光雷达)我们不是去掉了。但LiDAR能不能作为前融合的主传感器,这需要我们思考。如果我想提高帧率,LiDAR的帧率有物理限制,因为机械结构的原因,10到15赫兹就到顶了,不能再高。如果想做到更高的输入频率,只能靠视觉。更高的输入频率对细节反应有很大提升,像特斯拉的细节反应速度就是这么来的,这是上限。所以我们必须拉高上限,基于纯视觉把输入上限拉高。我们正在往这个方向做,大概率会在某一个节点切入到类似的水平。

我们内部有很多版本的纯视觉方案,最难的是看效果怎么样,这不是拍脑袋的事,要以实践结果来证明。特斯拉是36赫兹的输入,输出不一定是36赫兹。所以我们肯定要提高帧率,接下来会先上15赫兹、20赫兹。将来一定会以更高的帧率做输入,纯视觉带来更好效果以后,我们就会替换上来。

第二,我们认为LiDAR有一个很大的优势,就是对L3和L4场景下的安全兜底。我们会一直往 L4 这些方向去努力。我们能不能在真正的安全底线下做得更好,这是很重要的事。毕竟纯视觉输入信息有限,而LiDAR在极端情况下可以解决很多问题,所以LiDAR的作用很重要,我们会通过其他方式保证更强的安全。

基于这样的判断,下半年最重要的两件事:第一,用纯视觉提高帧率,把芯片性能发挥到更大,反应速度大幅提升。第二,LiDAR会承担很重要的数据采集环节,它对L3、L4各种极端场景很有帮助,我们会持续提升安全,安全不能妥协。

23、为什么现在的大算力芯片方案,比如英伟达、小鹏、理想自研的这些,都没有做芯片级的舱驾融合,反倒是高通在低算力的骁龙8650上做了这件事?这是为什么?

谢炎:这个问题很好,好多年前就和一些芯片同行讨论过。从本质上讲,舱和驾是两个独立系统。特别是对高端的L3往L4走,智驾需要一个更高确定性的系统,内存是专属、计算资源是专属,这时融合的意义就小了很多。因为资源不能实时切换,实时切换会降低确定性。如果变成越来越独占的方向,融合的价值就不大了——毕竟只是把芯片拼在一起,但资源还是两份,并不会带来成本的降低,甚至会影响效率。

对低端来说,L2对切换的实时性要求不高,有一部分确实可以有限地共享,但我认为也不多,未来会证明这一点,因为今天只是个概念。

我认为真正的舱驾融合是舱需要的资源和驾需要的资源在物理上完全是一块,可以动态共享。不是形式上放在一起,但实际切成两半,这不叫融合。融合就像笔记本跑浏览器和其他应用程序,笔记本的内存完全可以共用,一会儿跑这个,一会儿跑那个。

现在的舱驾融合系统肯定还是分开的,今天做不到一会儿跑这个一会儿跑那个。如果做到的话,融合的价值确实很大,但做不到的话,只是减少一定的成本——因为把两个芯片放成一个芯片,晶体管数目也许不变,只是省了一次封装的成本。对中低端芯片来说这部分钱可以省,但也省不了太多。我的观点是,越往后走智驾越来越高端,舱驾融合这件事可能意义并不大。

如果把这些芯片做得更近一点,在一块板上做成很小体积的集成化方案,这是可以的,并不一定要做成一块芯片,也可以多块芯片放在一起。

24、做基座模型是不是汽车公司想站在AI前沿的必要基础能力?基座模型有没有可能也出现类似的外部统一生态,可以给所有公司去适用?

第二个问题关于舱驾融合,怎么确保智驾链路的可靠性不受影响?在算力分配上,座舱运行大模型推理时需要较大的算力和内存,怎么确保智驾的算力不受挤占?另外在产品开发节奏上,座舱需要快速迭代,智驾需要更长的验证周期,两者怎么协调?

詹锟:关于基座模型,我认为答案是肯定的。只要想走具身智能和AI方向,基座模型一定是必争之地。基座模型不太可能像OS(操作系统)一样有一个标准件,因为每个人的场景任务不一样,需求也不一样,所以基座模型需要自己建。特别是语言模型的基座,做汽车有汽车的基座,我们对视觉语言的重视更多,参数量的分配比例也跟通用模型不同。

所以基座模型一定要做。现在大家都讲基座模型,其实每个公司表述的意思都不一样,要看具体是什么含义。核心有两种类型的任务——语言智能和机器智能,这两个对基座模型的需求是不一样的。可以共用一个云端大模型做基础,但实际使用中一定是有区分、有差异化的,我们也是在往这个方向做。我们已经有非常强大的统一基座模型,可以构建物理环境,我们对它有很多反馈和评价机制。但真正落到车上时,需要有裁剪、有取舍、有参数量的适配、芯片能否承载,我们要做不同的改造。

至于将来会不会有一个技术收敛的外部模型给所有厂商直接用?如果说有开源的pre-training(预训练)模型,这是有可能的。但想让一个pre-training模型就直接给大家当基座用,我觉很难。大概率大家还是要做很强的post-training(后训练),才能变成真正能用的基座模型。

谢炎:我来回答第二个问题。简单说,你可以想象一个职业司机和一个生活助手,这是两个角色,不是一个人。不是说一个人可以一会儿开车,一会儿放音乐。算力和相关软硬件基础设施也是独立的,这是两套系统。我们的算力可以灵活分配给不同角色使用,但在使用时,两者不会互相干扰。

25、第一,能否透露一下马赫Mind-Pro模型的架构和参数量?未来有没有考虑过像小米MIMO那样对外开源?

第二,李想总在罗永浩的节目中聊过,想基于下一代马赫芯片做一个家庭算力中心,类似英伟达DGX Spark的理念。这个项目现在是否在推进中?出于什么考虑?适用于怎样的场景?

詹锟:第一个问题,Mind-Pro是一个性能不错的主流模型。模型架构采用了MHA(多头注意力)、GQA(分组查询注意力)之类的架构设计。

要不要对外输出?这是一个商业选择问题。我们自己车的本体有强烈的优化倾向性,没有必要对外去卷coding(代码能力)这个赛道。现在大家卖token主要还是往coding方向走,我们没必要卷这个方向。

但我们为什么在这些benchmark(基准测试)上取得了不错的成绩?因为我们对自己的硬件本体有非常深刻的理解。我们车上有很多硬件资源需要调度,如果用其他第三方大模型去试,效果不会比我们好,反应还很慢,常识错误也很多。我们通过强化学习以后,模型对车身运动有很强的理解——知道车身如何晃动,里面有很多tools(工具接口)可以调用。只有基于自己的本体做了强化以后,才会有非常深刻的优势。我们不一定要跟别人去卷coding,因为那是另一个赛道了,不符合理想汽车的主路径。

32问理想AI转型:从辅助驾驶、自研芯片到具身智能,高管集中回应外界质疑

▲马赫Mind-Pro跑分

如果有机会往具身应用方向做开源的话,从长远来看可能有这个机会,但目前各家硬件差异较大,并不一定完全能通用。这是我们想做的方向——把我们的模型跟Agent和物理世界结合得更好,这就是马赫Mind要解决的问题。

32问理想AI转型:从辅助驾驶、自研芯片到具身智能,高管集中回应外界质疑

▲马赫Mind-Pro性能对比

谢炎:我来回答第二个问题。我们做的M100本质上是一个通用AI推理芯片,理论上讲,它能很好地推理自动驾驶模型,也可以推理语言模型。有同事说这个芯片这么好,能不能装到家里面,因为他需要一个私人的家庭算力。出发点是从这里开始的。下一代芯片毫无疑问会更强,经过一定的改造,我相信放在家里非常有竞争力。

四、全栈自研有门槛 要看组织、数据和工程投入

26、理想汽车这几年经过很多次智能化的体系调整,最终把芯片、基座模型和智能辅助驾驶整合成统一的团队,您作为CTO视角来看,理想的“三位一体”和特斯拉的FSD、HW、xAI相比,差异化的护城河在哪?是组织效率,还是技术路径的差异?

谢炎:这个问题很好。跟特斯拉相比,大家出发点是一样的。如果想围绕AI做出强竞争力有两方面。

第一是,需要快速迭代。今天的AI发展很快。从芯片领域来说,英伟达也迭代很快,不仅是自己迭代快,还不断收购公司补充自己的技术,说明这个行业竞争非常激烈。所以迭代快,是我们进行组织整合的一个目标,几个团队更紧密地合作,迭代速度会上去。

第二是,需要垂直整合。理想汽车推崇构建垂直整合的竞争力。在这个时代,如果没有自己的芯片,只做自己的模型,那么如果遇到需要芯片和模型联合设计,才能把问题解决得更好的情况下,我们就失去了这样的机会,特别是一些大的创新。

我个人观点是,当技术发展到平台期时,这时分工会很细。比如PC(计算机)发展到2010年时,分工非常细了,操作系统归操作系统、应用归应用、芯片归芯片、制造归制造。但是如果技术处于高速发展期,斜率非常高时,就会发现很多公司又回过头来做整合,因为需要在技术边界上把分工打破,重新做整合。

比如英伟达之前只做芯片,现在英伟达连封装和机架都开始收购公司来做。所以英伟达要解决更进一步的问题时,需要上下游一起来做,如果分成多家公司来做,其实效率是非常低的,甚至是不可能的。英伟达做Vera Rubin(AI超级芯片平台)时,可以看到不仅是多种处理器,而且机架、散热技术、互联技术都是英伟达来做。虽然英伟达是做计算的公司,但现在全拓展开了。我认为技术快速发展的时代,这是有志于领先的公司肯定要走的一条路。当然这个投入肯定不小,很多公司不具备这种能力。在我们团队,以我个人为例,我的背景是做过操作系统、架构、应用层等AI各个方向,所以我们的整合效率相对更高一些。

除此之外,组织规模小一点也是优势。如果需要高密度、高整合度,组织规模不能太大,如果组织规模太大,就会导致很多部门墙。这是为什么我在公司强调要保证比较小的组织规模的原因,就是想让大家合作得更紧密些。如果团队规模很大,每个团队都给自己立一道墙,自己成为一道闭环,相互之间的合作就会很难。

27、垂直整合和水平分工在历史上会不停地重复发生。特斯拉最早用Mobileye方案,接下来软件自研、硬件用英伟达,最后全部自研。请问自研芯片背后需要什么条件?比如销量、营收、研发投入。目前自动驾驶迭代速度很快,芯片要持续迭代的话,需要什么样的条件?

谢炎:如果业务需要自研核心技术,比如芯片,先期投入的确不小,可能一年要好几亿。

第一个条件是达到一定的营收规模。对车企来说,营收规模一年1000亿以上,研发投入至少10%,就有大几十亿到上百亿,每年投钱研发芯片是可以的。

第二个条件是,研发芯片解决的问题,要能让产品能力更强。回到十年前,一些房地产公司也做高科技,问题是它投入的高科技对主营业务帮助非常小。比如我是房地产公司去投芯片,这个意义不大,芯片对卖房子没帮助,对未来也没帮助,更多是象征意义,而没有实际意义。

以上是最重要的两个条件。

这里有个误区,很多人说芯片要有很大的出货规模才行。其实芯片的成本和面积相关。一辆车上的芯片,比如Livis是2颗马赫M100,加起来800平方毫米。而一部高端手机芯片大概100平方毫米,所以一辆车的智驾芯片相当于8台手机的芯片面积。会有人说车的量比较少,但成本不仅仅跟数量有关,也跟面积有关。这样算下来,大几十万辆车需要的晶圆面积非常大,完全可以摊薄成本。所以成本不能仅用颗数来衡量。有的IT公司说一年出货好几亿颗,但其实每颗面积非常小。不能脱离背景只谈量,这是不完整的。

我们在马赫M100立项时算过,做这个芯片不会让公司的效益变差,而是会变好。我们不是为了证明自己能做而做,不仅性能要做到最好,在成本上也要帮助公司省钱。

28、理想说的全域一体,到底有什么核心优势?放到中长期来说,这是不是一个趋势性的东西?另外,现在技术路线迭代非常快,全域一体中长期能给理想带来什么样的差异化赋能?

第二个问题,从您的实践来看,一家车企要做哪些事,从组织架构、人员、到技术上,才能说明他是真正在往具身智能方向走,有真实的投入?能否给我们一个评判的参考维度?

谢炎:全域到底解决什么问题?假设我们停留在L2、L2+,以自动驾驶为例,不做垂直整合也可以,无非是从供应商采买。车还是人类监督,人类随时准备接管,开得慢一点、效率低一点也没关系,要求不高。但昨天(发布会上)理想希望它像机器人一样独立地完成任务,那对它的智能要求就非常高了。不仅是脑子,对手脚的掌握、对加速、轮子、纵向横向的控制,要求都很高。

从L2往L3走的时候有很多问题,今天没有供应商可以解决。分开采买,可以买系统、买线控,但加在一起,有大量的冗余,成本又高,延迟又高,出了问题还很难定位。所以要解决未知问题、想达到更高标准时,领先企业一定会选择一起做。当然我不排除20年后技术进入平台期时,会拆分出各种供应商。但在技术还没收敛的阶段,要达到这个目标,必须自己整合。

就是因为一些问题不好解决,我们才要自己出手,而且这些问题是长期性、重要性的问题。比如L3、L4,今天没有人完全做到,特斯拉也没完全做到,这是无人区,我们需要解决这些问题,需要投入巨大的资源。

车的内卷就是因为同质化。要摆脱同质化,就是要做别人不好做或做不到的事。这些事如果供应商能做到,那又同质化了。这就是基本逻辑。

29、您刚才提到不担心把论文的技术细节公开出来,别人把技术学走。能否举一个具体的例子说明?

谢炎:理想的论文非常多,但论文只有几千个字,只是架构的思想。比如芯片要在合理成本下实现,流片的话面积很重要,面积不能太大。如何把我们讲的算力和架构落到可控的面积内,这里面有大量的工程工作。我们一开始认为面积控制比较难,甚至认为不可能控制住,这些都需要工程去克服,而这些细节在论文里是看不到的。打个比方,这张桌子有四条腿,但真正去做的时候有很多细节。

30、会有发论文数量方面的KPI吗?

谢炎:发论文更多是为了跟业界做交流,思想的交流很重要。往前做的时候,有更多的交流,也帮我们看看想法有什么不足,也可以去业界吸收别人的优点。因为不讲自己的东西,对别人深入了解、给你提建议也是不利的,所以这是有益的。当然我们没有把它当做指标,因为当做指标就变味了。

五、车是具身智能第一站 基座模型和具身智能模型不能复用

31、詹锟老师也是基座模型的负责人,我想问一个技术方向的问题。基座模型怎么从车扩展到其他终端?它的瓶颈是数据、运控,还是模型本身的范式?所以能不能真正统一车和机器人这两种不同的终端形态?

詹锟:我认为这个gap(差距)很大。切换到机器人的导航没问题,但如果切换到操作上,模型不是那么一样。或者说Foundation(基座)只是一个非常基本的,它后面一定是千差万别,这一点要确认。

车里面包含了Language语言智能,这直接迁移到机器人的概率是非常大的——交互、思考、长程规划。DeepMind Robotics团队有个ER模型(Gemini Robotics-ER),就是来自Gemini的,把语言思考上的能力从通用场景迁移到机器人上。

我们把物理机器人分成三个关键任务。一是具身交互,我们跟它沟通、交流、思考,让它做任务规划。二是移动,自动驾驶能不能从A点到B点,无碰撞、安全、高效地到达目的地。三是操作,狭义的具身,是一个独立任务,是开放性场景,业界很多人都在探索,包括硬件、数据都是不完善的。这三个任务任意的组合,都会形成非常有价值的商业模式与价值形态。

这是我们的想法,我们的车有机会把这三点都涵盖。涵盖以后,我们想长成任何一个物理的具身本体都有非常大的机会。我们肯定有云端的共同基座,但这个基座是不是放在任何任务上就能直接用?我觉得比较难。

但它作为基座,提供海量的数据支持、训练环境,能提供Foundation Model(基座模型)的baseline(基线),可以快速做下个任务的收敛,这是很有帮助的。所以这也是我们成立基座模型团队的原因,我们会有基座来支撑各个业务,但每个业务有自己的特点。

32、昨天理想提出了具身智能汽车的定义——电动车、职业司机、AI计算机、生活助手四位一体。但从用户感知来说,这四个方面的价值点和感知清晰度肯定不太一样。汽车本身又特别同质化,如果看未来三年,从具身智能汽车的角度,这四块拆开来看,哪部分的竞争最关键?最大的差异化在哪?

谢炎:我觉得这四个能力其实不是割裂存在的,而是共同构成具身智能汽车的完整能力体系。

电动车解决的是移动能力,让智能真正能够进入物理世界;职业司机解决的是执行能力,让车辆能够安全可靠地完成出行和任务;AI计算机提供的是算力和系统基础,支撑越来越复杂的模型和能力运行;生活助手则是交互入口,让用户能够以最自然的方式使用这些能力。