
车东西(公众号:chedongxi)
作者 | 张睿
编辑 | 志豪
理想汽车自动驾驶团队5篇论文被世界顶级学术会议录用!包含世界模型、端到端规划模型等方面。
车东西6月30日消息,近日,理想汽车宣布其自动驾驶团队有5篇论文中稿ICCV 2025。
▲理想汽车自动驾驶研发副总裁郎咸朋宣布中稿
计算机视觉国际大会(ICCV,International Conference on Computer Vision)是计算机领域世界顶级的学术会议之一,每两年举办一届,和CVPR、ECCV并称计算机视觉三大顶级会议。
而2025年ICCV大会共收到了11239份有效投稿,为历史最多,这些投稿经过评审后接受2698篇论文,接受率为24%,由此可以看出理想汽车此次多篇论文中稿ICCV的含金量。
理想汽车CEO李想也在社交媒体上发文表示:“如果大家对ICCV论文含金量不太理解,可以类比医学界的《柳叶刀》论文,每一篇都能代表世界级的‘学术金牌’。”
▲理想汽车CEO李想在社交媒体上发文
此外,李想还提到,除理想汽车自动驾驶团队中稿的5篇论文外,理想汽车基座模型团队还有3篇论文中稿,一共8篇论文被ICCV 2025录用。
一、Hierarchy UGP:用于大规模动态场景重建的层次化统一高斯基元
目前,理想汽车自动驾驶团队中稿的5篇论文中,名为《Hierarchy UGP》的论文已经公开,这篇论文的是理想汽车与浙江大学合作在世界模型方面的进展。
▲《Hierarchy UGP》
在署名作者中可以看到,理想汽车智能驾驶高级算法专家詹锟、理想汽车高级算法工程师王一达的名字出现了论文署名中。
论文中表示,近年来可微渲染技术的进步显著提升了动态街景重建的效果。然而,大规模场景和动态元素(如车辆和行人)的复杂性仍是重大挑战,现有方法通常难以扩展到大型场景或准确建模任意动态。
为解决这些限制,研究者提出Hierarchy UGP,其构建了由根层级、子场景层级和基元层级组成的层次结构,并使用在四维空间中定义的统一高斯基元(UGP)作为表示,实现动态静态长达1km的重建能力。
具体来看,Hierarchy UGP的三层分层结构如下:
1. Root Level(根层):管理整个场景的结构,是渲染和优化的入口。
2. Sub-scenes Level(子场景层):将大规模场景按空间划分为多个子场景,分别建模天空、背景、刚体和非刚体对象。
3. Primitive Level(基元层):使用定义在四维时空中的统一高斯基元(UGP)对每个元素进行建模。
▲Hierarchy UGP采用三层分层
根层级作为层次结构的入口点。在子场景层级,场景在空间上被划分为多个子场景,并提取各种元素。在基元层级,每个元素通过UGP建模,其全局位姿由与时间相关的运动先验控制。
这种层次化设计极大增强了模型的能力,使其能够建模大规模场景。此外,UGP允许同时重建刚性和非刚性动态。
四维高斯建模UGP在三维空间基础上引入时间维度,能够自然表达对象的动态变化,尤其适用于非刚体建模。
层次细节控制(LOD)通过图像平面投影尺寸选择渲染基元,提升渲染效率,实现实时渲染。
子场景并行优化采用“块级对象训练策略”,避免跨子场景动态对象的干扰,通过“时间尺度初始化”提升大幅运动区域的拟合精度。
虚拟视图监督在新视角合成任务中引入虚拟视图监督,有效提升外推质量。
在实验结果方面,研究者在专有大规模动态街景数据集Dynamic City以及公开的Waymo数据集上进行了实验。
▲Hierarchy UGP在插值任务上的表现
Waymo数据集是一个真实世界数据集,包含在实际道路上收集的数千个驾驶片段,每个片段包含以10Hz采样的20秒传感器数据。
▲Waymo数据集上的定性比较
▲Waymo数据集上的定量比较
最后,研究者们计划将配套代码和Dynamic City数据集作为开源资源发布,以推动社区内的进一步研究。
二、共8篇论文中稿 含端到端模型、渲染框架等多方面
另外,除了已经公开的《Hierarchy UGP》论文,在ICCV 2025中理想汽车自动驾驶团队还有4篇论文中稿。
在端到端规划模型方面,理想汽车与中国科学院合作的《World4Drive》论文,提出业界首个通过自监督学习实现无需感知标注的端到端规划模型。
▲《World4Drive》
理想汽车与中山大学合作的《RoboPerls》论文,利用3DGS构建面向机器人操作的可编辑视频仿真框架,能够从示范视频构建具有照片级真实感、视角一致的仿真环境,支持机器人的数据合成。
▲《RoboPerls》
理想汽车独立完成的《HiNeus》论文,提出了一个统一3D复杂渲染框架,通过三项基础创新同时解决多视角辐射不一致性、增强低纹理表面恢复并保留精细结构细节。
▲《HiNeus》
理想汽车与悉尼科技大学合作的《3D RealCar》论文,提出大规模真实三维车辆数据集3D RealCar,具备海量数据、高品质、高多样性等特性,将有力促进三维车辆识别与重建技术的发展。
▲《3D RealCar》
除理想汽车自动驾驶团队的论文外,理想汽车基座模型团队还有三篇论文被ICCV 2025录用。
理想汽车与中国科学技术大学合作《DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation》,提出大规模高质量人脸视频数据集DH-FaceVid-1K,具备多种族、高质量、大容量等特性,可用于训练多模态数字人脸视频生成基座大模型。
▲《DH-FaceVid-1K: A Large-Scale High-Quality Dataset for Face Video Generation》
理想汽车与哈尔滨工业大学合作的《QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation》论文,提出一种全新的图像定制化微调范式,可适配现有各种生成模型,训练参数为普通LoRA的一半,微调速度更快,并能用于多属性组合生成等定制化场景。
▲《QR-LoRA: Efficient and Disentangled Fine-tuning via QR Decomposition for Customized Generation》
理想汽车发表的《Twig:Growing a Twig to Accelerate Large Vision-Language Models》论文,提出一种自适应VLM Token压缩&推理加速方法,通过分支引导的Token剪枝策略&自投机解码策略,自适应地删除VLM模型LLM推理阶段中和Query无关的Token,全方位提升prefill & decode阶段的模型计算效率,在长问答Task上可实现1.5倍的提速。
▲《Twig:Growing a Twig to Accelerate Large Vision-Language Models》
结语:理想汽车持续投入基础理论研究
理想汽车此前已在人工智能领域的顶级学术会议和期刊上崭露头角。近3年,理想汽车围绕端到端、世界模型、VLA和基座模型等核心技术,在AAAI、CVPR、ICRA等顶级学术平台发表了近50篇论文。
在基础理论研究过程中,理想汽车在独立研究之外,还积极与高校展开合作,能够充分利用高校的科研资源和人才优势,加速技术研究进程。
而理想汽车能在辅助驾驶、智能座舱等多方面表现出色,离不开其在底层研发的长期投入。