车东西(公众号:chedongxi)
作者 | 晓寒 俞岳
编辑 | 肖涵
智能电动汽车的算力竞赛已经打响。
最近发布的新车中,车载自动驾驶计算平台的算力动辄数百、上千TOPS。计算平台背后离不开大算力自动驾驶芯片的支持,但现阶段唱主角的芯片企业还多是英伟达、高通等海外玩家,中国芯片企业何时能登台与之同场竞技?
答案就在明年。
届时地平线的全场景整车智能中央计算芯片征程5有望量产装车,国内消费者也将真正用上一套软硬件全套国产的高阶自动驾驶方案。
事实上,地平线征程5在今年5月流片成功后,就凭借着30W功耗、128TOPS的单芯片AI算力吸引了整个汽车行业的关注。在当天的发布会上,更是有多家车企现场宣布与地平线就征程5芯片达成首发量产合作意向,其火热程度可见一斑。
眼下已是2021年末,距离征程5的量产时间表越来越近。那么在过去半年里,地平线团队究竟为征程5的量产做了哪些工作?这款芯片的实际测试结果真如地平线强调的真实AI效能一样优秀吗?
日前,车东西团队到访地平线北京总部,与其联合创始人&CTO黄畅再次进行了一场深度对话,不仅了解到了征程5量产装车工作的最新进展,还得以从地平线技术掌舵人黄畅的详细解读中,彻底揭开征程5的核心技术面纱。
一、芯片进入密集测试阶段 装车速度快于同行
今年7月29日,地平线在上海举行了征程5的发布会,以亮眼的纸面参数迅速点燃了汽车行业对国产大算力自动驾驶芯的期待之火。
这颗SoC芯片基于16nm制程打造,其CPU采用8核心ARM Cortex A55核心,最核心的AI运算单元系地平线自研的双核心贝叶斯架构BPU(Brain Processing Unit)。同时其内部还有2个ISP核心、计算机视觉引擎、2个DSP核心、视频编码解码单元。
▲地平线征程5发布会
强大硬件配置背后,征程5芯片的AI算力能够达到128TOPS,并支持最多8颗征程5芯片组合起来打造自动驾驶域控制器,综合算力高达1024TOPS。
芯片的算力固然重要,但在芯片业内人士看来,谈算力必须考虑功耗——优秀的功耗比才能说明芯片实力的强劲。
通过与几款典型自动驾驶芯片关键参数的比较可以发现,地平线征程5的能效比表现非常优秀,不仅超过了特斯拉引以为傲的FSD芯片,甚至还超越了几乎是2022年旗舰智能电动车标配的英伟达Orin。
▲几款典型自动驾驶芯片参数对比
当然,上面的数字都是纸面参数,能不能打还得看实际测试结果。
“跑完算法后我们发现征程5的表现非常优秀。”在谈及征程5的实际表现时,黄畅按捺不住内心的激动,笑着给出了这样一句答案。
据其介绍,地平线的技术团队以微软的MS CoCo数据集为准,对征程5和英伟达目前已经装车的Xavier芯片进行了物体识别算法的对比测试。
其将同样的深度学习模型跑在两块芯片上,平均精度都维持在34.6%左右的水平,同时输入分辨率为512×512的图像,结果Xavier处理的平均帧率不到200FPS,而地平线征程5达到了1283FPS。
由于当时测试时,英伟达Orin还没量产拿不到实物,按照官网所说相比Xavier性能提升7倍粗略计算。如果在Orin芯片上跑同样的算法,帧率乘以7就是大概1001帧,还是没有征程5优秀。
自动驾驶芯片的AI算力就是为感知算法的深度学习模型提供支持,在同样识别精度的条件下,谁的处理帧率更高,自然就说明了谁的“算力”更强。
在与车东西见面时,黄畅刚开完上一个会还未吃午饭。在快速吃了几口面包后,他继续向车东西讲起了近来的工作。
他讲到,芯片量产上车前需要大量测试验证,需要确保它能够稳定工作5年、甚至10年,才能真正量产装车。所以在发布会之后,地平线团队的主要工作就是对征程5进行各类测试,这里不仅仅是对芯片本身进行测试,配套的主板、控制器,甚至是软件算法都需要进行各类测试。
“进入2022年,我们的测试还会更加密集和深入。”黄畅说道,“如果计算从发布到量产装车之间的时间,我们的速度在业内已经很快了。”
黄畅的说法确有事实依据。比如英伟达在2019年发布了Orin芯片,高通在2020年发布了Snapdragon Ride自动驾驶平台,而二者的量产上车时间都在2022年。而地平线征程5从2021年5月流片成功到量产上车的时间预计小于2年。
地平线芯片快速导入量产的能力与速度有据可循。地平线2019年8月发布的中国首款车规级征程2芯片,历时短短10个月,便于2020年6月在长安UNIT车型上实现前装量产;2020年9月,地平线发布了新一代征程3芯片,8个月后搭载于2021款理想ONE量产上市。而这量产装车的速度背后,是地平线芯片在研发全周期里,做的大量且充分的测试验证工作。
二、八字诀窍是研发秘籍 地平线竟是软件公司
从前文总结来看,征程5既拥有出色的能效比和实际测试结果,同时又能快速实现量产装车,表现确实出众。那么地平线到底是如何做到这些的呢?
“答案就8个字,以终为始,软硬结合。”黄畅笑着说道。
黄畅所说的“以终为始”,就是说在设计芯片之初就要考虑清楚芯片的具体用途——要实现什么功能,跑什么算法,要达怎么样的技术指标。
简单点说,这个原则跟订制西装一样,只有知道人的身高、体重、三围、臂长的数据(即需求)后,才能量身打造出最合适的衣服。
而“软硬结合”则是执行“以终为始”理念的具体操作方法,即在芯片设计、测试验证、量产上车的各个步骤都执行软硬结合的操作模式。
“想要做好自动驾驶芯片,你得知道自动驾驶算法到底是什么样的,它要跑通哪种场景。”黄畅解释道。
正是基于这种理念,地平线最近几年迅速组建起了一支庞大的软件团队,甚至规模还超过了硬件团队。
其公司总计有1000多名员工,70%以上为研发人员。而研发人员中,算法、软件研发人员数量达到600人,并且软件研发人员的增长速度是最快的。
▲地平线位于北京的办公楼
有了足够的兵力,地平线逐步涉足到了自动驾驶软件最核心的感知、规划控制领域,相当于是有了自己的自动驾驶算法。因而在定义征程5这颗芯片的初期,就能从自动驾驶算法的实际场景需求出发,提出几种不同的芯片架构方案。
紧接着,技术团队会对不同的架构方案进行虚拟仿真测试,根据测试结果最终确定了征程5的架构设计。
说到这里软件的故事其实还没完。
“1颗自动驾驶芯片的研发周期接近4年,从设计到流片需要2年多,验证又需要1年。到最后装车时,自动驾驶算法可能早就迭代了,所以还得解决对未来算法的适配问题。”黄畅补充道。
面对这一问题,黄畅的解决思路仍然是软硬结合,只不过这里的软件变成了芯片底层的工具链、编译器、中间件等底层软件。
“硬件架构确定了就很难改变了,所以这时候要通过对底层软件的调整来适配最新的自动驾驶算法。”黄畅解释道。
这个道理跟游戏和显卡的关系几乎一模一样。
每当有重磅新游戏出现后,英伟达这样的显卡巨头就会推出针对性的显卡驱动程序。在升级驱动后,新游戏在显卡上的运行效率就会明显提升。
既然是以终为始,就是说只有自动驾驶算法足够优秀,对自动驾驶算法的理解足够深,才能设计出好的芯片,那么地平线的自动驾驶算法到底怎么样呢?
黄畅举了两个例子来解答这一问题。
首先,在算法层面,地平线算法团队使用了大量前沿技术,比如其早在三年前就开始研发网络结构搜索。
“神经网络中有很多细节的网络结构,行业内有很多通用的,例如ResNet或者说Efficient Net,但这些都不是最适合我们芯片的。”黄畅说道,“结合芯片架构,手动加上自动化的一些优化,能够让其精度更高。从而实现了算力有效利用率提升,带宽降低,让模型跑得既快又好。”
其次,在实际道路测试中,地平线的AEB(自动紧急制动)误报率在每10万公里1次的水平,而L2级自动驾驶的MPD值则在100公里左右,这在业内都是非常不错的水平。
考虑到地平线的能力,从某种程度上来说,地平线其实不仅是一家芯片公司,也是一家算法公司。
“ 你确实可以这么理解。”黄畅说道。
三、大量自研IP 从传感器采集到做出决策的计算延迟可低至60ms
芯片作为一颗软硬结合的产物,毕竟还有物理结构存在,除了软件部分发力,征程5在硬件上也有诸多亮点。
首先,地平线自研了大量IP核心,让专用核心处理特定流程。
贝叶斯架构BPU(Brain Processing Unit)就是地平线自研的重要核心之一,征程5共配备了两个BPU核心。BPU能够实现大规模异构近存计算,让计算更高效;同时拥有高灵活大并发数据桥,片上带宽非常大;此外,还有脉动张量计算核心,得以实现高算力。
与此同时,地平线还拥有流式处理IP,针对常用的图像处理算法做硬件加速, 例如CV引擎和金字塔核心,这两个核心与ISP同属图像处理单元。
黄畅表示,虽然DSP或者其他核心也能处理类似流程,但问题是效率低下,有开发成本,因此地平线选择了自研这些核心来进行处理,并将DSP的算力节省下来以支持更灵活的CV算法开发。
其次,引入统一内存架构。
2018年以来,苹果把这项技术应用于自研芯片中,实现了更高的效率,给整个消费电子领域带来了一次又一次的震惊。
“征程5的设计理念和苹果类似,留给软件巨大的想象空间。因为内存的分配可以根据每个算法的特点分配给每个计算单元,并且能够实现动态分配。”黄畅跟车东西仔细讲起了征程5的内存架构。
如果不使用统一存储架构,带来的后果是需要更多的片上存储以避免性能瓶颈,一些宝贵的片上存储空间只能为某些计算核心服务,软件调动很不灵活。实际上,一些计算核心不需要一直发挥最大性能,固定分配的片上存储无法充分利用。
但是利用软件分配完全不同。软件分配给计算核心的空间可以动态变化,当计算压力不大的情况下,可以用较小的存储完成整个计算过程。这样一来,整个系统能够在更少存储使用的前提下,片上可以缓存更多数据,减缓带宽瓶颈,增加运算效率。
黄畅透露,得益于芯片定义初期的系统仿真能力,下一代征程芯片能够在系统级别做更大规模、更丰富层次的统一片上存储架构。
最后,征程5通过特有的架构和工作流,能实现极低的系统延迟。
▲地平线征程5
征程5芯片自动驾驶计算延迟为60毫秒,这是指从摄像头感知、目标检测、判断应作出加速或减速动作时的延迟。而目前,市面上绝大多数产品都只能实现150毫秒左右的延迟。
黄畅说道:“自动驾驶的延迟每下降60毫秒,可以减少1米多的刹车距离,也就意味着有可能就挽救一个人的生命。”
为了降低延迟,地平线针对自动驾驶场景,从摄像头在线输入、离线DDR,通过金字塔核心、拼接光流处理,能够在预处理阶段大幅降低延迟。在BPU核心中,地平线选择针对一次高效处理一张图片做架构优化,实现低延迟。
据黄畅介绍,现在大多服务器芯片会选择通过复用神经网络的参数,一次性批量处理十余张图片,这样一来,虽然处理量有所上升,但延迟会加大。
“地平线选择对每一张图片进行极致的优化,而不是单纯追求一次性的处理量,这能够保证在实际场景应用中的速度最快,延迟最小。”黄畅说道。
总结来说,地平线对芯片的研发目标牢牢锁定在了实际应用场景下的高性能这个关键目标上。
通过自研IP,打造出了更适合自动驾驶的计算核心,引入统一存储架构,实现高效处理流程。最重要的是,软件团队能够根据硬件产品,最大程度挖掘其计算潜能,最终实现高效计算。
四、自动驾驶竞争加剧 征程5将助力地平线再上新台阶
征程5是地平线的第三款车规级芯片,在此之前,征程2、征程3先后实现前装量产,帮助地平线拿下智能座舱、辅助驾驶的市场份额。而征程5芯片的出现,能让地平线在高阶自动驾驶领域和全场景整车智能领域再上新台阶。
截至今年9月,地平线征程系列芯片的出货量超过50万片。与此同时,量产上车2021款理想ONE的征程3芯片,将在不久之后支持实现NOA(导航辅助驾驶)功能。
▲地平线征程系列芯片
今年7月,地平线征程5正式发布,当时已经有大陆集团、东软睿驰、立讯集团、联成开拓四家合作伙伴推出了基于征程5芯片的自动驾驶域控制器。
显然,地平线的朋友圈正在扩大,面对自动驾驶行业的激烈竞争,产业生态合作将成为大势所趋。同时,服务层面的竞争也至关重要。
黄畅提到,地平线在与客户合作研发的过程中,会提供芯片原厂支持,包括硬件参考设计、技术咨询,并且极速响应。在一些深度联合开发的项目中,双方会组成联合团队,并行协同开发。
面向未来,地平线与合作伙伴的协同将更加经验化,届时服务效率也将更高,协同共建能力,创造用户价值。
如今,自动驾驶赛道不再是传统汽车芯片厂商的角逐,英伟达、高通都已经加入了这一漫长的赛道中。作为国内唯一实现前装量产的汽车智能芯片,地平线征程系列芯片的意义不言而喻,对国内自动驾驶落地具有非常大的促进作用。在未来自动驾驶竞争中,芯片性能与效率的优势将逐渐凸显,地平线为代表的边缘AI芯片企业将有更广阔的市场。