大算力自动驾驶芯片“决赛”即将打响
数据提升背后折射出的,是大算力AI芯片开发理念的巨大转变,意味着自动驾驶正逐步由数据驱动替代传统基于规则的计算。目前主流的自动驾驶方案大致可以分为四个阶段,分别是广义感知、地图融合、规划和控制...
作为国内首款实现前装量产的百TOPS大算力AI芯片,地平线“征程5”芯片从2019年Q1开始立项研发,2021年2月-5月间在台积电顺利tapeout,15小时内完成了全部的核心功能测试,并一次性流片成功。同年7月,“征程5”系列正式发布,开启了中国大算力芯片具备里程碑意义的新时代。
2022年4月,“征程5”在实车环境下完成了城区复杂场景自动驾驶的闭环验证;6月,多家软件生态伙伴开始陆续推出基于“征程5”开发的高等级自动驾驶方案与原型Demo。根据后续规划,年内,“征程5”将在完成全部车规可靠性测试与全面功能安全认证工作后,达到量产成熟水平,基于“征程5”芯片的首个量产项目也会在年底正式量产(SOP)。
“如果把这场大算力自动驾驶的比赛比喻为世界杯,那么地平线与英伟达已经率先进入百TOPS芯片前装量产的阶段,并提前锁定了决赛席位。”但地平线高级市场总监陈遥指出,这不是一场不战而胜的比赛,量产决赛前的每一个环节——AI算力、安全可靠性、开发环境、算法验证、生态支持、直至量产,都充满了挑战。
算力大,更要算的快
地平线联合创始人&CTO黄畅日前在“征程5技术开放日”上接受媒体采访时表示,“提升有效算力这条路是没有止境的。”当前,自动/智能驾驶领域行业的基础算力需求是:L2级,10TOPS左右;L2+,几十TOPS;L3,100TOPS以上;L4,1000TOPS以上。
“地平线关注峰值算力的持续提升,但本质上更加关注有效算力的提升。就我个人看来,L2+级最好就能达到百TOPS量级。因为随着全场景自动驾驶的复杂度越来越高,没有足够有效的算力进行处理,将很难满足实际需求。“
最新数据显示,在硬件架构和算法都没有改变的情况下,征程5的AI计算效能从最初发布时的1283FPS提升到了当前的1531FPS。黄畅将这种AI计算性能“可持续成长”现象的幕后推手,归结为软件架构的改变。
“我们认为评估一颗AI芯片效能最合理的指标就是FPS/Watt或FPS/$,也就是芯片为了达成AI处理性能所付出的功耗和成本。”黄畅说,地平线的理念始终是能让软件做的事情尽可能让软件做,硬件做简单、极致、高效且容易被软件灵活调用的功能。
他将FPS/Watt或FPS/$指标拆解成三个部分,如下图所示,左边一列的TOPS/Watt & TOPS/$数值由硬件架构决定,通过芯片架构和制程工艺的演进可以持续改善;右边一列的FPS(Frames Per Second),即为实现单位有效算力时的算法处理速度,更能够反映AI芯片的真实计算性能。FPS由算法架构决定,也被称之为算法领域的新摩尔定律,大约会在9-14个月的时间内将AI任务需要的计算次数和复杂度降低一半。
中间一列的Utilization则属于是软件架构,也是征程5性能提升的关键。在黄畅看来,算法是一个客观大趋势,不随计算平台公司的意志而转移,只可能去预判、去识别,但很难改变。所以当芯片公司将架构和算法锁定之后,就需要编译器持续的对算法进行编译、拆解、重组、部署、运行和调度,反复优化,提升性能。
依照这个评估标准,在典型分类模型下,征程5在处理单帧输入的百万像素大图时,其性能达英伟达Xavier的 6.2倍;针对高效模型(EfficientNet)更接近自动驾驶场景的物体检测,同精度下,征程5的性能是Xavier的9倍多,Orin的近3倍;能效比方面,在达到更高性能的条件下,征程5的能效比接近Orin的9倍。
自动驾驶规则的改变
数据提升背后折射出的,是大算力AI芯片开发理念的巨大转变,意味着自动驾驶正逐步由数据驱动替代传统基于规则的计算。
目前主流的自动驾驶方案大致可以分为四个阶段,分别是广义感知、地图融合、规划和控制。每个阶段的任务在软件1.0时代实现用规则,即我们对世界的理解变成以规则描述的计算,然后在不同程度上过渡到用数据驱动的软件2.0,也就是用深度学习、神经网络的方式训练得到一个非常复杂的模型,去替代人手工设定的规则,达成相应的任务目标。
但在实际应用中,包括地平线和特斯拉在内的企业,都比较激进的将这四个阶段的pipeline融合,把更多的信息融合在一起。这样做的好处,一方面能够大幅提升整个自动驾驶系统的精度、鲁棒性、适用度,另一方面则是可以大幅改进算法迭代的速度。
黄畅认为,在未来,广义感知几乎百分之百都是靠数据驱动的,而在规划和控制阶段80%~90%也是靠数据驱动完成的,如必要的交通规则,包括人为专门制定的一些规范性要求,只需要极少量的规则。所以面向未来的自动驾驶算法,支持数据驱动、神经网络模型推理计算的专用芯片占比会显著增加,而CPU这样的处理器的需求量则不会显著增加。
他为此提出了这样的观点,即,“加速高等级自动驾驶落地的根本途径,是范式级的智能算法和支持这种算法的硬件体系相结合,也就是我们经常说的软硬结合。”通过软硬协同优化的方式,在首重效能的情况下,地平线打造出兼顾灵活的新一代AI计算架构。
被命名为“贝叶斯”的地平线第三代架构BPU(Brain Processing Unit)是实现软硬结合理念的载体,最大特点是高性能、低延迟、低能耗。地平线通过聚焦最新的神经网络架构来服务真实的自动驾驶场景,坚持高度软硬件的并行化和近存计算等举措,最大程度优化内存占有与访存,灵活访问高带宽的存储,确保BPU在非常灵活的条件下提供足够好的算力密度和能效比。
黄畅特别强调称,“软硬结合与软硬解耦不矛盾”。软硬结合是在计算平台的设计阶段将软件和硬件架构结合起来,更加高效地去支持未来的算法发展趋势;软硬解耦是在计算平台开发出来后,把硬件和软件给到开发者去使用的时候,是要支持软硬解耦的。换言之,是算法、应用开发和计算平台的解耦。
量产,检验智能驾驶AI芯片的首要标准
从自动驾驶芯片本身的评估来看,符合ASIL-B产品认证标准的征程5可以称之为是“全面满足高等级自动驾驶量产需求”一款芯片。它具有强大的深度学习计算能力,多样化计算组合、丰富的传感器接口和通讯能力,完全针对自动驾驶场景,满足全车电子电气架构的需求,领先的自动驾驶算法闭环验证。
但地平线智能驾驶产品规划与市场高级总监吕鹏更强调开发平台的“完整性”和“成熟度”。
“智能驾驶行业当前的核心矛盾是什么?是汽车智能化从开发到交付全流程的效率低下。“吕鹏说,如果没有操作系统和开发工具链支持,一颗空有算力的AI芯片其实与一块砖头无异,不但无法运行,也无法直接降低整体的开发效率。
而为了能跟车企达成前装量产的合作,支撑车企各类车型的量产落地,自动驾驶芯片设计者还必须考虑能效比、算力和效率、芯片适配性、灵活性和全面性、开发便捷性、安全认证等多项关键评估指标。
于是,地平线提供了从最下层的开发套件与参考设计,到基础操作系统、应用中间件,再到各类算法、AI芯片及软件栈的一整套丰富、成熟、完善的系统工具,希望能够帮助用户大幅降低在地平线芯片平台上的开发难度、花费的时间、投入的成本,提升开发效率。
例如在AI开发套件阵营中,除了征程5芯片,还包括了征程5 EVM开发版、征程5 SOM、PCIe形式的集群加速卡、Matrix 5整车智能计算参考平台。其中,Matrix 5是更接近于量产级的参考设计,包括单颗/双颗/4颗征程5硬件方案,对应算力从128TOPS到最高512TOPS,而且这些硬件方案都提供了相应的原理图参考设计,可以加快整个行业使用它快速地设计好自身的产品。
在开发工具方面,地平线有天工开物平台和艾迪平台。其中天工开物的AI工具链可以提供非常高效的自动化环节,帮助客户以最小的精度损失实现量化的过程;AI的艾迪开发工具平台是地平线面向软件2.0趋势的一个背后引擎,它是一个能进行高效AI训练、测试和管理的工具平台。
吕鹏表示,生态建设不是一朝一夕,地平线花了很多年的时间一直建设自己的软件生态,工具链有了上百家合作伙伴的赋能经验,他们在使用中给地平线提供了很多反馈和输入,促使开发人员不断进行迭代,逐渐形成非常多的参考样例、参考算法,从而帮助客户能够更加更加快速便捷地使用工具链。
目前,已有包括大陆集团、东软睿驰、立讯集团、联成开拓在内的10家合作伙伴推出了基于Matrix 5相关参考设计的域控产品;近期,地平线还官方授权了3家硬件IDH合作伙伴:映驰科技、金脉、天准;还有多家合作伙伴在行业中拿到了车型的定点,面向相关的量产项目去进行相关的开发和交付。
结语
总体来看,地平线的定位还是Tier2,希望通过芯片+工具链和平台打造开放共赢的合作模式,希望围绕地平线的芯片平台,有越来越多的生态合作伙伴和资源,从而支持Tier1和OEM完成他们的量产和交付。
而之所以说大算力芯片已经进入“决赛”阶段,吕鹏认为,这是由芯片软硬件体系成熟度、量产能力和生态壁垒三大核心要素共同决定的。百万级的出货、处理问题的方法论、体系流程的建设、对自动驾驶理解的Know-How,构成了决赛选手非常强的隐性竞争力,“对新玩家来说,进入的挑战非常大。”