大算力自动驾驶芯片“决赛”即将打响

最新资讯 2022-07-11 09:10:56 阅读量 ()

数据提升背后折射出的，是大算力AI芯片开发理念的巨大转变，意味着自动驾驶正逐步由数据驱动替代传统基于规则的计算。目前主流的自动驾驶方案大致可以分为四个阶段，分别是广义感知、地图融合、规划和控制...

作为国内首款实现前装量产的百TOPS大算力AI芯片，地平线“征程5”芯片从2019年Q1开始立项研发，2021年2月-5月间在台积电顺利tapeout，15小时内完成了全部的核心功能测试，并一次性流片成功。同年7月，“征程5”系列正式发布，开启了中国大算力芯片具备里程碑意义的新时代。

2022年4月，“征程5”在实车环境下完成了城区复杂场景自动驾驶的闭环验证；6月，多家软件生态伙伴开始陆续推出基于“征程5”开发的高等级自动驾驶方案与原型Demo。根据后续规划，年内，“征程5”将在完成全部车规可靠性测试与全面功能安全认证工作后，达到量产成熟水平，基于“征程5”芯片的首个量产项目也会在年底正式量产(SOP)。

“如果把这场大算力自动驾驶的比赛比喻为世界杯，那么地平线与英伟达已经率先进入百TOPS芯片前装量产的阶段，并提前锁定了决赛席位。”但地平线高级市场总监陈遥指出，这不是一场不战而胜的比赛，量产决赛前的每一个环节——AI算力、安全可靠性、开发环境、算法验证、生态支持、直至量产，都充满了挑战。

算力大，更要算的快

地平线联合创始人&CTO黄畅日前在“征程5技术开放日”上接受媒体采访时表示，“提升有效算力这条路是没有止境的。”当前，自动/智能驾驶领域行业的基础算力需求是：L2级，10TOPS左右；L2+，几十TOPS；L3，100TOPS以上；L4，1000TOPS以上。

“地平线关注峰值算力的持续提升，但本质上更加关注有效算力的提升。就我个人看来，L2+级最好就能达到百TOPS量级。因为随着全场景自动驾驶的复杂度越来越高，没有足够有效的算力进行处理，将很难满足实际需求。“

最新数据显示，在硬件架构和算法都没有改变的情况下，征程5的AI计算效能从最初发布时的1283FPS提升到了当前的1531FPS。黄畅将这种AI计算性能“可持续成长”现象的幕后推手，归结为软件架构的改变。

“我们认为评估一颗AI芯片效能最合理的指标就是FPS/Watt或FPS/$，也就是芯片为了达成AI处理性能所付出的功耗和成本。”黄畅说，地平线的理念始终是能让软件做的事情尽可能让软件做，硬件做简单、极致、高效且容易被软件灵活调用的功能。

他将FPS/Watt或FPS/$指标拆解成三个部分，如下图所示，左边一列的TOPS/Watt & TOPS/＄数值由硬件架构决定，通过芯片架构和制程工艺的演进可以持续改善；右边一列的FPS(Frames Per Second)，即为实现单位有效算力时的算法处理速度，更能够反映AI芯片的真实计算性能。FPS由算法架构决定，也被称之为算法领域的新摩尔定律，大约会在9-14个月的时间内将AI任务需要的计算次数和复杂度降低一半。

中间一列的Utilization则属于是软件架构，也是征程5性能提升的关键。在黄畅看来，算法是一个客观大趋势，不随计算平台公司的意志而转移，只可能去预判、去识别，但很难改变。所以当芯片公司将架构和算法锁定之后，就需要编译器持续的对算法进行编译、拆解、重组、部署、运行和调度，反复优化，提升性能。

依照这个评估标准，在典型分类模型下，征程5在处理单帧输入的百万像素大图时，其性能达英伟达Xavier的 6.2倍；针对高效模型（EfficientNet）更接近自动驾驶场景的物体检测，同精度下，征程5的性能是Xavier的9倍多，Orin的近3倍；能效比方面，在达到更高性能的条件下，征程5的能效比接近Orin的9倍。

自动驾驶规则的改变

数据提升背后折射出的，是大算力AI芯片开发理念的巨大转变，意味着自动驾驶正逐步由数据驱动替代传统基于规则的计算。

目前主流的自动驾驶方案大致可以分为四个阶段，分别是广义感知、地图融合、规划和控制。每个阶段的任务在软件1.0时代实现用规则，即我们对世界的理解变成以规则描述的计算，然后在不同程度上过渡到用数据驱动的软件2.0，也就是用深度学习、神经网络的方式训练得到一个非常复杂的模型，去替代人手工设定的规则，达成相应的任务目标。

但在实际应用中，包括地平线和特斯拉在内的企业，都比较激进的将这四个阶段的pipeline融合，把更多的信息融合在一起。这样做的好处，一方面能够大幅提升整个自动驾驶系统的精度、鲁棒性、适用度，另一方面则是可以大幅改进算法迭代的速度。

黄畅认为，在未来，广义感知几乎百分之百都是靠数据驱动的，而在规划和控制阶段80%～90%也是靠数据驱动完成的，如必要的交通规则，包括人为专门制定的一些规范性要求，只需要极少量的规则。所以面向未来的自动驾驶算法，支持数据驱动、神经网络模型推理计算的专用芯片占比会显著增加，而CPU这样的处理器的需求量则不会显著增加。

他为此提出了这样的观点，即，“加速高等级自动驾驶落地的根本途径，是范式级的智能算法和支持这种算法的硬件体系相结合，也就是我们经常说的软硬结合。”通过软硬协同优化的方式，在首重效能的情况下，地平线打造出兼顾灵活的新一代AI计算架构。

被命名为“贝叶斯”的地平线第三代架构BPU(Brain Processing Unit)是实现软硬结合理念的载体，最大特点是高性能、低延迟、低能耗。地平线通过聚焦最新的神经网络架构来服务真实的自动驾驶场景，坚持高度软硬件的并行化和近存计算等举措，最大程度优化内存占有与访存，灵活访问高带宽的存储，确保BPU在非常灵活的条件下提供足够好的算力密度和能效比。

黄畅特别强调称，“软硬结合与软硬解耦不矛盾”。软硬结合是在计算平台的设计阶段将软件和硬件架构结合起来，更加高效地去支持未来的算法发展趋势；软硬解耦是在计算平台开发出来后，把硬件和软件给到开发者去使用的时候，是要支持软硬解耦的。换言之，是算法、应用开发和计算平台的解耦。

量产，检验智能驾驶AI芯片的首要标准

从自动驾驶芯片本身的评估来看，符合ASIL-B产品认证标准的征程5可以称之为是“全面满足高等级自动驾驶量产需求”一款芯片。它具有强大的深度学习计算能力，多样化计算组合、丰富的传感器接口和通讯能力，完全针对自动驾驶场景，满足全车电子电气架构的需求，领先的自动驾驶算法闭环验证。

但地平线智能驾驶产品规划与市场高级总监吕鹏更强调开发平台的“完整性”和“成熟度”。

“智能驾驶行业当前的核心矛盾是什么？是汽车智能化从开发到交付全流程的效率低下。“吕鹏说，如果没有操作系统和开发工具链支持，一颗空有算力的AI芯片其实与一块砖头无异，不但无法运行，也无法直接降低整体的开发效率。

而为了能跟车企达成前装量产的合作，支撑车企各类车型的量产落地，自动驾驶芯片设计者还必须考虑能效比、算力和效率、芯片适配性、灵活性和全面性、开发便捷性、安全认证等多项关键评估指标。

于是，地平线提供了从最下层的开发套件与参考设计，到基础操作系统、应用中间件，再到各类算法、AI芯片及软件栈的一整套丰富、成熟、完善的系统工具，希望能够帮助用户大幅降低在地平线芯片平台上的开发难度、花费的时间、投入的成本，提升开发效率。

例如在AI开发套件阵营中，除了征程5芯片，还包括了征程5 EVM开发版、征程5 SOM、PCIe形式的集群加速卡、Matrix 5整车智能计算参考平台。其中，Matrix 5是更接近于量产级的参考设计，包括单颗/双颗/4颗征程5硬件方案，对应算力从128TOPS到最高512TOPS，而且这些硬件方案都提供了相应的原理图参考设计，可以加快整个行业使用它快速地设计好自身的产品。

在开发工具方面，地平线有天工开物平台和艾迪平台。其中天工开物的AI工具链可以提供非常高效的自动化环节，帮助客户以最小的精度损失实现量化的过程；AI的艾迪开发工具平台是地平线面向软件2.0趋势的一个背后引擎，它是一个能进行高效AI训练、测试和管理的工具平台。

吕鹏表示，生态建设不是一朝一夕，地平线花了很多年的时间一直建设自己的软件生态，工具链有了上百家合作伙伴的赋能经验，他们在使用中给地平线提供了很多反馈和输入，促使开发人员不断进行迭代，逐渐形成非常多的参考样例、参考算法，从而帮助客户能够更加更加快速便捷地使用工具链。

目前，已有包括大陆集团、东软睿驰、立讯集团、联成开拓在内的10家合作伙伴推出了基于Matrix 5相关参考设计的域控产品；近期，地平线还官方授权了3家硬件IDH合作伙伴：映驰科技、金脉、天准；还有多家合作伙伴在行业中拿到了车型的定点，面向相关的量产项目去进行相关的开发和交付。