元戎启行推理引擎亮相CES 2021，让自动驾驶系统运行100公里只耗1度电

自动驾驶系统中的复杂计算依靠硬件算力还是计算效率？这是横亘在许多创业公司面前的实际问题。依靠前者需要投入大量资金，依靠后者则离不开底层技术的钻研和开发。

在 2021 年 CES 上，L4 级自动驾驶解决方案提供商元戎启行将在线上展示其针对 L4 级自动驾驶深度学习模型研发的推理引擎 DeepRoute-Engine 。该推理引擎实现了比开源深度学习框架平均高 6 倍的推理速度。大幅提升了自动驾驶的计算效率，令自动驾驶摆脱了对高算力计算平台的依赖。

自动驾驶要做到像人类一样感知周围物体，需要通过深度学习来完成，即需要通过大规模的、复杂的深度学习网络模型来对输入的数据进行推理。在推理过程中，需要实时完成大量的计算。因此，自动驾驶企业对计算平台的算力有着严格的要求。

这类计算平台不仅成本高达数万元，功耗也高达数百瓦。假设计算平台的平均功率为 500W，其 24 小时的耗电量约占一辆蓄电量为 50kW·h 的电动车的 24% 。

为了摆脱自动驾驶对这类计算平台的依赖，降低自动驾驶的硬件成本，以及减少自动驾驶硬件耗能对汽车行驶里程的影响，元戎启行选择了另一种方式。通过自研的推理引擎——DeepRoute-Engine，让 L4 级自动驾驶的感知模块，可以运行在低成本、低功耗的计算平台上。

根据元戎启行与曹操出行合作的自动驾驶车型——几何 A 的实车测试，元戎启行的自动驾驶系统，每行驶 100 公里只消耗 1 度电。该耗电量还包括了车内负载 2 人，空调开启，以及传感器风阻对能量的耗费。

在自动驾驶系统中，感知模块是其最核心、计算量最大的软件模块。想要提高感知模块的运行效率，就需要针对感知算法的特点、计算需求，以及计算平台的架构特点进行适配，从而驱动系统的高效运行。一个定制的推理引擎就相当于定制的驱动器，不仅能够提高感知模块运行效率，还能提高系统可扩展性，兼容更多计算平台。

L4 级自动驾驶感知算法所使用的深度学习框架非常复杂，需要实时进行大量复杂计算。目前市场上开源的推理引擎，大多无法处理复杂的 L4 级自动驾驶深度学习模型。而诸如 Caffe 、 TensorFlow 、 PyTorch 这类深度学习框架，尚未针对复杂的深度学习框架进行计算优化，因此，其计算效率也差强人意。元戎启行的推理引擎通过智能的算子融合，将推理过程中可合并的运算进行合并，大幅提高计算效率。

DeepRoute-Engine 还针对不同品牌的计算平台设计了定制的内核程序，用以执行所需的大量并行计算。 DeepRoute-Engine 目前支持包括 AMD 、 Nvidia 、 Intel 等品牌的 GPU，以及华为的车载计算平台。

目前，市场上常见的用于自动驾驶的计算平台有 CPU 、以及采用 GPU 、 FPGA 、 ASIC 等架构的 AI 芯片。由于自动驾驶系统需要处理激光雷达、相机等传感器采集的海量数据，传统的 CPU 算力越来越无法满足使用要求，以 GPU 架构为主的 AI 芯片成为了实现自动驾驶必不可少的硬件。

而我国在 GPU 的生产上，与国际厂商还有一定的差距，元戎启行所研发的推理引擎，适用于不同品牌的 CPU 、 AI 芯片，解决了自动驾驶被计算平台 “卡脖子” 的问题。

元戎启行副总裁刘念邱表示：通过 DeepRoute-Engine，元戎启行已将复杂的深度学习模型运用在国内外主流的计算平台上。我们希望能与各界厂商携手，共同研发、推进更适合自动驾驶的低功耗、低成本计算平台解决方案，促进自动驾驶车辆的前装量产。