浪潮信息算法团队在自动驾驶领域所取得的核心突破
近日,德国专业汽车工业杂志就浪潮信息算法团队在汽车领域取得的核心突破发表专题署名文章报告《und 3D- Alles im Blick》(“感知系统与三维物体识别,一切尽在眼前”)。自动驾驶领域。 针对AI感知技术对于自网动驾驶产业化的变革意义,《》文章指出,“3D物体检测是自动驾驶领域至关重要的核心任务,面向强大的环境感知、先进的AI算法和融合架构感知技术,为实现高鲁棒、高精度目标检测提供关键信息输入,而平台算力和感知算法的效率提升和创新突破也成为车企发展自动驾驶的关键技术驾驶能力。”
目前,在全球权威自动驾驶大赛最新评测中,浪潮信息算法团队提交的“IEI-++”算法模型在关键指标评分(NDS)中取得了77.6%的高分,创造了3D 物体检测竞赛。 迄今为止最高分。
【作为德国顶级汽车电子行业媒体,旨在不断为汽车电子开发、项目、应用和测试领域的工程师赋能,为行业高管和全球最重要的利益相关者提供产品、系统和趋势汽车领域和时事,以便在电信/数据通信、消费和工业等行业做出更好的决策。 】
●附《》详细报告(原文解读):
自动驾驶将从根本上改变出行行业,是汽车制造商和人工智能公司关注的关键领域。 自动驾驶技术的核心是基于算法的 3D 物体识别,这被认为是自动驾驶汽车环境感知的核心。 至关重要的是,车辆使用各种传感器来估计环境中人、车辆和物体的三个维度的距离。 以下文章解释了不同传感器的工作原理以及它们如何相互作用。
自动驾驶的核心感知任务——3D物体检测
从自动驾驶分类的角度来看,当前的自动驾驶技术可网以分为两类。 一种是激进派,目标是直接达到4级(高度驾驶自动化),另一种是进步派,从2级(辅助驾驶)逐步提高自动驾驶水平。 但无论是Level 2还是Level 4,从整体架构来看,大致可以分为三个部分:感知、决策和控制。 感知是自动驾驶汽车的眼睛,正如人眼为大脑提供70%以上的信息一样,感知系统也为自动驾驶汽车的外部环境提供信息。 自动驾驶的感知依赖于各种传感器的信息,包括摄像头、雷达、激光雷达等,其中摄像头和激光雷达是核心。
自动驾驶面临的是3维环境空间。 甚至可以这样说,因为自动驾驶车辆要在环境空间中移动,环境空间中的其他行人和车辆也会移动。 可见自动驾驶面临的是4D环境。 时空系统(3D空间+1D时间)。 自动驾驶汽车需要判断三维空间中人、车以及周围物体之间的距离。 在此基础上,还需要判断它们是静态还是动态,以及运动的方向、速度等信息,我们一般称之为3D目标检测任务。 3D物体检测任务可以被视为自动驾驶中的核心感知任务。 当然,除此之外,其他感知任务还包括识别红绿灯、交通标志、车道、斑马线等道路信息。
(图例:3D目标检测图。3D目标定义为一个盒子,(x,y,z)是盒子的中心坐标,(l,w,h)是长宽高,是航向角。Class 是 3D 目标类别。Vx 和 vy 描述地面上 3D 对象沿 x 轴和 y 轴的速度。)
传感器:激光雷达
长期以来,LiDAR 一直被认为是自动驾驶汽车不可或缺的一部分,因为它可以提供对车辆周围环境最准确的 3D 感知。 激光雷达采集的点云信息天然存储着3D空间信息。 因此,对于基于点云信息的3D目标检测,算法设计要简单得多,一系列经典模型也诞生了,如、、SSSD等。然而,激光雷达的成本也成为最大的瓶颈在自动驾驶的实施中。 激光雷达比汽车贵的问题成为其车载化和量产的最大障碍。 虽然近年来随着技术的进步,激光雷达的价格大幅下降,但能够满足L4需求的激光雷达价格仍然很高。
传感器:相机
摄像头是自动驾驶汽车的另一个非常重要的传感器。 由于激光雷达采集的点云信息没有颜色和纹理,无法识别红绿灯、交通标志、车道、斑马线等人类可以轻松识别的道路信息。 因此,仍然需要摄像头作为辅助传感器。 然而,这导致了多模态信息融合问题。 简而言之,激光雷达主要擅长感知车辆、行人的3D信息,而摄像头擅长感知网红绿灯、车道线等视觉纹理特征丰富的信息。 此外,该相机在量产成本和价格方面也具有无可比拟的优势。 例如,特斯拉上的单个单目摄像头的成本仅为 25 美元,一辆车上的八个摄像头的价格仅为 200 美元。 仅使用摄像头传感器,借助强大的人工智能算法,就可以实现精确的3D物体检测任务,这意味着无需激光雷达传感器的自动驾驶成为可能。
基于图像的 3D 物体检测算法
在计算机视觉领域,近年来涌现了大量的分类、检测、分割模型,如YOLO、Mask RCNN等,这些AI模型已广泛应用于安防、交通、自动驾驶等领域。 然而,核心问题之一是这些模型是针对 2D 图像设计的,不能直接应用于 3D 物体检测任务。 基于图像的3D物体检测的核心问题是如何准确估计图像中物体的深度。 由于相机拍摄的照片和视频将3D空间投影到2D平面,导致深度信息丢失,如何恢复深度信息是一个“病态问题”。 也就是说,问题的解决方案可能不是唯一的。 因此,长期以来基于图像的3D物体检测算法的性能远低于基于激光雷达的3D物体检测算法。
由于特斯拉仅使用摄像头的FSD驾驶系统取得了一定的成功,基于视觉的自动驾驶感知解决方案越来越受到业界的关注。 同时,随着数据、算法、计算能力等的进步,纯视觉自动驾驶感知方案在3D目标检测任务中的性能较去年的激光雷达有了显着提升。
数据集
自动驾驶数据集较旧,传感器较多,收集时间较长。 该数据集于 2019 年开发并发布,收集于波士顿和新加坡的街道。 为了获得有意义的场景数据,我们收集了约15小时的驾驶数据,并精心挑选了覆盖不同场景的驾驶路线。 采集车配备传感器,包括6个摄像头、1个激光雷达、5个毫米波雷达、GPS、IMU,具有360视场感知。
(图例:数据采集车上安装的传感器放置示意图。该车配备6个摄像头、1个激光雷达和5个毫米波雷达。)
该数据集提供了多种评估任务,包括 3D 对象检测、3D 对象跟踪、轨迹预测、激光雷达分割、全景分割和跟踪。 3D 对象检测任务的目标是检测数据集中 10 种不同类型的检测对象,包括汽车、卡车、自行车和行人。 检测信息除了物体的三维位置外,还包括物体的大小、方向和速度。 提出了综合性的NDS指标,即Score(NDS),由平均精度(mAP)、平均平移误差(ATE)、平均尺度误差(ASE)、平均方向误差(AOE)和平均速度误差(AVE)组成和平均属性误差(AAE)。
(图例:数据集中六个摄像头拍摄的图像示意图。)
此外,业界还有Waymo、ONCE等开源数据集。 然而,这是目前最常用的数据集。 自发布以来,该数据集已被 2000 多篇研究论文引用。 它也成为测试感知算法在自动驾驶相关任务中性能的试金石。 它吸引了来自世界各地的研究团队提交的 220 多篇论文。 近期,汽车、纵目科技、ECARX等车企研发团队也出现在榜单中。
提供常年更新的榜单,提交作品超过50篇,其中大部分发生在2022年。目前,浪潮信息算法团队提交的“IEI-++”算法模型位居榜单第一,关键指标得分(NDS) )为0.776,创造了迄今为止整个3D物体检测赛道的最高分。
此外,在纯视觉赛道上,算法团队在2022年提交的“”模型也将以NDS 0.624的综合检测精度登顶赛道。 相比之下,2022年初排名第一的BEV3D算法的NDS精度为0.474,这意味着不到一年的时间,纯视觉3D物体检测的NDS指数提升了15点。 纯视觉算法与激光雷达算法的准确率差距也从年初的45%缩小到17%,而这些都得益于纯视觉3D检测算法的优化带来的性能提升。
展望未来
在自动驾驶产业化进程中,感知技术作为自动驾驶的核心技术模块,既是起点,也是基石。 未来,自动驾驶感知算法的研发也将得到更强大的人工智能计算平台的支撑。 从榜单上技术的快速迭代来看,我们有理由相信,随着算力和算法的不断突破,自动驾驶产业化进程也将多一层“腾飞动力源”。