本文来源:佐思汽车研究

2017年10月还未改名的德尔福以4.5亿美元收购了自动驾驶初创公司nutonomy,nutonomy公司由karliagnemma博士和emiliofrazzoli博士于2013年创立,2016年在新加坡正式开展无人出租车运营。德尔福后来改名安波福,安波福不同于自动驾驶初创公司,安波福是tier1,需要考虑实际应用。


(资料图片仅供参考)

nuscenes与其他数据集的对比

上图中,nuscenes是唯一有毫米波雷达的数据集。论文名称《nuscenes: a multimodal dataset for autonomous driving》,这是除waymo外最具影响力的数据集,完成于2019年3月,2020年7月推出nuscenes-lidarseg,nutonomy提出的激光雷达点柱算法也是目前最常用的激光雷达算法。nuscenes-lidarseg则是激光雷达最完备的测试数据集,包含850个训练场景,150个测试场景,惊人的14亿标注点,4万点云帧,32级分类。nuscenes目前由安波福与现代汽车的合资公司motional维护。

2022年motional推出业内第一个自动驾驶规划训练测试数据集nuplan,论文为:《nuplan: a closed-loop ml-based planning benchmark for autonomous vehicles》。

nuscenes采集车的传感器布局

在上面nuscenes采集车的传感器布局中,激光雷达是一个老式的32线激光雷达hdl-32。nuscenes采集车是雷诺的zoe电动车,也就是nutonomy在新加坡的无人出租车。采集地区55%在波士顿,新加坡onenorth占21.5%,新加坡皇后城占13.5%,新加坡荷兰村占10%。下雨天占19.4%,夜间占11.6%。

nuscenes的传感器参数

除后摄像头外,hfov都是70°,vfov是55°,后摄像头hfov是110°,摄像头的帧率是少见的12hz,可能是为了配合毫米波雷达的13hz,激光雷达的频率是20hz,比其他数据集都要高一倍。早期论文中提到的摄像头像素为1600*900,即144万像素,最近似乎升级了,为1600*1200。

摄像头fov分布

安波福特别强调了定位,并且有很少提及的ahrs ,attitude and heading reference system。ahrs是指航姿参考系统包括多个轴向传感器,能够为飞行器提供航向、横滚和侧翻信息,这类系统用来为飞行器提供准确可靠的姿态与航行信息。航姿参考系统包括基于mems的三轴陀螺仪,加速度计和磁强计。

航姿参考系统与惯性测量单元imu的区别在于,航姿参考系统(ahrs)包含了嵌入式的姿态数据解算单元与航向信息,而惯性测量单元(imu)仅仅提供传感器数据,并不具有提供准确可靠的姿态数据的功能。常用的航姿参考系统(ahrs)内部采用的多传感器数据融合进行的航姿解算单元为卡尔曼滤波器。ahrs的真正参考来自于地球的重力场和地球的磁场,它的静态精度取决于对磁场的测量精度及对重力的测量精度。

nuscenes使用激光雷达绘制的高精度地图,使用rtk和蒙特卡罗定位算法,保证定位精度为10厘米。

nuscenes语义分割地图是原始栅格化地图,包含11层人工标注的语义,每米10个像素,只包含道路和人行道。

nuscenes数据集示例,最下面那段文字也是属于数据集的,是人工标注的,ped是行人的缩写。

标注方面与waymo一样,7个要素,中心点的长宽高,目标的长宽高和航向角,不过取样频率很低,只有2hz。

nuscenes最强之处是其标注分类非常细,多达23个分类。

nuscenes的23级分类,车的分类包括轿车、救护车、卡车、拖车、建筑工程车、公交车、警车、摩托车,公交车再分为三类,一类是标准公交车,一类是固定轨道的公交车,另一类是铰接公交车。自行车也分骑行的和静止的,行人分成人、警官、工人、闲逛者、儿童。连护栏、角锥、动物都做了标注。

每种类型出现的次数

每种类型的姿态分布

每种类型的姿态分布,包括移动、静止、泊车、有人骑、没人骑、站立、坐着、行走。可谓齐全到极致。

鸟瞰标注图的密度分布图,轿车的标准半径是超过200米的,行人和自行车是150米,大部分数据集的行人和自行车标注半径是100米甚至50米。

nuscenes统计了激光雷达点数量,直径3米内有12k个,直径80米内有100个,衰减得很快,毫米波雷达10米半径内有40个回波点,50米半径内有10个,衰减得慢。

和waymo一样,nuscenes数据集包含了轨迹预测,不仅如此,还增加了轨迹追踪tracking,测试类型最齐全。nuscenes的测评基准也独树一帜,虽然依旧使用目标检测中常用的ap,不过ap的阈值匹配不使用iou来计算,而使用在地平面上的2d中心距离d来计算。这样解耦了物体的尺寸和方向对ap计算的影响。d设置为{0.5,1,2,4}米。在计算ap时,去除了低于0.1的recall和precision并用0来代替这些区域。不同类以及不同难度d用来计算map。

3d检测中,使用ate,average translation error,平均平移误差(ate) 是二维欧几里德中心距离(单位为米)。average scale error,平均尺度误差(ase) 是1 - iou, 其中iou是角度对齐后的三维交并比。average orientation error,平均角度误差(aoe) 是预测值和真实值之间最小的偏航角差。(所有的类别角度偏差都在360°内, 除了障碍物这个类别的角度偏差在180°内)。average velocity error.平均速度误差(ave) 是二维速度差的l2范数(m/s)。average attribute error,平均属性错误(aae) 被定义为1−acc, 其中acc为类别分类准确度,这是测试基准最广泛的数据集。

nuscenes独创了nds指标。

nds一半基于检测性能(map),而另一半基于检测性能根据位置、大小、方向、属性和速度度量的检测质量,tp即truth positive。

追踪方面则有multi object tracking accuracy (amota),multi object tracking precision (amotp), track initialization duration (tid) ,longest gap duration (lgd)。

nuscenes对比了几种3d检测算法,pp就是pointpillars,oft是剑桥大学的《orthographic feature transform for monocular 3d object detection》,用单目做3d检测,mdis是意大利特伦托大学的《disentangling monocular 3d object detection》,也是用单目做3d检测,效果自然是很差,pp是基于激光雷达的,效果好很多。megvii是国内旷视联合中科院和清华大学的《class-balanced grouping and sampling for point cloud 3d object detection》,效果惊艳,比安波福的pp高很多。

传统我们做kitti数据集只关注三个类别(车、人、骑行者),大部分数据集类别都不超过七类,而在nuscenes中,类别上升到十类,且是以长尾形式存在(大量的车,小量的骑行者),这种数据形态更符合真实驾驶场景,也因此产生出类别不均衡的问题。这样就出现样本不平衡的问题,有些样本数量很多,有些很少。

旷视提出了新的解决办法,ds sampling,基本思想是把占比较小的类别进行复制,制作出较大数据集,然后针对每个类别用固定比例random sample这个大的数据集,组合出最终数据集,最终数据集的类别密度(类别数量/样本总数)是相近的,此方法可以减缓样本不平均问题。second提出gt-aug,把某一样本中的物体点云数据,放到另一个样本中,过程中需要计算摆放位置是否合理。

旷视的网络架构,旷视称之为multi-group head network,group内部的类别size和shape相似,可以互相促进,学到有用的信息。group内部的类别较为均匀,排除大类别对小类别的压制作用。而且,经过group,car这个大类别对应的分类不再是truck这种小类别,而是(truck, construction vehicle)的集合,从而进一步减轻大类别对小类别的压制作用。

不过这些都是2019年的排名,目前全景检测排名第一的是驭势科技,论文为:《panoptic-phnet: towards real-time and high-precision lidar panoptic segmentation via clustering pseudo heatmap 》。

panoptic-phnet网络架构

- end -

推荐内容

网站地图