“ 我们可能无法用《侠盗猎车手5》来解决一切问题,但虚拟世界有着与更多资源密集型方法同等的训练价值。”
为了能够安全可靠地行驶,自动驾驶汽车需要对它周围发生的一切有全面的了解。它们需要识别其他的乘用车、卡车、摩托车、自行车、行人、交通信号灯、道路指示牌以及其他可能出现在道路附近的物体。它们也必须在各种各样的天气和光照条件下做到这一点,这就是为什么大多数研发自动驾驶汽车的公司都在花费大量的时间和资源收集各种数据,以获得各种可能情况下的行驶经验。
大多数情况下,这种技术依赖于人工手动对大数据进行注释,以训练机器学习算法:成百上千的工作人员盯着由行驶在道路上的实车拍摄的照片或视频,为其中出现的机动车辆和道路标识画上框,之后对其进行标注,反复而为之。不过密歇根大学的研究人员提出了一种新方法:借助仿真模拟的手段进行机器视觉算法的训练。而且他们已经证明这种方法比通过人类标注真实数据效率高得多。
出于对成功的渴望,其实机器人专家对进行大量的仿真测试持谨慎态度。由于仿真测试简化了真实场景,所以你很难保证在仿真程序中能够安全运行的系统能够胜任真实环境。当涉及到物理的时候,这就可能会变得更糟糕,因为得益于当今游戏产业的高度发展,逼真的图形更容易以假乱真。最近,密歇根大学的研究人员开始着手研究是否可利用《侠盗猎车手5》的游戏画面训炼深度学习系统来识别道路物体。
▲从《侠盗猎车手5》中渲染的一系列用于训练目标识别的图像
那么通过仿真训练自动驾驶系统的物体识别能力有下面这三点好处:
-
一、模拟场景比用实车在真实道路行驶录制视频速度更快成本更低;
-
二、在仿真环境中,物体标注已经做好了,系统明确知道它正在创建什么对象;
-
三、仿真可以生成你需要的任何条件和工况。例如,加州天气太好反倒不利于自动驾驶的测试。但是在仿真场景中,你可以任意添加降雨、降雪等变量,你甚至可以在不同条件下使用相同场景进行测试。
▲仿真测试可以为同一场景编制不同的天气条件
为了观察仿真测试的效果,研究人员从《侠盗猎车手5》中生成了三个仿真数据集,其中各包括了10000幅、50000幅和200000幅不同的游戏图像,深度学习目标检测网络将利用这些图像数据进行训练。此外,工作人员也建立了一个叫做「Cityscapes」的图像数据集,它是由人工标注的反映真实路况的3000幅视频图像组成,借助装有摄像头的汽车在德国道路采集所得,Cityscapes也将用于深度神经网络算法的训练。之后通过考察该深度学习神经网络对7500幅图像(同样来自于德国真实的道路实况数据,叫做KITTI的基准数据集,与Cityscapes不同)中已人工标注目标物体的识别情况,来对训练后的算法性能进行评估。
在全新的基准数据集KITTI中,利用游戏仿真图像训练后的神经网络其实要比利用Cityscapes数据集训练后表现得更好:特别是在经过50000幅仿真图像训练后算法的识别表现要比利用从现实世界中提取的3000幅图像训练后的更好,而且经过200000幅仿真图像训练后的算法效果还能做到更出色。研究人员解释称,单个的仿真图像可能没有太多价值,但没关系,你可以通过数量来弥补。
实验结果表明,单张仿真图像的变量和训练价值低于单张真实场景图像。而且真实场景中的光照、颜色和结构变量远比虚拟场景多得多,因此需要更多的仿真图像来训练算法能够实现合理的识别效果。不过,生成仿真图像只需要计算资源,不需要人为标记图像。一旦云计算这个基础设施搭建到位,完全可以生成任意数量的模拟图像。
▲基于模拟图像的网络训练比在真实图像上训练的算法更能避免误报
密歇根大学研究人员的进一步分析指出,经过仿真训练的神经网络实际上更善于识别远处的或很难看得到的汽车,误报率相对较低。这可能是因为仿真比通过驾驶实车在城市一遍又一遍进行道路数据采集可以产生更广泛的数据信息,为训练提供更多样化的内容输入。话虽如此,利用虚拟环境训练深度学习算法的问题仍然存在:毕竟它们与真实场景不太一样,而且很难模拟出那些连人类都难以预测的工况,这正是自动驾驶汽车面临的根本问题之一。
我们可能无法用《侠盗猎车手5》来解决一切问题,但虚拟世界有着与更多资源密集型方法同等的训练价值,这一事实将有助于我们达成更有效的折中方案,开发出更理想、成本更低的自动驾驶汽车。