据报道,贴标(labeling)将助力机器学习的运行。单个标签能向人工神经元网络说明给定输入信息的正确输出值。
举个例子,视频中空闲车道的像素会被贴上「自由空间/可用空间」的标签。与车辆、行人、人行道、交通锥标、障碍物等所对应的像素则不得被标记为「自由空间/可用空间」。鉴于有足量的标签示例,神经元网络非常善于学习与路面及障碍物相对应的像素图形种类。
在展示的一段新视频中,经训练的神经元网络可给出正确的输出结果,使得自动驾驶车辆能够了解哪些地方可实现自动驾驶车辆的安全行驶,哪些地方则无法做到这一点。
默认的视频贴标实现方式是聘用相关人员来对视频像素内容进行人工贴标工作,然而,该方式代价太高昂了,因为手动贴标非常耗时,而所需标记数据的数量十分巨大。若我们有其他方式完成数据贴标,会怎样做呢?
通用高管阐述自动贴标理念
事实证明,我们已经找到了替代性方案。通用旗下的自动驾驶汽车子公司——Cruise 的总裁兼首席技术官 Kyle Vogt 最近简述了其基本理念:
我们如今所做的工作,更多的是自动贴标。我的意思是,基本上,要将人工贴标(human labeling)从工作回路中剔除掉。
真正让我感到有意思的是,我们可以从车辆驾驶方式中推断出很多内容。若车辆驾驶未曾出现过任何错误,那么就能从中推断出车辆驾驶中所暗含的正确(操作)事项。当自动驾驶车辆能够在大体上保持驾驶操作的正确性,车内的乘客就会说「你干得不错啊!」对于我个人而言,这意味着车辆需要获得非常丰富的信息源。
沃格特继续说道:「若您是公司方,且您的业务模式仍依赖于数据的人工贴标,那么您公司将被某些竞争对手的公司碾压,因为后者正在思考应如何采用新方式来重新梳理数据贴标,确保其不必为了这类数据标签耗费太多精力或直接剔除工作回路中的人工贴标环节。」
那么,若采用人工驾驶习惯来完成对「自由空间/可用空间」的自动贴标呢?在 2018 年发布的一篇论文中,计算机视觉研究人员(含两名印第安纳大学的研究人员)作出了探索尝试。
人类驾驶员很少会撞上障碍物,他(她)们几乎始终在空闲车道行驶。因此,人工驾驶可被用作「自由空间/可用空间」的(自动)贴标途径。研究人员将这类自动贴标与视线中可看到的「自由空间/可用空间」推定相结合。此外,该方法的自动贴标技术精度达到了手动贴标方式精度的 98%。
特斯拉在自动贴标领域的优势
特斯拉自今年初开始公开强调自动贴标的重要性,埃隆马斯克在今年 2 月份的采访中表示:「我们开始使用自动贴标方式,效果确实比人工贴标要好。就我个人而言,当驾驶员将车辆驶向十字路口时,该操作行为在训练 Autopilot,告知其在遇到十字路口时所需完成的操作。」
在今年 4 月的「自动驾驶日」(Autonomy Day)特斯拉人工智能部门的高级主管 Andrej Karpathy 反复探讨特斯拉是如何使用自动贴标的。
我们不妨回顾下今年 2 月特斯拉 Autopilot 团队发布的岗位说明,特斯拉当时在寻找应聘人员,要求后者能够设计新方法,从而使用可轻松标记好(lightly labeled)的海量贴标数据。这类对「自由空间/可用空间」的自动贴标似乎与特斯拉的惯用做法非常契合。相较于前文所提及的研究人员,特斯拉所能接触到的数据量更加丰富。举个例子,特斯拉能够探查到急刹车及车辆碰撞的其他标志。从理论上讲,该方法或许还能清除特斯拉车辆未进入「自由空间/可用空间」的那些示例。特斯拉的数据不但丰富,还非常充裕。截止至今年底,特斯拉将拥有近 70 万辆配有环视摄像头的特斯拉车辆在路面上行驶,其车辆搭载了第二代或第三代车载计算机。这类车辆的月平均行驶里程数逾 1000 英里/辆(约合 1609.3 公里/辆),而这类的总行驶里程数逾 7 亿英里/月(约合 11.27 亿公里/月)。相较之下,Waymo 车队只有 600 辆自动驾驶车辆,这是全球最大的自动驾驶路测车队。在美国,将所有公司的自动驾驶测试车辆汇总后,其总数才不过近 1400 辆。即便这 1400 辆自动驾驶测试车辆全天候无停歇地行驶,且平均车速保持在 70 英里/小时(约合 112.65 公里/小时),每月的测试里程总数也只有近 7000 万英里(约合 1.127 亿公里)。怀疑论者恰巧指出,若特斯拉对其车队所采集的视频数据进行手动贴标,细化到「每英里」这一层级,从经济角度看,手动贴标并不具有可行性。然而,自动贴标有望完成更高大数量的数据标贴工作。百度的研究使得我们对神经元网络精度等级与贴标训练数据间的关联性有了大致的了解。在对图像内的多个目标物进行分类时,当各指令所对应的贴标训练示例的数量呈倍数增长时,其精度大致能翻番。因此,当上述数据量翻十倍,精度翻两倍。当数量翻百倍,精度翻四倍,当数据量翻千(10 的三次方)倍,精度翻八( 2 的三次方)倍,以此类推。(当数据量翻 10 的 X 次方倍,精度则翻 2 的 X 次方倍)。而对「自由空间/可用空间」识别的增长速率可能更高。对「自由空间/可用空间」的识别工作属于二进制,一个像素,要么对应「自由空间/可用空间」,要么对应「非自由空间/非可用空间」。相较之下,百度更关注如何从上千种可能性中挑选出正确的目标物类别。这类测试的精度标准更显宽容性,若能将其正确地归入到五大猜测类型中,神经元网络就会视其为正确的分类(贴标)。采用这类方法,训练精度每翻四倍,精度则翻倍。例如,若数据量翻 4 倍,精度翻 2 倍。若数据量翻 16 倍,精度翻 4 倍。若数据量翻 64 倍,则精度翻 8 倍,以此类推。除了识别「自由空间/可用空间」,特斯拉还可能将自动贴标用于其他计算机视觉任务。那么,将人工驾驶行为用于对交通灯的贴标辅助会怎样呢?当驾驶员驱车时,交通灯通常处于绿灯状态。当驾驶员停车时,交通灯通常处于红灯或黄灯状态。当然,这类标签也会存在一点「杂音」,毕竟驾驶员偶尔也会在红灯时行驶,但研究人员表明,即便存在这类「杂音」标签,该举措也能大幅提升操作的精度。自动贴标并不需要排斥手动贴标,相反,自动贴标可被用作手动贴标的辅助手段。显然,手动贴标也是特斯拉机器学习流程的一个重要环节。Andrej Karpathy在「自动驾驶日」活动中对此作出了解释。当谈到对视频或图像进行手动分类贴标时,特斯拉车辆的规模性是一大恩赐(优势)。
凯勒·沃格特表示:「我们需要海量的数据和驾驶(测试),原因在于试图最大限度地获取我们当前所持有数据组的熵值并确保其多样性。从本质上讲,熵值代表了数据的意外性、新颖性或不可预知性。」