Robotaxi,防火防盗防“建筑工地”。Waymo 就栽了。
北美监管部门刚刚又开启了针对 Waymo 无人车的调查,起因是收到一系列相关事故报告。
有撞上路边停放车辆的,有撞静止障碍物的,阻塞交通的… 以及一个不寻常高频场景:建筑工地。
发生了什么
大概 3 个月内,Waymo 积累上报了 22 起事故,引起了美国国家公路交通安全管理局的注意。
根据 NHTSA 的文件显示,这些事故包括 Waymo 无人车和静止和半静止物体(比如门)相撞、与停放车辆相撞以及违反交通安全控制装置的情况。
其中“违反交通安全控制装置”官方特别说明是一个重点调查方向,一个典型场景就是自动驾驶系统对交通锥 / 雪糕筒的检测识别能力。
这个点比较罕见。因为这次上报的 22 起事故中,很多都涉及同一种场景 —— 建筑工地。
比如上个月,6 辆编队行驶的 Waymo Robotaxi,下班收工回停车场,结果遇到了施工现场临时交通管制,直接卡死在雪糕筒围成的临时通行区,造成了大约半个小时交通拥堵。
有本地生活经验的网友立刻就认出来,这是旧金山 Potrero 大道 101 号匝道,Waymo 无人车卡死的地方,刚好是高速入口。
最后,是路上的司机老哥直接下车手动挪开雪糕筒,后面的车队依次绕过几辆“瘫痪”的无人车。
Waymo 方面出了一个简单声明,大意是 30 分钟内就派人去现场挪车了,没有造成任何伤亡和财产损失,后续会配合调查。
不过在凤凰城的建筑工地,就没这么幸运了。
同样一辆 Waymo 无人车,无视了雪糕筒围出的施工区域,直接冲进了建筑工地。
幸好速度不快没撞到人,不过车辆本身、工地现场都有不同程度损失。
类似这样的事故很多,每次无人车“冲进工地”的小视频,都会在网络上疯传。
网友总结的很生动:交通锥就是 Robotaxi 的氪石(kryptonite),现在再神通广大的自动驾驶,遇到封闭道路的交通锥,都得完蛋。
咦?好像跟 Waymo 官方秀出的视频不太一样呀。
为什么建筑工地难?
Waymo 第五代自动驾驶系统绕行施工区,曾被当做技术亮点专门解析过。
官方的 Demo 中,无人车面对的场景更加复杂,除了交通锥、不规则区域,还有来回走动的工人。
Waymo 无人车当然是毫不费力完成了一系列避让、绕行动作,顺利通过了施工区域:
这里面让人啧啧称奇的是,Waymo 无人车似乎能够看懂人类指挥交通的肢体语言,让停就停,让走就走,而不仅仅以路面条件作为依据。
怎么做到的?Waymo 负责预测算法的工程师 Maya Kabkab 简要解释了一下,大意是第五代技术中,Waymo 加强了对不同物体目标的理解能力,以及对可通行区域的识别能力,这两项使得系统能更好规划通行路线。
核心是用全新模型 VectorNet 替代 CNN,提取传感器和高精地图信息。
简单的说,是将高精地图和传感器输入信息表示为点、多边形或曲线,VectorNet 则将所有道路特征和其他对象的轨迹表示为相应的向量。基于这个简化的视图,VectorNet 可以提取每个向量的信息以及学习不同向量之间的关系。
好处是 VectorNet 比 CNN 占用计算资源更少,出结果的速度更快,理论上也能更加清晰的提取出关键场景信息。
但 VectorNet 仍然没有解决“建筑工地”难题的核心 ——
“建筑工地”本身是高精地图的例外,不可能同步更新,只能靠传感器实时感知。
但传感器的数据在不同子模型之间依次传递,信息损失难以完全避免。
Robotaxi 频繁出现被建筑工地卡死,直接原因是对交通锥、异形物的错检漏检。
而深层原因,是传统自动驾驶技术范式存在能力的上限、天花板,难以覆盖路上所有的 corner case。
所以能不能顺利避让建筑工地,成了一种概率事件:官方 Demo 精雕细琢反复测试,那没问题;单上路实测,就只能看天吃饭了。
端到端能解吗?
“遇事不决量子力学”,是一句调侃。
但在自动驾驶领域,遇事不决,的确都可以“端到端”一下。
所谓“端到端”是针对传统技术范式而言的,其中自动驾驶的感知、决策、规控等等互相独立。传感器采集到的数据,需要通过这一系列不同的算法模块,最终才能“变成”操作指令。
每个独立模块之间的信息是逐级传递的,在这个过程中必然会存在信息的丢失和误差,而且前一个模块的误差会影响到下一个,多个模块之间的信息误差会不断累积,进而影响到自动驾驶方案的整体效果。
无论是纯视觉感知,还是融合感知,“错检漏检”的根源就在这里。
当然也有对应的解决办法,那就是通过人手写的规则,尽量打补丁提高感知识别的可靠性。比如能识别车、人,但识别不了“人站在车前”,那好办,直接将这类目标单独建一个数据集拿来训练模型不就行了?
这就是所谓感知“白名单”机制。
但问题是,很难穷举所有种类的交通目标和场景,这次解决了“人在车前”的问题,但如果车从乘用车变成大卡车呢?或者一个人变成大人牵小孩呢?
对于 Robotaxi 的建筑工地难题来说也是一样,工地可能临时出现,随机刷新,不会限定区域限定时间,而每家工地的搭建、施工路障都不一样…
所以从感知开始就实现信息的无损传递,让系统真正理解环境,需要有一个全新的算法范式 —— 端到端算法模型。
两个端分别指数据输入端和指令输出端,中间不再分成几个相互独立的模块。
端到端模型能够通过完全数据驱动的模式,将其学到的能力和技巧迁移泛化到其他场景当中,自主且高效解决行泊场景中新出现的各类长尾问题,具备更快的迭代效率,有效降低开城成本。
通俗的说,就是让 AI 司学习人类成熟驾驶行为,看到一种场景,做出相应对策。实际上“端到端”已经摸到了 AGI 的门槛。
2016 年端到端模型由英伟达首次提出。但真正得到量产实践这两年才开始。目前只有特斯拉的 FSD 和中国 AI 玩家的 CVPR 2023 最佳论文 ——UniAD。
智能车参考也分别就 Waymo 遇到的工地难题询问了这两家国内自动驾驶头部玩家的看法。
地平线从工程实践角度出发,认为:
自动驾驶的工地难题和端到端技术范式并不是绑定的。理论上讲,感知能力足够强、感知白名单足够丰富也是能解决问题的。
但显然,端到端的自主学习能力、类人思考会更大规模更高效率的解决这个问题。
而商汤的看法更加从“第一性原理”出发,绝影智驾相关技术专家相关认为:
不对具体的 case 进行评价。但基于规则的传统智驾方案的感知还是人为定义要素,并对感知信息进行抽象提取,这就会导致信息传递过程的损失和遗漏,让感知决策模块难以作出正确的决策。而端到端是在一个神经网络中,将外部环境的信息无损输入和传递,更准确和完整地理解外部交通环境,并作出规划和决策。
规则方案可以通过增加规则、添加补丁解决一个场景。但是这样的场景不会只有一个,是无限的。而足够多的数据进行学习训练之后,端到端方案可以像人一样思考、开车,自己解决更多类似的 corner case。
总结一下,地平线和商汤表述不同,但核心一样,都认可端到端是解决 Robotaxi 工地难题最有效的方法。同时还是解决自动驾驶各类长尾问题的最高效途径。
对了多说一句,提出 UniAD 的 CVPR 2023 最佳论文,地平线和商汤的学者都参与了撰写。
端到端对传统技术范式革新,给了所有玩家新的机遇:更好的智驾体验、更低的维护、泛化成本,以及更有竞争力的自动驾驶方案成本。
但代价是以往模块化的、规则驱动主导的技术体系,必须推倒重构。
昔日自动驾驶绝对领军者 Waymo,如今陷入“建筑工地”困境中,更加证明自动驾驶这条赛道“水无常形,兵无常势”:
老牌明星可能会优势归零重置,“后来者”也会获得领先优势。
本文来自微信公众号:智能车参考 (ID:AI4Auto),作者:有车有据