马斯克所说的FSD V12端到端自动驾驶到底是个啥?
(资料图片)
FSD V12 实现 End - to - End AI ( 端到端) 自动驾驶。什么是“端到端”?“端到端”是深度学习中的概念,英文为“End-to-End(E2E)”,指的是一个AI模型,只要输入原始数据就可以输出最终结果。比如最近很火的ChatGPT,它就是一个典型的端到端模型,输入文字语句,直接就能得到回答。那对于智能驾驶来说,指的是什么?踩油门还是踩刹车?方向盘向左打还是向右打?这就是智能驾驶AI模型应该输出的“最终结果”。马斯克在描述FSD Beta v12 时,就提到了它可以实现输入图像,输出转向、刹车、加速等车辆控制信号的能力,因此说它是“端到端”的。还有一种说法,叫做“感知决策一体化”,也就是将“感知”和“决策”融合到一个模型中,这种描述则相对更为准确一些。「端到端」的优势目前已量产的智能驾驶,绝大多数采用的是模块化架构。所谓“模块化”其实很好理解,就是把智能驾驶拆分成一个个典型任务,然后将这些任务交由专门的AI模型或模块来处理,比如说感知、预测、规划等等。实际应用中,感知模型的任务就是输入摄像头等传感器信息,然后在里面找到车辆周围的障碍物、车辆、车道线、红绿灯等一切与驾驶相关的元素,然后把感知信息汇总给规划模型,规划模型就会根据得到的信息规划出车辆的最佳行驶路线,再交给控制模块(控制模块一般并非AI模型),实现车辆最终的控制。在这种架构中,每个大的模块下,又可能是以多种模型组合而来的,例如感知,其中可能包含了分类、追踪、定位等AI模型,各司其职。也就是说,一个智能驾驶系统里,可能包含了很多很多个模型,每个模型都要专门进行训练、优化、迭代,随着模型的不断进化,参数量提高,所需的研发人员也水涨船高,研发投入极高。而端到端架构,则是通过一个模型实现了以上多种模型的功能,研发人员只需要针对这一个模型进行整体训练、调整优化,即可实现性能上的提升,因此可以更好地集中资源,实现功能聚焦。另一方面,传统的模块化架构可以看做是一种流水线,很多模型的输入参数,其实是前级模型的输出结果。如果前级模型输出的结果有误差,就会影响下一级模型的输出,导致级联误差的出现,最终影响整套系统的性能。这很好理解,在这种架构下,不同模块间就相当于不同的人,负责决策的人是不能直接看到环境的,需要“观察员”转告,因此将不可避免地产生误差。而端到端架构,输入传感器信号后可以直接输出车控信号,大大降低了级联误差的概率,也因此大大提升了系统性能的上限,整体潜力极大。「端到端」的难点在量产车上看,模块化架构依然是目前智能驾驶的绝对主流,可见端到端架构依然存在一些关键的问题未能解决。“涌现”是不可控的、不能预知的,即便一个模型发生了“涌现”,人们也不知道其内部发生了什么,是因为什么导致了能力的巨大变化。如果一个模型的可解释性很差,那说明人们对这个模型内部知之甚少,甚至都不能理解这个模型为什么能跑起来,是一个黑盒。他虽然能做出正确的决策,但方法是什么,理由又是什么,都不知道。端到端智能驾驶,就是一种可解释性很差的模型,这就导致了一系列的问题。首当其冲的就是安全性。还是拿ChatGPT为例,作为端到端的大模型,它的能力很强,但“胡说八道”的情况也不少见,对于一个语言模型来说,错了就错了,纠正一下就是,但对于驾驶来说,如果决策规划出错了,就有可能导致严重的事故,甚至危及生命。可端到端智能驾驶是个黑盒子,即便出了差错,研究人员也不知道它为什么会出差错,到底是哪一部分出了问题,又该如何去避免。只能通过不断的训练、调参、增加参数量,来尽可能地提高模型的准确率,但最终能否达到100%的安全,还是要打一个问号。另一方面,端到端智能驾驶,它的训练本就是很复杂的。感知模型训练时,需要的是经过标注的图片,这是一种比较容易获得的素材,而端到端智能驾驶,它需要学习的是驾驶行为,因此需要大量标注有驾驶行为的视频才能进行进行训练,采集和标注都很困难。因此,端到端智能驾驶,它的闭环验证比较困难,缺少足够的真实数据,目前主要还是在仿真环境中进行训练和验证,这也直接影响了它的量产落地。端到端智能驾驶一旦成功落地,对于整个行业的影响将是颠覆性的。但我们也要认识到,端到端有优势也有挑战,并且挑战依然是极大的,在现阶段甚至是未来很长一段时间内,当我们看到“端到端”时,只要看不到实物落地,就应该理性看待。
转自:水月的投资笔记
$特斯拉(TSLA)$
关键词: