端到端还不够,还要世界模型?

2024-11-21 12:03:18电动湃

不知道,最近大家有没有关注到一个现象,悄然间「世界模型」已经站在智驾的高地,成为衡量一家车企智驾能力的「新」风向标。

有人说,这是在智能驾驶领域继「BEV&Transformer」、「占用网络OCC」、「端到端」等技术后,又一次跨越式进步。

更有行业大佬,募集十几亿,致力于构建「大型世界模型」。更像一些头部公司,诸如谷歌旗下人工智能企业DeepMind,花费重金聘请了OpenAI视频生成器Sora的联合负责人蒂姆·布鲁克斯来开发世界模型。

世界模型的准确定义是这样的:

通过模拟人类的认知过程,使机器系统能够理解和预测复杂环境中的未来情景,从而实现自主决策和行动。

说人话就是,人为地创造一个像大脑一样具备思考能力的智能体。

它可以理解真实世界的物理法则,还能对事物的关系、规律、原因和结果进行理解和预测,从而做出决策判断。

关于理解真实世界的物理法则,其实并没有大家想象得那么容易。

比如说,现在让大家去想象手掌时,几乎所有人都能准确且毫不费力地想象出来,但是在目前的AI制作中,却会经常会出现多根手指或连指的现象。

此前,图灵奖得主YannLeCun就明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像Sora这样通过生成像素来建模世界的方式注定要失败。

表象尚且不准,至于对事物的关系、规律、原因和结果的理解就更难了,以我们最为熟悉的ChatGPT举例,目前还存在「幻觉问题」。

就是用一种可以令人信服但完全编造的方式来表达自己,也就是一本正经地已读乱回。

比如:问模型第一个在月球上行走的人是谁?模型回复,CharlesLindbergh在1951年的月球先驱任务中第一个登上月球。

实际上,第一个登上月球的人是NeilArmstrong。

这也在一定程度上限制了ChatGPT在金融、法律等知识鉴别门槛极高的行业里应用。

而理解只是路径,决策才是最终想要达到的结果。

通常来说,当大脑内部进行预测时,可以根据我们当前的运动动作,预测未来的感官数据。

我们能够本能地按照这种预测采取行动,并在面临危险时做出快速的反应,而无需有意识地规划行动方案。

以棒球为例,棒球击球手只有几毫秒的时间来决定如何挥棒,甚至比我们眼睛的视觉信号到达大脑所需的时间还要短。

而击球员能够击出时速100英里的快速球,是因为他能够本能地预测球会在何时何地飞去哪里。

对于职业球员来说,这一切都是潜意识发生的。他们的肌肉会根据大脑的预测,在正确的时间和地点反射性地挥棒,无需有意识地推出可能的未来情景来制定计划。

带入这个视角,你会发现,一些车企的智驾技术就很好理解了。

比如,智已说的迈入「直觉」智驾新时代。

这套系统就在强调一个“下意识”的决策动作,无需经过常规的识别与处理,就像老司机遇到紧急情况那样,不需要复杂思考,就能够给出一个正确的反应。

说了这么多世界模型,大家或许发现了,世界模型是一个覆盖面很大的词汇,可以应用在机器人、智能汽车等多个领域。

仅对于智能驾驶来说,世界模型具体有什么用呢?

答案是成本。

智能驾驶发展至今,数据的重要性越发凸显。然而,实车采集、人工标注的费用却在水涨船高,况且,能够满足训练要求的数据还少之又少,更不必说一些非常罕见的cornercase。

自动驾驶应用了世界模型,就可以借助视频生成技术,创建驾驶场景,从而降低成本。

比如说,有一天,路测人员在测试中发现了测试车辆的问题,后续可以通过世界模型,生成多条轨迹和这些轨迹实时交互的多场景视角,满足训练模型的需求,从而提升系统的迭代效率。

例如,按照官方的说法,NWM(即蔚来世界模型)能够在0.1秒内推演出216种可能发生的轨迹,寻找最佳决策。

然后在接下来的0.1秒内,根据外界的信息输入,重复更新内在时空的模型,再去预测216种可能性。以此循环,跟随驾驶轨迹持续预测,得到驾驶的最优解。

也就是说,后续我们完全可以借助世界模型仿真模拟出极端的驾驶场景,来训练提升车辆的智驾能力。

这也是世界模型在自动驾驶的两大应用:生成能力、仿真能力。

但是,目前的世界模型缺陷也有很多。比如生成长视频的能力,目前公开的、最长的视频时间,也不过几分钟而已。

还有视频的清晰程度,即使是国外领先的自动驾驶公司WAYVE旗下的世界模型GAIA,它所生成的视频也很模糊。同时,时间和空间一致性的问题也不能忽略。

这些背后都指向了算力需求,而算力成本是非常高昂的。

可以说,世界模型还是一项非常新兴的技术,需要大量的资金,大量的人力铺在上面。当然,资本市场对大模型技术也是非常看好的。

根据国际数据公司(IDC)最新发布的《中国模型即服务(MaaS)及AI大模型解决方案市场追踪(2024H1)》报告显示,2024上半年,中国AI大模型解决方案市场的规模为13.8亿元人民币。

预计在2024-2028年期间也将持续高速长,年均复合增长率为56.2%,到2028年整体市场规模将达到211亿元人民币。

燃油车时代,仿佛一切都比较简单,没有那么多技术名词。来到了智能化时代,层出不穷的技术名词,不仅令消费者感到困惑,包括多数业内人士也是一头雾水。

但对于智能化的宏大主题来说,行进道路确实非常艰难。有时目标足够沉,问题足够多,才有这么多的技术被发明、被创造,而每个技术名词的背后,都是成长的印记,也是试错的痕迹。

合抱之木,生于毫末,九层之台,起于累土。正是一段段的技术死磕,才让智能化逐渐有了一个更明朗的未来。

猜你喜欢:

网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图