2 月 17 日,毫末智行预告了即将发布自动驾驶生成式大模型 DriveGPT。与近几个月大火的 ChatGPT 一样,DriveGPT 同样都所采用了 Transformer 模型,同时也使用了 RLHF(人类反馈强化技术)算法进行强化训练;与 ChatGPT 使用自然语言文本进行训练不同,DriveGPT 使用的是驾驶场景数据进行模型训练,并通过不断引入真实人驾接管数据,让模型自我优化,逐步训练自己不断给出更高质量的答案。
昨天(4 月 11 日),在第八届 HAOMO AI DAY 上,毫末正式对行业首发了 DriveGPT 自动驾驶生成式大模型,同时也公布了其中文名「雪湖・海若」。
毫末智行董事长张凯
毫末智行 CEO 顾维灏表示:「DriveGPT 雪湖・海若的目标是实现端到端自动驾驶,现阶段主要用于解决自动驾驶的认知决策问题,后续持续会将毫末多个大模型的能力整合到 DriveGPT。」
毫末智行CEO顾维灏
同时,毫末还在现场宣布雪湖・海若的首发车型是魏牌新摩卡 DHT-PHEV,后续将落地到魏牌蓝山。这意味着雪湖・海若将在 2023 年智能驾驶产品竞争中,起到关键作用。
「2023 年将是智能驾驶冲刺之年、大考之年。」毫末智行董事长张凯判断,「2023 年智驾产品进入全线爆发期,大模型开启在车端的落地应用,车主的使用频率和满意度成为产品竞争力的重要衡量标准。」
按照毫末的判断,这次 DriveGPT 雪湖・海若大模型的发布,也代表其将加速从软件驱动的 2.0 时代,跨向大模型、大数据、大算力为特点的数据驱动的自动驾驶 3.0 时代。
什么是 DriveGPT?
GPT 的全称是生成式预训练 Transformer 大模型,主要应用在 NLP 领域,本质上是不断求解下一个词(Token)出现的概率。然后再将这个词作为下一个时间步的输入,如此往复进行生成,最终获得一个连贯、通顺的文本。
最近广受关注的 ChatGPT 就属于语言类生成式大模型,主要是模拟人类语言行为,根据输入的文字或图片生成回答,与用户交互。而 DriveGPT 雪湖・海若则是用于自动驾驶场景的生成式大模型,所以毫末智行把 ChatGPT 输入的自然语言文本串,换成智能驾驶感知到的过去场景,输出也就变为了包括自车决策规控、障碍物预测以及决策逻辑链等条件在内的未来场景。
在这之中,一个重点就是如何将智能驾驶场景,变为和自然语言一样的 Token,毫末智行给出的答案是 Drive Language。其基于毫末智行的 CSS 场景库理论,利用 BEV 网格来做整个空间的离散化,将每一个网格定义为一个固定大小的词表,这样输入代表已发生场景的 Token 序列,就可以根据历史生成未来的 Token 序列。
目前,毫末智行 Token 化后的词表空间,已经达到了 50 万量级。最终,一连串的 Token 拼起来就是一个完整的驾驶场景时间序列,包括了未来某个时刻的完整交通环境状态和自车状态。
顾维灏介绍:「DriveGPT 可以按概率生成很多个这样的场景序列,每一个场景序列都是未来有可能发生的一种实际情况,这是它的第一个特性。它的第二个特性是在所有场景序列都产生的情况下,能把场景中我们最关注的自车行为轨迹给量化出来,也就是生成场景的同时,便会产生自车未来的轨迹信息。」