NVIDIA Research：多模态LLM技术驱动自动驾驶智能体研究

更新时间：2024-10-17 11:15:14作者：kzmyhome

让自动驾驶系统适应新环境和不同地区的习惯和法规是自动驾驶领域长期面临的挑战。NVIDIA Research 团队提出的自动驾驶智能体 LLaDA 能够利用 LLM 生成适应不同环境的驾驶策略和指令，为驾驶员和自动驾驶汽车提供多语言和地区交通规则的实时指导。帮助他们更轻松地在陌生的地方导航。此外，LLaDA 还能帮助自动驾驶汽车重新规划出与当地环境更加匹配的运动轨迹，调整自动驾驶汽车的运动规划策略。相关论文成果收录于 CVPR 2024 。

然而，LLaDA 无法实现场景的自动识别，且对场景描述的质量有着较高要求。尽管 GPT-4V 能够提供这种描述，但是却不够准确。为此，NVIDIA Research 提出一个创新的自动化视频字幕生成框架 Wolf。Wolf 采用专家混合方法，利用视觉语言模型(VLMs)的互补优势，能够提升自动驾驶智能体的场景理解能力。

此外，LLaDA 通常是与用户直接交互，并主要处理文本信息。相比之下，自动驾驶系统则需要提供具体的位置和轨迹规划信息。基于这些差异，NVIDIA Research 团队专为自动驾驶领域设计出一种多模态大型语言模型（MM-LLM）TOKEN。TOKEN 通过将复杂的交通环境转化为对象级别的知识单元，增强了自动驾驶车辆在面对长尾事件时的规划能力。该模型还结合了端到端驾驶模型的优势，解决了数据稀缺和标记化效率低下的问题。相关论文收录于 CoRL 2024 。

在上述背景下，智猩猩与 NVIDIA 策划推出「智猩猩公开课 NVIDIA 自动驾驶智能体专场」，并将于10月22日以视频直播形式进行。公开课邀请到 LLaDA 论文第一作者、NVIDIA Research 自动驾驶方向研究科学家李柏依进行主讲，主题为《探索基于多模态LLM 的自动驾驶智能体》。

李柏依博士首先会重点讲解 LLaDA 如何利用 LLM 生成适应不同环境的驾驶策略和指令；之后会解读如何使用 Wolf 框架生成字幕提升智能体的场景理解能力。接下来，李柏依博士会讲解如何基于 TOKEN 分解复杂交通场景提升智能体在长尾事件的规划能力，最后会分享在自动驾驶智能体上的未来研究方向，并进行展望。