VLA 模型与 Action Token 视角
VLA 模型(Vision-Language-Action Models)是当前具身智能研究的前沿方向之一。这类模型旨在将基础模型在数字世界中的智能延伸到物理世界,通过处理视觉和语言输入,生成实时动作输出,从而实现具体的、具身的任务执行能力。
VLA 统一框架描述了不同 VLA 模型共同遵循的通用架构:即视觉和语言输入经过一系列功能模块(VLA modules),逐层处理并生成更具体、可执行的动作信息(action token),最终转化为实际的动作输出。
Action Token则是不同 VLA modules 之间传递的动作表示,承载具体动作信息。可以理解为 VLA 模型生成的“动作语言”,用于明确不同模块间的沟通内容与执行目标。
八种 Action Token 的梳理分析
1. Language Description(语言描述)
- 形式:用自然语言的形式描述要完成的动作。
- 分类:按照描述颗粒度主要分为子任务级别的 language plan(如“端起茶杯”)和原子动作级别的 language motion(如“手往前伸”)。
- 优势:
- 与基础模型高度兼容,语言描述与 LLM/VLM 的原生输出空间一致。
- 丰富的训练数据支持,借助海量图文与操作数据。
- 更强的长时规划能力,分层的语言指令有助于处理长链路、多阶段任务。
- 高度可解释性与可控性,自然语言表达易于人类理解和干预。
- 挑战:表达精度不足与推理时延。
2. Code(代码)
- 形式:用代码的形式表达任务的实现逻辑,包含循环、分支等逻辑控制和机器人感知、控制的 API 调用。
- 优势:
- 代码是人类与计算机之间最直接也最高效的交流方式。
- 结构清晰、具备可读性与可执行性。
- 挑战:构建完备的感知与动作函数库。
3. Affordance(可操作性)
- 形式:描述物体的功能和可操作性,如“茶壶可以倒水”。
- 优势:
- 有助于理解环境中的物体及其潜在用途。
- 可以结合 trajectory 和 goal state 提升生成精度。
- 挑战:需要高质量的视觉输入和环境理解。
4. Trajectory(轨迹)
- 形式:描述动作的运动轨迹,如“手从这里移动到那里”。
- 优势:
- 提供精确的动作路径,适用于需要高精度控制的任务。
- 可以与其他 action token 结合使用,提高动作的准确性和效率。
- 挑战:需要复杂的运动规划算法。
5. Goal State(目标状态)
- 形式:描述任务完成后的目标状态,如“茶杯里有水”。
- 优势:
- 提供明确的任务目标,有助于指导动作生成。
- 可以结合 trajectory 和 affordance 提升生成精度。
- 挑战:需要准确的目标状态预测算法。
6. Latent Representation(潜在表示)
- 形式:通过潜在变量表示动作,如“执行某个动作”。
- 优势:
- 具有高度的抽象性和灵活性。
- 可以捕捉复杂的动作模式。
- 挑战:训练中面临粒度、语义覆盖和任务对齐等挑战。
7. Raw Action(原始动作)
- 形式:直接生成机器人可以执行的原始动作序列,如“电机转动”。
- 优势:
- 最适合端到端学习,可以直接从输入生成输出。
- 能力高度依赖数据。
- 挑战:需要大量的高质量训练数据。
8. Reasoning(推理)
- 形式:通过推理生成动作,如“根据当前状态推理下一步动作”。
- 优势:
- 可以作为“元 token”增强其他 token 的生成。
- 支持任务适应性推理计算。
- 挑战:需要复杂的推理算法和大量的计算资源。
VLA 架构趋势
未来的 VLA 模型很可能采用分层架构:
- 顶层:通过 language description 和 code 实现长程规划与逻辑控制。
- 下层:在近期内预计将使用 goal state 的视频预测、trajectory 的流建模以及 affordance 的三维交互预测紧密结合,形成中间动作表示,最终映射为 raw action。长期来看,下层将演化为完全端到端的方式,直接从子任务级输入预测 raw action。
- 贯穿整个 VLA 模型:reasoning 按需贯穿整个 VLA 模型,增强 action token 生成。
安全与对齐
当前的 VLA 研究主要关注模型能力,未来必须更加重视安全性与人类对齐。这包括确保模型的行为符合人类的道德和法律标准,避免潜在的风险和危害。