模型预测控制(MPC)是一种利用动力学模型和规划器在规划时域内最大化目标函数来选择动作的方法。MPC的灵活性使其能够在测试时适应新的奖励函数,这与专注于固定奖励的策略学习方法不同。
Google DeepMind的研究人员提出了一种新的方法——扩散模型预测控制(D-MPC),该方法结合了多步动作提案和动力学模型,使用扩散模型进行在线MPC,展示了在D4RL基准测试中的卓越性能。
关键组件
- 多步动力学模型:
- D-MPC 使用多步动力学模型来预测未来状态,减少累积误差。多步模型能够更准确地捕捉长期依赖关系,提高预测精度。
- 动作提案:
- 使用扩散模型生成动作序列提案。扩散模型通过离线数据学习世界动力学和动作序列,能够在规划时生成多样化的动作候选。
- SSR规划器(采样、评分和排序):
- SSR规划器通过以下步骤选择最佳动作序列:
- 采样:生成多个动作序列。
- 评分:使用学习的动力学模型评估每个动作序列的性能。
- 排序:选择评分最高的动作序列。
- SSR规划器通过以下步骤选择最佳动作序列:
方法流程
- 离线学习:
- 从轨迹的离线数据集中学习动力学模型、动作提案和启发式价值函数。
- 在线规划:
- 动作选择:在每一步,系统采样多个动作序列,使用动力学模型评估这些序列,并选择最佳选项。
- 动作执行:执行选定的动作,并使用新的观测结果更新模型。
- 适应新奖励和动力学:
- D-MPC 能够在运行时适应新的奖励函数和动力学变化,通过微调少量新数据来改进性能。
实验结果
- 性能改进:D-MPC 在D4RL基准测试中超过了现有的基于模型的离线规划方法,与最先进的强化学习方法(如Diffuser和IQL)接近。
- 适应新奖励和动力学:D-MPC 在运行时能够很好地适应新的奖励函数和动力学变化,微调后性能显著提升。
- 泛化能力:D-MPC 在运动、Adroit和Franka Kitchen任务上表现出色,能够泛化到新的任务和环境。
- 消融研究:使用多步扩散模型进行动作提案和动力学显著提高了长期预测准确性和整体任务性能,相比单步或变换器模型。
优势和局限
- 优势:
- 高预测精度:多步动力学模型和扩散模型的结合提高了长期预测的准确性。
- 灵活性:能够在运行时适应新的奖励函数和动力学变化。
- 性能优秀:在D4RL基准测试中展示了强劲性能,超过了现有的基于模型的规划方法。
- 局限:
- 计算成本:每一步都需要重新规划,这比反应策略慢。
- 采样效率:未来的工作将集中在加速采样和扩展D-MPC以处理像素观察。
未来工作
- 加速采样:通过优化采样过程,提高规划速度,减少计算成本。
- 处理像素观察:使用潜在表示技术扩展D-MPC,使其能够处理像素观察,增强其在视觉任务中的应用。
结论
D-MPC 通过结合多步动作提案和动力学模型,使用扩散模型进行在线MPC,展示了在D4RL基准测试中的卓越性能。它在运行时适应新奖励和动力学方面表现出色,但需要在每一步重新规划,这比反应策略慢。未来的工作将集中在加速采样和扩展D-MPC以处理像素观察,进一步提升其性能和应用范围。