抛光打磨机器人模仿方式以及方法概览

2022-09-13 22:19:32 0次

1）运动模型：以DMP、GMM和GMR等传统的示教学习方法为代表。解决的运动规划问题，需要明确知道机器人和目标点的的位置姿态信息，同时也需要有结构化的环境信息（障碍等）。该类方法的基础是概率模型，需要建立示教轨迹的参数依赖模型，然后针对新任务进行解码。

2）策略学习模型：以学徒学习、最大边际规划、逆强化学习和生成对抗模仿学习为代表。该类方法需要将单纯的运动规划问题、规划+控制问题或感知+规划+控制问题建模为多步决策问题，然后利用DNN来学习策略。理论基础是强化学习那一套，但引入了专家示教等。

3）语义推理模型：对于任务进行高语义层级的解析和归纳，然后基于语义进行推理。如果是做研究，第一类方法没有太多可以探索的点。迁移学习的难点还是在于对任务configuration理解与对环境的感知。第二类方法需要大量数据，示教数据中需要迁移的信息密度很低。第三类方法信息密度高，但在符号主义方法产生重大突破之前，这类方法其实也没有太多可以做的。

模仿学习面临的一个挑战是：平衡模仿演示行为的能力，以及演示状态分布之外的状态恢复能力。BC 通过监督学习来模仿演示的动作，而 IRL 专门研究如何从任意状态中恢复策略。ROT 可以将两者优势结合起来。

完成上述过程分为以下两个阶段：

第一阶段，在专家演示数据上使用 BC 目标训练随机初始化策略，然后 BC 预训练策略用作第二阶段的初始化；

第二阶段，BC 预训练策略可以访问使用 IRL 目标进行训练的环境。为了加速 IRL 训练，BC 损失被添加到具有自适应权重目标中。

阶段 1：BC 预训练

BC 对应于求解方程 2 中的最大似然问题，其中 T^e 指的是专家演示。当由具有固定方差的正态分布参数化方程时，我们可以将目标定义为回归问题，其中给定输入 s^e，π^BC 需要输出 a^e。

经过训练，π^BC 能够模拟与演示中看到的对应动作。

阶段 2：使用 IRL 进行在线微调

给定一个预训练 π^BC 模型，在环境中对策略 π^b ≡ π^ROT 进行在线微调。研究者使用 n-step DDPG 方法，这是一种基于确定性 actor-critic 的方法，可在连续控制中提供高模型性能。

用正则化 π^BC 进行微调很容易受到分布偏移的影响，并且直接微调 π^BC 也会导致模型性能不佳（参见第 3 节中的图 2）。为了解决这个问题，研究者基于引导 RL（guided RL）和离线 RL 方法，通过将π^ROT 与 BC 损失相结合，将π^ROT 的训练规范化，如下方程 3 所示。

具有 Soft Q-filtering 的自适应正则化。虽然之前的工作使用经过手动调优的 λ(π) 时间表，但研究者提出了一种新的、无需调优的自适应方案。他们通过在从专家 replay 缓冲区 D_e 采样的一批数据中比较当前策略 π^ROT 和预训练策略 π^BC 的性能来完成。

新闻动态

抛光打磨机器人模仿方式以及方法概览

产品推荐