抛光打磨机器人模仿方式以及方法概览

2022-09-13 22:19:32 0
1)运动模型:以DMP、GMM和GMR等传统的示教学习方法为代表。解决的运动规划问题,需要明确知道机器人和目标点的的位置姿态信息,同时也需要有结构化的环境信息(障碍等)。该类方法的基础是概率模型,需要建立示教轨迹的参数依赖模型,然后针对新任务进行解码。
 
2)策略学习模型:以学徒学习、最大边际规划、逆强化学习和生成对抗模仿学习为代表。该类方法需要将单纯的运动规划问题、规划+控制问题或感知+规划+控制问题建模为多步决策问题,然后利用DNN来学习策略。理论基础是强化学习那一套,但引入了专家示教等。
 
 
3)语义推理模型:对于任务进行高语义层级的解析和归纳,然后基于语义进行推理。如果是做研究,第一类方法没有太多可以探索的点。迁移学习的难点还是在于对任务configuration理解与对环境的感知。第二类方法需要大量数据,示教数据中需要迁移的信息密度很低。第三类方法信息密度高,但在符号主义方法产生重大突破之前,这类方法其实也没有太多可以做的。
 
 
模仿学习面临的一个挑战是:平衡模仿演示行为的能力,以及演示状态分布之外的状态恢复能力。BC 通过监督学习来模仿演示的动作,而 IRL 专门研究如何从任意状态中恢复策略。ROT 可以将两者优势结合起来。
 
完成上述过程分为以下两个阶段:
 
第一阶段,在专家演示数据上使用 BC 目标训练随机初始化策略,然后 BC 预训练策略用作第二阶段的初始化;
第二阶段,BC 预训练策略可以访问使用 IRL 目标进行训练的环境。为了加速 IRL 训练,BC 损失被添加到具有自适应权重目标中。
阶段 1:BC 预训练
 
BC 对应于求解方程 2 中的最大似然问题,其中 T^e 指的是专家演示。当由具有固定方差的正态分布参数化方程时,我们可以将目标定义为回归问题,其中给定输入 s^e,π^BC 需要输出 a^e。
 
 
经过训练,π^BC 能够模拟与演示中看到的对应动作。
 
阶段 2:使用 IRL 进行在线微调
 
给定一个预训练 π^BC 模型,在环境中对策略 π^b ≡ π^ROT 进行在线微调。研究者使用 n-step DDPG 方法,这是一种基于确定性 actor-critic 的方法,可在连续控制中提供高模型性能。
 
用正则化 π^BC 进行微调很容易受到分布偏移的影响,并且直接微调 π^BC 也会导致模型性能不佳(参见第 3 节中的图 2)。为了解决这个问题,研究者基于引导 RL(guided RL) 和离线 RL 方法,通过将π^ROT 与 BC 损失相结合,将π^ROT 的训练规范化,如下方程 3 所示。
 
 
具有 Soft Q-filtering 的自适应正则化。虽然之前的工作使用经过手动调优的 λ(π) 时间表,但研究者提出了一种新的、无需调优的自适应方案。他们通过在从专家 replay 缓冲区 D_e 采样的一批数据中比较当前策略 π^ROT 和预训练策略 π^BC 的性能来完成。

版权所有© 宁波斯帝尔科技有限公司 备案号: 浙ICP备2024132091号-1 友情链接: