基于行為克隆的機械臂多智能體深度強化學習軌跡跟蹤控制

打開文本圖片集
摘 要:針對具有非線性干擾以及多變環(huán)境的機械臂軌跡跟蹤問題,提出了一種結合行為克?。╞ehavior cloning,BC)的多智能體深度強化學習(multi-agent deep reinforcement learning,MDRL)控制方法。多智能體控制算法中包含了以孿生延遲深度確定性策略梯度算法(twin delayed deep deterministic policy gradient algorithm,TD3)為基底算法的比例積分微分智能體(proportional-integral-derivative agent,PID agent)和直接用深度強化學習策略輸出扭矩的智能體(direct deep reinforcement learning agent,DDR agent),并采用兩個獎勵函數來優(yōu)化兩個agent的策略網絡。(剩余20738字)