基于行為克隆的機械臂多智能體深度強化學習軌跡跟蹤控制

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：針對具有非線性干擾以及多變環(huán)境的機械臂軌跡跟蹤問題，提出了一種結合行為克?。╞ehavior cloning，BC）的多智能體深度強化學習（multi-agent deep reinforcement learning，MDRL）控制方法。多智能體控制算法中包含了以孿生延遲深度確定性策略梯度算法（twin delayed deep deterministic policy gradient algorithm，TD3）為基底算法的比例積分微分智能體（proportional-integral-derivative agent，PID agent）和直接用深度強化學習策略輸出扭矩的智能體（direct deep reinforcement learning agent，DDR agent），并采用兩個獎勵函數來優(yōu)化兩個agent的策略網絡。（剩余20738字）

試讀結束

購買全文6.00元下一篇基于時空預測的多策略網約車調度算法

計算機應用研究

2025年04期

￥12.00/本

特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于行為克隆的機械臂多智能體深度強化學習軌跡跟蹤控制