特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于相關(guān)熵誘導度量的近端策略優(yōu)化算法

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘要: 在深度強化學習算法中, 近端策略優(yōu)化算法PPO(Proximal Policy Optimization)在許多實驗任務中表現(xiàn)優(yōu)異, 但具有自適應KL(Kullback-Leibler)散度的KL-PPO 由于其不對稱性而影響了KL-PPO 策略更新效率,為此, 提出了一種基于相關(guān)熵誘導度量的近端策略優(yōu)化算法CIM-PPO (Correntropy Induced Metric-PPO)。(剩余6395字)

monitor