基于相關(guān)熵誘導度量的近端策略優(yōu)化算法
摘要: 在深度強化學習算法中, 近端策略優(yōu)化算法PPO(Proximal Policy Optimization)在許多實驗任務中表現(xiàn)優(yōu)異, 但具有自適應KL(Kullback-Leibler)散度的KL-PPO 由于其不對稱性而影響了KL-PPO 策略更新效率,為此, 提出了一種基于相關(guān)熵誘導度量的近端策略優(yōu)化算法CIM-PPO (Correntropy Induced Metric-PPO)。(剩余6395字)
-
-
- 吉林大學學報(信息科學版)
- 2023年03期
目錄
- 最小錯誤準則下多傳感器信號檢測...
- 基于FRFT 與盲分離的擴頻通...
- 基于攝像機標定的壓縮圖像拼接合...
- 基于GA 的認知物聯(lián)網(wǎng)功率自適...
- 基于優(yōu)化的VSVPWM 三電平...
- 基于區(qū)間云模型的非完備空戰(zhàn)決策...
- 基于相關(guān)熵誘導度量的近端策略優(yōu)...
- 有線混合網(wǎng)絡數(shù)據(jù)傳輸擁塞優(yōu)化控...
- 基于改進ShuffleNetV...
- 基于混沌映射的數(shù)據(jù)庫信息隱私加...
- 基于科技創(chuàng)新能力研究的創(chuàng)新生態(tài)...
- 基于知識圖譜技術(shù)的配電站房智能...
- 基于殘差注意力機制的圖像超分辨...
- 基于離散海鷗算法求解循環(huán)取貨車...
- 動態(tài)模糊邏輯程序設計語言編譯器...
- 基于改進麻雀算法的混合儲能容量...
- 藍印花布紋樣標準數(shù)據(jù)集的構(gòu)建...
- 基于VDRCNN 的電力巡檢圖...
- 油氣物聯(lián)網(wǎng)高效能耗算法研究...
- 基于改進的Yolo v4 絕緣...
- 基于變分貝葉斯的視覺散焦光圖像...
- 基于邊緣計算的非結(jié)構(gòu)化大數(shù)據(jù)動...
- 考慮遮擋因素的視頻人體運動目標...
- 《吉林大學學報(信息科學版)》...