特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于內(nèi)在好奇心與自模仿學(xué)習(xí)的探索算法

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘  要: 針對深度強(qiáng)化學(xué)習(xí)算法在部分可觀測環(huán)境中面臨的稀疏獎勵、信息缺失等問題,提出一種結(jié)合好奇心模塊與自模仿學(xué)習(xí)的近端策略優(yōu)化算法。該算法利用隨機(jī)網(wǎng)絡(luò)來生成探索過程中的經(jīng)驗樣本數(shù)據(jù),然后利用優(yōu)先經(jīng)驗回放技術(shù)選取高質(zhì)量樣本,通過自模仿學(xué)習(xí)對優(yōu)秀的序列軌跡進(jìn)行模仿,并更新一個新的策略網(wǎng)絡(luò)用于指導(dǎo)探索行為。(剩余14457字)

monitor