特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

<sup id="p4ruf"></sup>

<sup id="p4ruf"></sup>

特別提示

1.點擊網(wǎng)站首頁右上角的“充值”按鈕可以為您的帳號充值

2.可選擇不同檔位的充值金額，充值后按篇按本計費

3.充值成功后即可購買網(wǎng)站上的任意文章或雜志的電子版

4.購買后文章、雜志可在個人中心的訂閱/零買找到

5.登陸后可閱讀免費專區(qū)的精彩內(nèi)容

基于相關(guān)熵誘導度量的近端策略優(yōu)化算法

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：在深度強化學習算法中，近端策略優(yōu)化算法PPO（Proximal Policy Optimization）在許多實驗任務中表現(xiàn)優(yōu)異，但具有自適應KL（Kullback-Leibler）散度的KL-PPO 由于其不對稱性而影響了KL-PPO 策略更新效率，為此，提出了一種基于相關(guān)熵誘導度量的近端策略優(yōu)化算法CIM-PPO （Correntropy Induced Metric-PPO）。（剩余6395字）

試讀結(jié)束

購買全文5.00元下一篇有線混合網(wǎng)絡數(shù)據(jù)傳輸擁塞優(yōu)化控制方法

吉林大學學報(信息科學版)

2023年03期

￥4.00/本

關(guān)于龍源 關(guān)于我們聯(lián)系我們龍源大事記誠聘英才用戶守則 購刊指南 電子刊購買流程會員介紹常見問題 客服中心 聯(lián)系客服開具發(fā)票 商務合作 商務合作 網(wǎng)絡信息舉報
違法和不良信息舉報電話：400-106-1235

舉報郵箱：longyuandom@163.com
網(wǎng)上有害信息舉報專區(qū) 支付方式 支付寶在線支付公司轉(zhuǎn)賬郵局匯款 特色服務 刊社入口友情鏈接

關(guān)注微信公眾號
獲取更多資訊
北京龍源網(wǎng)通電子商務有限公司
（署）網(wǎng)出證（京）字第188號丨京公網(wǎng)安備 11011302003690號丨京ICP備18053758號-2