注冊(cè)帳號(hào)丨忘記密碼?
1.點(diǎn)擊網(wǎng)站首頁(yè)右上角的“充值”按鈕可以為您的帳號(hào)充值
2.可選擇不同檔位的充值金額,充值后按篇按本計(jì)費(fèi)
3.充值成功后即可購(gòu)買網(wǎng)站上的任意文章或雜志的電子版
4.購(gòu)買后文章、雜志可在個(gè)人中心的訂閱/零買找到
5.登陸后可閱讀免費(fèi)專區(qū)的精彩內(nèi)容
打開(kāi)文本圖片集
摘要:針對(duì)雙人博弈問(wèn)題,在學(xué)習(xí)Q-learning算法的基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)參數(shù)逼近的方式更新?tīng)顟B(tài)值函數(shù),選取自適應(yīng)梯度優(yōu)化算法進(jìn)行參數(shù)更新,并通過(guò)納什均衡思想調(diào)節(jié)兩個(gè)智能體的行為。同時(shí)為提高模型的保護(hù)效果,對(duì)結(jié)果添加差分隱私保護(hù),保證智能體博弈過(guò)程中數(shù)據(jù)的安全性。最后,實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的可用性,其能夠訓(xùn)練兩個(gè)智能體在多回合之后穩(wěn)定抵達(dá)各自目標(biāo)點(diǎn)。(剩余11003字)
登錄龍?jiān)雌诳W(wǎng)
購(gòu)買文章
基于強(qiáng)化學(xué)習(xí)的雙人博弈差分隱私保護(hù)研究
文章價(jià)格:6.00元
當(dāng)前余額:100.00
閱讀
您目前是文章會(huì)員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報(bào)電話:400-106-1235
舉報(bào)郵箱:longyuandom@163.com