特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于強(qiáng)化學(xué)習(xí)的雙人博弈差分隱私保護(hù)研究

  • 打印
  • 收藏
收藏成功


打開(kāi)文本圖片集

摘要:針對(duì)雙人博弈問(wèn)題,在學(xué)習(xí)Q-learning算法的基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)參數(shù)逼近的方式更新?tīng)顟B(tài)值函數(shù),選取自適應(yīng)梯度優(yōu)化算法進(jìn)行參數(shù)更新,并通過(guò)納什均衡思想調(diào)節(jié)兩個(gè)智能體的行為。同時(shí)為提高模型的保護(hù)效果,對(duì)結(jié)果添加差分隱私保護(hù),保證智能體博弈過(guò)程中數(shù)據(jù)的安全性。最后,實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的可用性,其能夠訓(xùn)練兩個(gè)智能體在多回合之后穩(wěn)定抵達(dá)各自目標(biāo)點(diǎn)。(剩余11003字)

monitor