注冊帳號丨忘記密碼?
1.點擊網(wǎng)站首頁右上角的“充值”按鈕可以為您的帳號充值
2.可選擇不同檔位的充值金額,充值后按篇按本計費
3.充值成功后即可購買網(wǎng)站上的任意文章或雜志的電子版
4.購買后文章、雜志可在個人中心的訂閱/零買找到
5.登陸后可閱讀免費專區(qū)的精彩內(nèi)容
打開文本圖片集
摘 要:針對多智能體對抗中因?qū)κ植呗宰兓瘜?dǎo)致的非平穩(wěn)性問題,在對手動作不可獲取的限制下,提出一種基于不確定性的貝葉斯策略重用算法。在離線階段,在策略學(xué)習(xí)的同時,通過自編碼器建模智能體軌跡與對手動作之間的關(guān)系表征以構(gòu)建對手模型。在在線階段,依據(jù)對手模型和有限交互信息,估計對手策略類型的不確定性,并基于此選擇最優(yōu)應(yīng)對策略并重用。(剩余17764字)
登錄龍源期刊網(wǎng)
購買文章
基于不確定性的貝葉斯策略重用方法
文章價格:6.00元
當(dāng)前余額:100.00
閱讀
您目前是文章會員,閱讀數(shù)共:0篇
剩余閱讀數(shù):0篇
閱讀有效期:0001-1-1 0:00:00
違法和不良信息舉報電話:400-106-1235
舉報郵箱:longyuandom@163.com