基于不確定性的貝葉斯策略重用方法

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：針對多智能體對抗中因?qū)κ植呗宰兓瘜?dǎo)致的非平穩(wěn)性問題，在對手動作不可獲取的限制下，提出一種基于不確定性的貝葉斯策略重用算法。在離線階段，在策略學(xué)習(xí)的同時，通過自編碼器建模智能體軌跡與對手動作之間的關(guān)系表征以構(gòu)建對手模型。在在線階段，依據(jù)對手模型和有限交互信息，估計對手策略類型的不確定性，并基于此選擇最優(yōu)應(yīng)對策略并重用。（剩余17764字）

試讀結(jié)束

購買全文6.00元下一篇基于結(jié)構(gòu)化數(shù)據(jù)的區(qū)域保障調(diào)度模型研究

系統(tǒng)工程與電子技術(shù)

2025年02期

￥24.00/本

特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于不確定性的貝葉斯策略重用方法