特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于分層強化學習的多智能體博弈策略生成方法

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘 要:典型基于深度強化學習的多智能體對抗策略生成方法采用“分總” 框架,各智能體基于部分可觀測信息生成策略并進行決策,缺乏從整體角度生成對抗策略的能力,大大限制了決策能力。為了解決該問題,基于分層強化學習提出改進的多智能體博弈策略生成方法。基于分層強化學習構(gòu)建觀測信息到整體價值的決策映射,以最大化整體價值作為目標構(gòu)建優(yōu)化問題,并推導了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實現(xiàn)的設(shè)計提供了理論依據(jù);基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計了模型框架,詳細闡述了頂層策略控制模型和個體策略執(zhí)行模型;基于策略優(yōu)化方法,給出詳細訓練流程和算法流程;采用星際爭霸多智能體對抗(StarCraft Multi-Agent Challenge,SMAC)環(huán)境,與典型多智能體方法進行性能對比。(剩余10552字)

monitor