基于分層強化學習的多智能體博弈策略生成方法

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：典型基于深度強化學習的多智能體對抗策略生成方法采用“分總” 框架，各智能體基于部分可觀測信息生成策略并進行決策，缺乏從整體角度生成對抗策略的能力，大大限制了決策能力。為了解決該問題，基于分層強化學習提出改進的多智能體博弈策略生成方法。基于分層強化學習構(gòu)建觀測信息到整體價值的決策映射，以最大化整體價值作為目標構(gòu)建優(yōu)化問題，并推導了策略優(yōu)化過程，為后續(xù)框架結(jié)構(gòu)和方法實現(xiàn)的設(shè)計提供了理論依據(jù)；基于決策映射與優(yōu)化問題構(gòu)建，采用神經(jīng)網(wǎng)絡(luò)設(shè)計了模型框架，詳細闡述了頂層策略控制模型和個體策略執(zhí)行模型；基于策略優(yōu)化方法，給出詳細訓練流程和算法流程；采用星際爭霸多智能體對抗（ＳｔａｒＣｒａｆｔＭｕｌｔｉ-ＡｇｅｎｔＣｈａｌｌｅｎｇｅ，ＳＭＡＣ）環(huán)境，與典型多智能體方法進行性能對比。（剩余10552字）

試讀結(jié)束

購買全文6.00元下一篇 LEO衛(wèi)星網(wǎng)絡(luò)切換判決方法研究綜述

無線電工程

2024年06期

￥12.00/本

特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于分層強化學習的多智能體博弈策略生成方法