特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于PPO算法的集群多目標(biāo)火力規(guī)劃方法

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘要: 針對高動態(tài)戰(zhàn)場態(tài)勢下防御作戰(zhàn)場景中的多目標(biāo)火力規(guī)劃問題,提出一種基于近端策略優(yōu)化算法的火力規(guī)劃方法,以最大化作戰(zhàn)效能為目標(biāo),從彈藥消耗、作戰(zhàn)效果、作戰(zhàn)成本及作戰(zhàn)時間4個方面設(shè)計強(qiáng)化學(xué)習(xí)獎勵函數(shù)。考慮歷史決策序列對當(dāng)前規(guī)劃的影響,以長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)為核心,基于Actor-Critic框架設(shè)計神經(jīng)網(wǎng)絡(luò),使用近端策略優(yōu)化算法訓(xùn)練網(wǎng)絡(luò),利用訓(xùn)練好的強(qiáng)化學(xué)習(xí)智能體進(jìn)行序貫決策,根據(jù)多個決策階段的態(tài)勢實(shí)時生成一系列連貫火力規(guī)劃方案。(剩余20466字)

目錄
monitor