武器工业与军事技术论文_基于SAC算法的作战仿 - 决策与信息杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 决策与信息

一、本刊要求作者有严谨的学风和朴实的文风，提倡互相尊重和自由讨论。凡采用他人学说，必须加注说明。二、不要超过10000字为宜，精粹的短篇，尤为欢迎。三、请作者将稿件（用WORD格式）发送到下面给出的征文信箱中。四、凡来稿请作者自留底稿，恕不退稿。五、为规范排版，请作者在上传修改稿时严格按以下要求： 1．论文要求有题名、摘要、关键词、作者姓名、作者工作单位（名称，省市邮编）等内容一份。 2．基金项目和作者简介按下列格式：基金项目：项目名称（编号）作者简介：姓名（出生年－），性别，民族（汉族可省略），籍贯，职称，学位，研究方向。 3．文章一般有引言部分和正文部分，正文部分用阿拉伯数字分级编号法，一般用两级。插图下方应注明图序和图名。表格应采用三线表，表格上方应注明表序和表名。 4．参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定，采用顺序编码制。

武器工业与军事技术论文_基于SAC算法的作战仿

作者:

关键词:

摘要：

文章摘要:[目的]现有作战推演仿真系统主要基于作战规则和经验知识作决策，但存在应用场景有限、效率低、灵活性差等问题。为此，提出了一种基于深度强化学习(DRL)技术的智能决策模型。[方法]首先，建立仿真推演的最大熵马尔科夫决策过程（MDP）；然后，以actor-critic (AC)体系为基础构建智能体训练网络，生成随机化策略以提高智能体的探索能力，利用软策略迭代更新的方法搜索更优策略，不断提高智能体的决策水平；最后，在仿真推演平台上对决策模型进行验证。[结果]结果表明，利用改进SAC决策算法训练的智能体能够实现自主决策，且与深度确定性策略梯度（DDPG）算法相比，获胜概率约提高了24.53%。[结论]所提出的决策模型设计方案可以为智能决策技术研究提供理论参考，对作战仿真推演具有重要借鉴意义。

文章关键词:作战推演,自主决策,深度强化学习,软策略迭代,最大熵,

论文作者:王兴众王敏罗威

作者单位:中国舰船研究设计中心

论文DOI: 10.19693/j.issn.1673-3185.02099

论文分类号: E91

相似文献:基于军事规则的无人坦克集群协同作战仿真.....作者:王春艳,任浩,匡敏驰,武丹凤,曹向舒,史恒,刊载期刊：《系统仿真学报》
一种基于可变规则的松耦合实体建模方法.....作者:杨正,向智敏,马世文,刊载期刊：《系统仿真学报》

文章来源：《决策与信息》网址: http://www.jcyxxzz.cn/qikandaodu/2021/0825/1238.html