期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 部分可观测条件下的策略迁移强化学习方法
王忠禹, 徐晓鹏, 王东
现代防御技术    2024, 52 (2): 63-71.   DOI: 10.3969/j.issn.1009-086x.2024.02.007
摘要1316)   HTML66)    PDF (1659KB)(364)   

针对多智能体强化学习算法在部分可观测条件下难以形成有效协同策略的问题,基于集中式训练与分散式执行范式(CTDE)提出一种策略迁移强化学习方法。该方法在全局观测下训练可以探索到良好协同策略的教师模块,在部分可观测条件下,学生模块依据最大化累计回报的期望为目标函数在线训练的同时,利用策略蒸馏技术从教师模块进行策略迁移,并自适应调整教师策略对学生策略的影响比重。在多个地图场景中对所提出的方法进行仿真验证,实验结果表明部分可观测条件下学生模块的胜率高于所对比的基线算法的胜率。研究成果可以应用于多智能体合作任务,提升智能体在分散式执行时的协同性能。

图表 | 参考文献 | 相关文章 | 多维度评价