合理选择作战资源组成“传感器-武器-目标”杀伤链在防空网络化作战中具有重要的意义,研究了多约束限制、多优化指标下的传感器-武器-目标分配(sensor-weapon-taget assignment,S-W-TA)问题,建立其数学模型,并提出一种基于深度强化学习的分配方法。分析S-W-TA问题对应的寻优指标,使用杀伤链有利度指标整合传统的效能指标;采用深度Q网络(deep Q network,DQN)方法训练智能体,使用深度强化学习类方法对S-W-TA问题进行求解。仿真结果表明:在杀伤链择优组网的过程中,深度强化学习算法所求得的解优于工程上广泛应用的基于规则的分配方法,强化学习类算法更适合解决多约束限制、多优化指标的S-W-TA问题,具有一定的工程应用价值。