(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111651199.0
(22)申请日 2021.12.3 0
(71)申请人 陈治湘
地址 100089 北京市海淀区北四环西路8 8
号
申请人 邓红艳 耿振余 雷祥 周宏升
苏玉强 李德龙 叶培华 王奔驰
何玲玥 张央檠 邓桂龙 孙佰刚
任川 崔艳 李劲松
(72)发明人 陈治湘 邓红艳 耿振余 雷祥
周宏升 苏玉强 李德龙 叶培华
王奔驰 何玲玥 张央檠 邓桂龙
孙佰刚 任川 崔艳 李劲松
(74)专利代理 机构 北京邦创至诚知识产权代理
事务所(普通 合伙) 11717
专利代理师 张宇锋(51)Int.Cl.
G06F 30/27(2020.01)
G06F 30/15(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种深度学习算法在多战机协调空域探索
中应用的方法
(57)摘要
本发明涉及一种深度学习算法在多战机协
同空域探索中应用的方法, 包括: 采用六层CNN从
传感器获取环 境数据提取特征, 使多个战机共享
同一个PPO网络进行学习, 随后选择并实行对应
飞行动作。 本发 明应用于多战机的协同探索这一
场景; 降低探索所需时间, 适当权衡发现敌机的
收益与被敌机发现的风险; 通过深度强化学习算
法, 将多个战机协同探索的效率 最大化。
权利要求书1页 说明书5页 附图1页
CN 114462299 A
2022.05.10
CN 114462299 A
1.一种深度 学习算法在多战机协同空域探索中应用的方法, 其特征在于, 该方法包括:
采用六层CNN从传感器获取环境数据提取特征, 使多个战机共享同一个PPO网络进行学习,
随后选择并实行对应飞行动作; 其中,
所述六层CNN包括三层卷积层和三层全连接层, 其中, 第 一层卷积层接收的输入矩阵的
五个特征通道表示当前战局的信息状态, 所述特 征通道包括:
自身战机通道
以经纬度表示自身位置 的坐标, 当前位置标记为1, 其余位置标记为
0; 我方其他战机通道
以经纬度表示我方其他战机位置的坐标, 当前位置标记为1, 其余
位置标记为0; 敌方战机通道
以经纬度表示敌方战机位置的坐标, 当前位置标记为1, 其
余位置标记为0; 未探索区域通道
将未探索区域标记为1, 已探索区域标记为0; 已探索区
域通道
将已探索区域标记为1, 未探索区域标记为0;
所述PPO网络中战机的状态空间表示 为:
所述PPO网络中战机的奖励机制如下 所示:
其中, i表示战机号, t表示表示 时间,
表示第i个战机在t时刻时已有的奖励, 当第i个
战机探索了未探索领域 时,
否则
是关于时间的惩罚
函数, 探索所花费的时间越长, 惩罚越大,
表示第i个战机 检测到了敌机时的奖励, 设为
rdetect;
表示战机 选择打开雷达时所受到的惩罚rscan+rdetected。
2.如权利要求1所述的方法, 其特征在于, 所述PPO网络中战机的飞行动作类型包括:
开/关雷达且向前移动, 开/关雷达且向后移动, 开/关雷达且向左移动和开/关雷达且向右
移动。
3.如权利要求1所述的方法, 其特征在于, 所述第 一卷积层的每个输入通道与16个特征
选择过滤器相连, 每 个过滤器的一维卷积窗口长度为8 ×8, 卷积步长为 4。
4.如权利要求3所述的方法, 其特征在于, 第二卷积层/第二卷积层的每个输入通道与
32个特征选择过滤器相连, 每 个的过滤器的一维卷积窗口长度为 4×4, 卷积步长为2。
5.如权利要求1所述的方法, 其特征在于, 通过调整runexplored、 rdetect、 rscan和rdetected来进
行模型训练, 使战机将倾向于在尽量保证不被敌机侦测的前提下进行尽可能多的区域探
索。
6.如权利要求1所述的方法, 其特征在于, 对接推演系统, 通过所述推演系统控制战机
的飞行动作。
7.如权利要求6所述的方法, 其特 征在于, 所述推演系统为墨子联合作战推演系统。权 利 要 求 书 1/1 页
2
CN 114462299 A
2一种深度学习算法在多战机协调空域探索中应用的方 法
技术领域
[0001]本发明涉及一种深度学习算法在多战机协同空域探索中应用的方法。
背景技术
[0002]在战机协同作战这一重要空战模式中, 如何有效地进行不同战机多传感器的信息
融合对集成战场综合信息和提升系统性作战能力有较大作用。 该信息融合的实质是战机
(Agent)间信息互通与维护的算法问题。
[0003]现有的方案基于Brian Yamauchi(1998)最早提出的通过基于边界的多战机探索
算法。 该研究将传统的单个战机在 存在障碍物的未知区域内的探索模式升级为基于边界的
多战机的协作算法。 根据该方案, 每个战机 分别维护全局地图中的一部 分, 并独自做出探索
决策, 但各个战机之间能够实时共享存储的最新区域信息并进行整合。 这一设计使得各个
战机能够有效利用其他战机共享的信息, 从而更有效地进行探索。 Bantin et al.(2012)
在此基础上进行了数据层面的改进, 将各个 战机提供 的信息进行等级评定, 并将移动距离
等影响因素纳入考 量, 降低了整体的区域探索时间。
[0004]此外, 目前的深度强化学习领域也正着眼于多战机相关问题。 Zhu et al.(2018)
采用了CNN(Convolutional Neural Networks, 卷积神经网络) 与LSTM(Lon g‑Short Term
Memory, 长短期记忆人工神经网络)算法进行特征提取, 并采用A3C(Asynchronous
advantage actor‑critic, 异步优势动作评估)算法进行模型近似, 得到了单战机采用深度
强化学习算法探索未知区域的高效方案 。
[0005]现有的战机探索算法存在 一系列局限性, 在应用场景中的问题主要体现在算法的
时间复杂度上。 在Brian Yamauchi(1998)提出的通过基于边界的多战机探索算法及其延伸
方案中, 因为算法的设计思路对计算的基本要求本身是较高的, 难以通过有效的算法优化
方法或提升硬件算力显著降低其复杂度和所需的运算时间。 同时, 战机整合信息的时效性
对把握战况有不可忽视的影响, 耗时较长的算法是缺乏鲁棒 性的。
[0006]在另一种技术路线上, Zhu et al.(2018)采用的深度强化学习算法有效地提供了
单战机在未知区域的探索策略, 然而在多个 战机同时存在的情况下, 重复使用多个单战机
的策略对提高整体探索效率的效果不佳, 该方案设计没有能够有效结合战机之 间可共享信
息的优势和特点。
发明内容
[0007]本发明的目的在于提供了一种深度学习算法在多战机协同空域探索中应用的方
法构建, 多战机间互相协作的算法模型, 通过有效的信息共享, 战机可以最大化提升探索效
率, 从而在对敌侦察 等应用场景中取 得先置优势,以解决现有技 术中存在的诸多技 术问题。
[0008]为了解决上述技术问题, 本发明提供一种深度学习算法在多战机协同空域探索中
应用的方法, 该方法包括: 采用六层CNN从传感器获取环境数据提取特征, 使多个 战机共享
同一个PPO(Proxi mal Policy Optimization, 近端策略优化)网络进行学习, 随后选择并实说 明 书 1/5 页
3
CN 114462299 A
3
专利 一种深度学习算法在多战机协调空域探索中应用的方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:48:35上传分享