团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111654873.0 (22)申请日 2021.12.3 0 (71)申请人 陈治湘 地址 100089 北京市海淀区北四环西路8 8 号 申请人 邓红艳 雷祥 叶培华 李德龙 周宏升 耿振余 苏玉强 张央檠 何玲玥 王奔驰 董冬梅 孙佰刚 崔艳 任川 李劲松 (72)发明人 陈治湘 邓红艳 雷祥 叶培华 李德龙 周宏升 耿振余 苏玉强 张央檠 何玲玥 王奔驰 董冬梅 孙佰刚 崔艳 任川 李劲松 (74)专利代理 机构 北京邦创至诚知识产权代理 事务所(普通 合伙) 11717 专利代理师 张宇锋(51)Int.Cl. G06F 30/27(2020.01) G06F 30/15(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 111/08(2020.01) (54)发明名称 一种基于自博弈模型的智能空战模仿学习 训练样本生成方法 (57)摘要 本发明涉及一种基于自博弈模型的智能空 战模仿学习训练样本生成方法, 包括: 状态空间 设计、 动作空间设计、 神经网络结构设计以及对 抗样本生成; 其基于自博弈的思路。 该方法可 以 自动生成大量的高质量训练样 本, 从而摆脱对人 类专家的依赖, 降低样本生成的成本 。 权利要求书2页 说明书4页 附图1页 CN 114528750 A 2022.05.24 CN 114528750 A 1.一种基于自博弈模型的智能空战模仿学习训练样本生成方法, 其特征在于, 该方法 包括如下步骤: S1: 状态空间设计: 状态是神经网络的输入数据, 状态由己方、 对方所有武器的信息构 成; 每架飞机可以获取的状态包括其自身的状态、 己方飞机的状态, 以及可能探测到的敌方 飞机状态组成; S2: 动作空间设计: 动作是强化学习模型的输出值, 决定了智能体的行为, 并影响系统 的后续演化; 动作空间是对飞机的控制; 对于每架飞机, 其动作空间由以下部分组成: 1)飞行控制, 包括速度, 航向, 高度, 姿态; 2)开/关雷达; 3)开火:控制各种武器进行开火, 并根据需要指定射击目标; S3: 神经网络结构设计: 由于可以准确地获得系统状态的值, 属于完全观测问题, 因此 算法采用全连接神经网络结构; 神经网络同时实现分类与回归任务, 对应于离散型动作和 连续型动作; 神经网络的输入为状态向量, 根据实际需求而定; 对于类别型变量, 采用向量化编码以 提高算法的精度; 中间是全连接层, 采用ReLU/sigmoid激活函数; 对于离散动作, 使用 softmax回归, 输出执行每种动作的概率p(a|s), 是一个多项分布; 对于连续动作, 假设动作 服从正态分布N( μ, σ2), 神经网络预测出正态分布的均值 μ和方差σ2; 运行时, 对 于离散动 作, 系统按照神经网络输出 的概率分布进行采样, 具体做法是执行概率最大 的动作; 对于连续 型动作, 运行时根据正态分布的均值和方差进行采样, 得到要执 行的动作; S4: 对抗样本生成: 自博弈由生成器与判别器组成; 所述生成器用于生成决策序列, 所 述判别器用于判断决策序列是专家 生成的还是生成器生成的, 它的输出被用于构建奖励函 数。 2.根据权利要求1所述的基于自博弈模型的智能空战模仿学习训练样本生成方法, 其 特征在于, S1中对于每一架己方飞机, 可以获得的信息包括: 1.飞机的经度, 纬度以及高度; 2.飞机的飞行速度; 3.飞机的ID, 采用one ‑hot编码; 4.飞机 是否存活, 采用one ‑hot编码; 5. 航向; 6.是否被敌方锁定, 采用one ‑hot编码; 7.自身携带武器的状态; 对于每一架对方飞 机, 可以获得的信息包括: 1.飞机的经度, 纬度以及高度; 2.飞机的飞行速度; 3.飞机的ID, 采用one‑hot编码; 4.飞机是否存活, 采用o ne‑hot编码; 5.航向。 3.根据权利要求1所述的基于自博弈模型的智能空战模仿学习训练样本生成方法, 其 特征在于, S2中对于离散型动作, 如 有需要, 将使用向量化编码; 对于连续型动作, 直接根据 神经网络的输出值进 行采样执行; 具体地, 对于服从正态分布的动作, 根据均值与标准差进 行采样, 产生 一个随机数, 然后以该随机数作为动作执 行。 4.根据权利要求1所述的基于自博弈模型的智能空战模仿学习训练样本生成方法, 其 特征在于, S3中对于 离散动作, 采用交叉熵损失; 损失函数定义 为: 其中n为训练样本数, yi为第i个样本的真实标签值, 采用one ‑hot编码, 为第i个样本 的预测值; 神经网络的预测值是 经过softmax回归变换的概 率值; 对于连续型动作, 采用欧氏距离损失函数:权 利 要 求 书 1/2 页 2 CN 114528750 A 2其中n为训练样本数, yi为第i个样本的真实标签值, 为第i个样本的预测值; 为了平衡 离散型动作和连续型动作的重要性, 损失函数中交叉熵和欧氏距离损失函数带有权重, 可 以人工设置 。 5.根据权利要求1所述的基于自博弈模型的智能空战模仿学习训练样本生成方法, 其 特征在于, S4的算法首先初始 化一个决策函数, 以及判别器模型; 接下来循环更新判别器和 策略函数; 每次迭代时首先更新判别器模型, 使得它对专家 生成的决策序列、 策略函数生成 的决策序列的分类准确 率最大化; 接下来更新策略函数 的参数, 使得它获得 的累计奖励最 大化; 生成器是 标准的强化学习算法, 可以采用TRPO或P PO算法, 实现最优策略的搜索。权 利 要 求 书 2/2 页 3 CN 114528750 A 3
专利 一种基于自博弈模型的智能空战模仿学习训练样本生成方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 21:47:46
上传分享
举报
下载
原文档
(362.1 KB)
分享
友情链接
T-CBMF 61—2019 混凝土外加剂行业清洁生产 评价指标体系.pdf
GB-T 17747.2-2011 天然气压缩因子的计算 第2部分:用摩尔组成进行计算.pdf
DB37-T 3386-2018 工业园区规划水资源论证技术导则 山东省.pdf
YDT 4403-2023 开源项目选型参考框架.pdf
法律法规 贵阳市大数据安全管理条例2021-06-07.pdf
GB-T 32823-2016 电网节能项目节约电力电量测量和验证技术导则.pdf
GB-T 42368-2023 高温高压条件下可燃气体 蒸气 爆炸极限测定方法.pdf
GB-T 43572-2023 区块链和分布式记账技术 术语.pdf
GB-T 16597-2019 冶金产品分析方法 X射线荧光光谱法通则.pdf
中国银保监会办公厅关于印发银行保险机构信息科技外包风险监管办法的通知.pdf
T-ZEA 004—2018 互联网金融信息披露行业标准化.pdf
GB-T 20307-2006 纳米级长度的扫描电镜测量方法通则.pdf
GB-T 7932-2017 气动 对系统及其元件的一般规则和安全要求.pdf
GB-T 14315-2008 电力电缆导体用压接型铜、铝接线端子和连接管.pdf
DB41-T 2665-2024 大气挥发性有机物走航自动监测技术规范 河南省.pdf
GB-T 42882-2023 城市和社区可持续发展 智慧城市运行模型 应对突发公共卫生事件的指南.pdf
DL-T 2041-2019 分布式电源接入电网承载力评估导则.pdf
GB-T 34587-2017 钢质冷藏集装箱修理技术要求.pdf
GB-T 40724-2021 碳纤维及其复合材料术语.pdf
DB14-T 281-2021 水泵装置节能技术导则 山西省.pdf
1
/
3
8
评价文档
赞助2元 点击下载(362.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。