(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111450243.1
(22)申请日 2021.12.01
(71)申请人 南京富尔登科技发展 有限公司
地址 211500 江苏省南京市六合区雄州街
道工业园骁骑路2号
(72)发明人 陈楠 杨平化 吕游 徐俊杰
吕云峰
(74)专利代理 机构 南京经纬专利商标代理有限
公司 32200
代理人 陆志斌
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 119/14(2020.01)
(54)发明名称
一种基于联邦学习的机 器人协同控制算法
(57)摘要
本发明公开了一种基于联邦学习的机器人
协同控制算法, 包括如下步骤: S1、 机器人数据的
预处理; S2、 建立基于图神经网络建立本地模型,
将S1得到的预处理之后的数据传输到图卷积层,
后经过图池化层处理冗余特征, 最后至全连接层
输出本地模型; S3、 建立基于自适应权重的异步
传输联邦 学习算法。 该种基于联邦学习的机器人
协同控制算法, 在保护机器人厂家的隐私基础
上, 能够根据主从式机器人协同控制的主从关系
来确定权重, 同时可根据一个主从式机器人的联
邦学习模型, 可以推广到一个主机器人到多个从
机器人, 并可有效解决了 现有技术中不同类型的
机器人构成的主从式机器人协同控制模型中, 存
在的系统不匹配、 参数不共享、 通信延迟等问题。
权利要求书3页 说明书12页 附图3页
CN 114117926 A
2022.03.01
CN 114117926 A
1.一种基于联邦学习的机器人协同控制算法, 其特 征在于, 包括如下步骤:
S1、 机器人 数据的预处 理, 具体流 程如下:
S1‑1、 建立机器人坐标系, 对主从式机器人建立基座坐标系OB和世界坐标系OW, 并设定
多机器人中任意两台机器人的基 座坐标系OB与世界坐 标系OW的相对抓取物体的位姿是固定
的, 不随着时间变化, 根据机器人当前时刻的关节角进行计算主从机器人末端坐标系的相
对位姿矩阵
并同步计算t时刻从动机器人Rs在其基座坐标系OBs下的目标轨迹矩阵
S1‑2、 机器人参数处 理, 获取机器人运动的行为特 征的历史行为数据;
S1‑3、 参数归一化, 在收集数据之后, 将其分为训练集、 测试集和验证集三个部分, 并将
D1数据作为训练序列, D2作为测试序列和D3作为验证集, 对待进行非结构化数据进行最大 ‑
最小归一化, 公式为
其中x*为归一化之后的参数, x为待处理参数, xmin为
所有参数中的最小值, xmax为所有参数中最大值, 将所有参数 预处理完成;
S2、 建立基于图神经网络建立本地模型, 将S1得到的预处理之后的数据传输到图卷积
层, 后经过图池化层处 理冗余特 征, 最后至全连接层输出本地模型;
S3、 建立基于自适应权 重的异步传输联邦学习算法, 具体流 程如下:
S3‑1、 联邦学习异步传输, 对于每个主从式机器人系统客户端采用异步传输更新, 在本
地训练固定轮次后, 将各自神经网络参数发送给参数服务器, 并等待最新的神经网络参数,
当接受到 参数后采用滑动平均的方式聚合成新的权重, 定 义公式为:
其中Wk+τ为参数服务器在聚合时的保留权重, Wki为主从式机器人系统客
户端工作节点k上传输到服务器的权重, ki为第k个主从式机器人系统客户端工作节点权重
的更新值;
S3‑2、 自适应随机加权, 对于多客户端的聚合问题, 采用学习样本上不同类型信息对客
户端节点簇结构有差异的K ‑means型算法, 将多客户端两种类型的信息映射到同一维度空
间上, 再通过对其融合, 得到具有统一的簇中心;
S3‑3、 聚合模型的评价指标, 以均方误差损失函数的评价标准, 在自适应加权的基础
上, 将联合训练的模型分发到各个主从式机器人系统参与的客户端, 根据偏差来评估联合
训练的模型好坏;
S3‑4、 联邦模型建立完成, 上述步骤完成后, 达到设定的评价标准, 将基于自适应加权
的图卷积联邦学习网络的联合训练模型聚合到服务器端聚合, 聚合完成后再返回给各个本
地客户端。
2.根据权利要求1所述的一种基于联邦学习的机器人协同控制算法, 其特征在于, 所述
S1‑1中
其中
和
分别为主动机器 人Rm和从动机器人 Rs的
正 运 动 学 转 换 矩 阵 ,
为 主 从 机 器 人 基 座 坐 标 系 的 相 对 位 姿 矩 阵 ;
其中
为主动机器人 Rm在其基座坐标系OBm下的权 利 要 求 书 1/3 页
2
CN 114117926 A
2目标轨迹矩阵,
为从动机器人Rs在主动机器人Rm末端坐标系OEm下的目标轨 迹矩阵。
3.根据权利要求1所述的一种基于联邦学习的机器人协同控制算法, 其特征在于, 所述
S1‑2中历史行为数据包含以下10个特征, 将其映射为向量的形式: X={x1,x2,x3,x4,x5,x6,
x7,x8,x9,x10}, 其中x1为动力学模型, x2为运动学模型, x3为主动机器人Rm特征, x4为从动机
器人Rs特征, x5为抓取物体目标轨迹矩阵
x6为抓取物体目标物体初始坐标位置, x7
为抓取物体目标物体的最终坐标位置, x8为通信时延, x9为偏差数据, x10为抗干扰能力。
4.根据权利要求1所述的一种基于联邦学习的机器人协同控制算法, 其特征在于, 所述
S2的具体流 程如下:
S2‑1、 图卷积层, 使用如公式
所示的形式, 来聚合邻居节
点信息, 提取高度概括 的有效节点特征, 其中上标l表示层数,
表示在原始邻接
矩阵上增加了单位矩阵, 以此来包含自身节点信息, H0表示初始的输入数据特征,
即度矩
阵,
Wl是可训练的权 重参数;
S2‑2、 图池化层, 首先将所有的节点特征通过一个可训练变量p投影成1维数据, 从而在
根据生成的1 维数据来执 行TopK池化操作, 选择 得分最高的节点;
S2‑3、 全连接层, 设置三个全连接层在网络结构的末端, 对特征进行扁平化操作, 该操
作将最终得到的图节点特 征保存为 一个固定大小的表示形式 中;
S2‑4、 激活函数, 在图卷积神经网络结构中, 不同的位置输入不同的激活函数, 在图卷
积层、 图池化层和前两层全连接层之间采用Tanh( ·)激活函数, 定义如公式
所示, 在全连接层最后输出的时候采用Sigmoid( ·)函数, 定义如公式
所示;
S2‑5、 损失函数, 采用的交叉熵损失函数, 定义公式为:
其中nk表示第k
个主从式机器人系统客户端拥有的数据量, lk表示对应的损失函数;
S2‑6、 网络优化器, 采用改进的自适应网络优化器AMSGrad。
5.根据权利要求4所述的一种基于联邦学习的机器人协同控制算法, 其特征在于, 所述
S2‑6中梯度更新如公式
所示, 其中m为梯度的一阶矩估
计即梯度的均值, V为梯度的二阶矩估 计即梯度的有偏方差,
为更新之后的梯度的有偏方
差, g为梯度, t表示当前学习的迭代次数,
⊙是一种同位元素相乘的乘法,权 利 要 求 书 2/3 页
3
CN 114117926 A
3
专利 一种基于联邦学习的机器人协同控制算法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:27:35上传分享