专利 一种基于联邦学习的机器人协同控制算法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111450243.1 (22)申请日 2021.12.01 (71)申请人南京富尔登科技发展有限公司地址 211500 江苏省南京市六合区雄州街道工业园骁骑路2号 (72)发明人陈楠　杨平化　吕游　徐俊杰　吕云峰　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 代理人陆志斌 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 119/14(2020.01) (54)发明名称一种基于联邦学习的机器人协同控制算法 (57)摘要本发明公开了一种基于联邦学习的机器人协同控制算法，包括如下步骤： S1、机器人数据的预处理； S2、建立基于图神经网络建立本地模型，将S1得到的预处理之后的数据传输到图卷积层，后经过图池化层处理冗余特征，最后至全连接层输出本地模型； S3、建立基于自适应权重的异步传输联邦学习算法。该种基于联邦学习的机器人协同控制算法，在保护机器人厂家的隐私基础上，能够根据主从式机器人协同控制的主从关系来确定权重，同时可根据一个主从式机器人的联邦学习模型，可以推广到一个主机器人到多个从机器人，并可有效解决了现有技术中不同类型的机器人构成的主从式机器人协同控制模型中，存在的系统不匹配、参数不共享、通信延迟等问题。权利要求书3页说明书12页附图3页 CN 114117926 A 2022.03.01 CN 114117926 A 1.一种基于联邦学习的机器人协同控制算法，其特征在于，包括如下步骤： S1、机器人数据的预处理，具体流程如下： S1‑1、建立机器人坐标系，对主从式机器人建立基座坐标系OB和世界坐标系OW，并设定多机器人中任意两台机器人的基座坐标系OB与世界坐标系OW的相对抓取物体的位姿是固定的，不随着时间变化，根据机器人当前时刻的关节角进行计算主从机器人末端坐标系的相对位姿矩阵并同步计算t时刻从动机器人Rs在其基座坐标系OBs下的目标轨迹矩阵 S1‑2、机器人参数处理，获取机器人运动的行为特征的历史行为数据； S1‑3、参数归一化，在收集数据之后，将其分为训练集、测试集和验证集三个部分，并将 D1数据作为训练序列， D2作为测试序列和D3作为验证集，对待进行非结构化数据进行最大 ‑ 最小归一化，公式为其中x*为归一化之后的参数， x为待处理参数， xmin为所有参数中的最小值， xmax为所有参数中最大值，将所有参数预处理完成； S2、建立基于图神经网络建立本地模型，将S1得到的预处理之后的数据传输到图卷积层，后经过图池化层处理冗余特征，最后至全连接层输出本地模型； S3、建立基于自适应权重的异步传输联邦学习算法，具体流程如下： S3‑1、联邦学习异步传输，对于每个主从式机器人系统客户端采用异步传输更新，在本地训练固定轮次后，将各自神经网络参数发送给参数服务器，并等待最新的神经网络参数，当接受到参数后采用滑动平均的方式聚合成新的权重，定义公式为：其中Wk+τ为参数服务器在聚合时的保留权重， Wki为主从式机器人系统客户端工作节点k上传输到服务器的权重， ki为第k个主从式机器人系统客户端工作节点权重的更新值； S3‑2、自适应随机加权，对于多客户端的聚合问题，采用学习样本上不同类型信息对客户端节点簇结构有差异的K ‑means型算法，将多客户端两种类型的信息映射到同一维度空间上，再通过对其融合，得到具有统一的簇中心； S3‑3、聚合模型的评价指标，以均方误差损失函数的评价标准，在自适应加权的基础上，将联合训练的模型分发到各个主从式机器人系统参与的客户端，根据偏差来评估联合训练的模型好坏； S3‑4、联邦模型建立完成，上述步骤完成后，达到设定的评价标准，将基于自适应加权的图卷积联邦学习网络的联合训练模型聚合到服务器端聚合，聚合完成后再返回给各个本地客户端。 2.根据权利要求1所述的一种基于联邦学习的机器人协同控制算法，其特征在于，所述 S1‑1中其中和分别为主动机器人Rm和从动机器人 Rs的正运动学转换矩阵，为主从机器人基座坐标系的相对位姿矩阵；其中为主动机器人 Rm在其基座坐标系OBm下的权　利　要　求　书 1/3 页 2 CN 114117926 A 2目标轨迹矩阵，为从动机器人Rs在主动机器人Rm末端坐标系OEm下的目标轨迹矩阵。 3.根据权利要求1所述的一种基于联邦学习的机器人协同控制算法，其特征在于，所述 S1‑2中历史行为数据包含以下10个特征，将其映射为向量的形式： X＝{x1,x2,x3,x4,x5,x6, x7,x8,x9,x10}，其中x1为动力学模型， x2为运动学模型， x3为主动机器人Rm特征， x4为从动机器人Rs特征， x5为抓取物体目标轨迹矩阵 x6为抓取物体目标物体初始坐标位置， x7 为抓取物体目标物体的最终坐标位置， x8为通信时延， x9为偏差数据， x10为抗干扰能力。 4.根据权利要求1所述的一种基于联邦学习的机器人协同控制算法，其特征在于，所述 S2的具体流程如下： S2‑1、图卷积层，使用如公式所示的形式，来聚合邻居节点信息，提取高度概括的有效节点特征，其中上标l表示层数，表示在原始邻接矩阵上增加了单位矩阵，以此来包含自身节点信息， H0表示初始的输入数据特征，即度矩阵， Wl是可训练的权重参数； S2‑2、图池化层，首先将所有的节点特征通过一个可训练变量p投影成1维数据，从而在根据生成的1 维数据来执行TopK池化操作，选择得分最高的节点； S2‑3、全连接层，设置三个全连接层在网络结构的末端，对特征进行扁平化操作，该操作将最终得到的图节点特征保存为一个固定大小的表示形式中； S2‑4、激活函数，在图卷积神经网络结构中，不同的位置输入不同的激活函数，在图卷积层、图池化层和前两层全连接层之间采用Tanh( ·)激活函数，定义如公式所示，在全连接层最后输出的时候采用Sigmoid( ·)函数，定义如公式所示； S2‑5、损失函数，采用的交叉熵损失函数，定义公式为：其中nk表示第k 个主从式机器人系统客户端拥有的数据量， lk表示对应的损失函数； S2‑6、网络优化器，采用改进的自适应网络优化器AMSGrad。 5.根据权利要求4所述的一种基于联邦学习的机器人协同控制算法，其特征在于，所述 S2‑6中梯度更新如公式所示，其中m为梯度的一阶矩估计即梯度的均值， V为梯度的二阶矩估计即梯度的有偏方差，为更新之后的梯度的有偏方差， g为梯度， t表示当前学习的迭代次数， ⊙是一种同位元素相乘的乘法，权　利　要　求　书 2/3 页 3 CN 114117926 A 3

专利 一种基于联邦学习的机器人协同控制算法

专利一种基于联邦学习的机器人协同控制算法