团体标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111681136.X (22)申请日 2021.12.3 0 (65)同一申请的已公布的文献号 申请公布号 CN 114330669 A (43)申请公布日 2022.04.12 (73)专利权人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区德雅路 109号 (72)发明人 许金伟 李娅琳 姜晶菲 苏华友  乔鹏 王庆林 李荣春 高蕾  窦勇  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 田达兵(51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 3/063(2006.01) G06F 15/80(2006.01) 审查员 沈晴 (54)发明名称 一种面向向量处理器的半精度向量化conv1 ×1卷积方法及系统 (57)摘要 本发明公开了一种面向向量处理器的半精 度向量化conv1 ×1卷积方法及系 统, 方法包括: 将半精度权值数据和半精度输入数据存储在双 倍速率同步动态随机存储器中; 调用直接存储器 访问操作, 将半精度权值数据和半精度输入数据 从双倍速率同步动态随机存储器分别加载到片 上标量存储器SM空间和片上阵列存储器A M空间; 在SM空间中, 对加载到片上SM空间的权值数据进 行向量化处理, 在AM空间中, 将向量化处理后的 权值数据与AM空间上的输入数据做卷积操作 conv1×1, 得到卷积后的特征图数据。 本发明能 够结合向量处理器的体系结构特征, 将卷积计算 (conv1×1)面向向量处理器体系结构向量化, 在 保证精度的前提下实现了FLOPs的提升 。 权利要求书5页 说明书11页 附图9页 CN 114330669 B 2022.09.16 CN 114330669 B 1.一种面向 向量处理器的半精度向量 化conv1×1卷积方法, 其特 征在于, 包括: 将半精度权值数据和半精度输入数据存 储在双倍速率同步动态随机存 储器中; 调用直接存储器访问操作, 将所述半精度权值数据和半精度输入数据从所述双倍速率 同步动态随机存 储器分别加载到片上 标量存储器SM空间和片上阵列存 储器AM空间; 在SM空间中, 对加载到片上SM空间 的权值数据进行向量化处理, 在AM空间中, 将向量化 处理后的权值数据与AM空间上的输入数据做卷积操作conv1 ×1, 得到卷积后的特征图数 据; 其中, 所述半精度权值数据Weightddr的数据格式为[Co, Cin, ks, ks], Co为输出通道数, Cin为输入通道数, ks为卷积核大小, 当卷积核大小为1时, 数据格式可视为[Co, Cin], 故所 述权值数据可表示为矩阵Weightddr=M×K, 所述半精度输入数据Inputddr的数据格式为 [Cin, Hi, Wi, n], Hi和Wi分别为图像的高和宽, n为卷积操作中一次批量处理的数量, 可将 [Hi, Wi, n]看做一维, 令N=Hi ×Wi×n, 故输入数据可表示为矩阵Inputddr=K×N, 其中, M表 示Co, K表示Ci n, N表示图像维度的大小。 2.根据权利要求1所述的方法, 其特征在于, 所述调用直接存储器访 问操作, 将所述半 精度权值数据和半精度输入数据从所述双倍速率同步动态随机存储器分别加载到片上标 量存储器SM空间和片上阵列存 储器AM空间, 包括: 调用直接存储器访问操作, 将半精度权值矩阵Wddr加载到片上SM空间中, 将原数据从M 维划分为x1个Wbsm矩阵, 变为Wsm=x1×Wbsm, Wbsm=m×K, 其中m的大小由SM的空间 大小和AM空间的大小综合决定; 调用直接存储器访问操作, 将半精度输入矩阵Iddr加载到片上AM空间中, 将原数据从N 维划分为x2个Ibam矩阵, 变为Iam=x2×Ibam, 其中Ibam=K×n, 即N=x2×n, 其中n=P ×L×4, p表示向量处理器的体系结构中向量功能运算单元部件的数量, L表示向量处 理部件的数量。 3.根据权利要求2所述的方法, 其特征在于, 所述在SM空间中, 对加载到片上SM空间的 权值数据进行向量化处理, 在AM空间中, 将向量化处理后的权值数据与AM空间上的输入数 据做卷积 操作conv1×1, 得到卷积后的特 征图数据, 包括以下步骤: 步骤1、 初始化 i=0, 其中, i表示权值子块矩阵Wbsm(i)在M维上的块索引; 步骤2、 初始化j=0, 其中, j表示输入子块矩阵Ibam(j)在N维上的块索引; 步骤3、 初始化k=0, 其中, k表示权值子块Wbsm的列索引和输入子块Ibam的行索引, m1表 示权值子块的行索引, n1表示输入子块的列索引, 即, 权值子块表示为Wbsm(i, m1, k), 输入子块 表示为Ibam(j, k, n1); 步骤4、 将向量寄存器初始化 为0, 以便向量寄存器累加并存 储计算结果; 步骤5、 标量加载指令的最小粒度为4字节, 半精度数据为2字节, 单次将加载两个半精 度数据到指定标量寄存器的R[0: 15]和R[16: 31], 将所述SM空间中的权值子块Wbsm(i)的第k 列数据Wbsm(i, 0, k)......Wbsm(i, m‑1, k)依次加载到 标量寄存器R30、 R31...R30+m‑1的R[0: 15]中, 同 时权值子块Wbsm(i)的第k+1列数据Wbsm(i, 0, k+1)......Wbsm(i, m‑1, k+1)依次加载到标量寄存器 R30、 R31...R30+m‑1的R[16: 31]中; 步骤6、 基于标量寄存器R30、 R31...R30+m‑1存放的半精度权值数据, 对标量寄存器R30、权 利 要 求 书 1/5 页 2 CN 114330669 B 2R31...R30+m‑1进行低位扩展操作, 将寄存器中低32位中低16 位数据R[0: 15]复制扩展为d位数 据存储在标量寄存器R40、 R41...R40+m‑1中, 其中, d为 一个标量寄存器的位长; 步骤7、 基于标量寄存器R40、 R41...R40+m‑1存放的复制扩展后的数据, 对标量寄存器R40、 R41...R40+m‑1依次进行广播操作并将数据储存在向量寄存器VR50、 VR51...VR50+m‑1中, L个向量 处理部件存储相同的数据, Wbsm(i)的第k列数据向量 化完成; 步骤8、 将所述AM空间中的输入子块矩阵Iba m (j)的第k行数据Iba m (j , k , 0) ......Ibam(j, k, n ‑1)加载到p个向量寄存器VR0、 VR1...VRp‑1中, p表示超长数据指令字的体系 结构中功能向量运算单元部件的数量, 单次加载最小粒度为 个字节, 故单次最少可加 载 个半精度数据; 步骤9、 将Wbsm(i, 0, k)向量化后的数据VR50分别与Ibam(j)的第k行数据VR0、 VR1...VRp‑1做乘 加操作, 同时L个向量处理部件并行操作, 将计算结果存在向量寄存器VR10、 VR11...VR10+p‑1 中; 步骤10、 基于向量寄存器VR51...VR50+m‑1储存的是权值子块Wbsm(i, 1, k)......Wbsm(i, m‑1, k) 的向量化数据, 向量寄存器VR0、 VR1...VRp‑1中储存的是输入子块Ibam(j)的第k行数据, 重复 步骤9, 将权值的各组向量化 数据分别与Ibam(j)的第k行数据相乘, 并将相乘结果累加到向量 寄存器VR10+p、 VR10+p+1....VR10+m×p‑1上, 该过程L个向量处理部件同时并行操作, 遍历Wbsm(i) 的第k列数据, 直至Wbsm(i)的第k列和Ibam(j)的k行的乘加计算完成; 步骤11、 判断k+1是否小于K, 若是, 则跳转执 行步骤19, 若否, 则继续执 行步骤12; 步骤12、 基于标量寄存器R30、 R31...R30+m‑1的R[16: 31]中存放的Wbsm(i, 1, k+1) ......Wbsm(i, m‑1, k+1)数据, 对标量寄存器R30、 R31...R30+m‑1进行高位扩展操作, 将寄存器中低 32位中高16位数据R[16: 31], 复制扩展为d位数据存储在标量寄存器R40、 R41...R40+m‑1中, d 为一个标量寄存器的位长; 步骤13、 基于标量寄存器R40、 R41...R40+m‑1存放的复制扩展后的数据, 对标量寄存器R40、 R41...R40+m‑1依次进行广播操作, 将广播后的数据储存在向量 寄存器VR50、 VR51...VR50+m‑1中, L个向量处 理部件存储相同的数据, Wbsm(i)的第k+1列数据向量 化完成; 步骤14、 将所述AM空间中的输入子块矩阵Ibam(j)的第k+1行数据Ibam(j, k+1, 0) ......Ibam(j, k+1, n ‑1)加载到p个向量 寄存器VR0、 VR1...VRp‑1中, p表示超长 数据指令字的体系 结构中功能向量运算单元部件的数量, 单次加载最小粒度为 个字节, 故单次最少可加 载 个半精度数据; 步骤15、 将Wbsm(i, 0, k+1)向量化后的数据VR50分别与Ibam(j)的第k+1行数据 VR0、 VR1...VR

.PDF文档 专利 一种面向向量处理器的半精度向量化conv1×1卷积方法及系统

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向向量处理器的半精度向量化conv1×1卷积方法及系统 第 1 页 专利 一种面向向量处理器的半精度向量化conv1×1卷积方法及系统 第 2 页 专利 一种面向向量处理器的半精度向量化conv1×1卷积方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:49:14上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。