专利 一种面向向量处理器的半精度向量化conv1×1卷积方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111681136.X (22)申请日 2021.12.3 0 (65)同一申请的已公布的文献号申请公布号 CN 114330669 A (43)申请公布日 2022.04.12 (73)专利权人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人许金伟　李娅琳　姜晶菲　苏华友　乔鹏　王庆林　李荣春　高蕾　窦勇　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师田达兵(51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 3/063(2006.01) G06F 15/80(2006.01) 审查员沈晴 (54)发明名称一种面向向量处理器的半精度向量化conv1 ×1卷积方法及系统 (57)摘要本发明公开了一种面向向量处理器的半精度向量化conv1 ×1卷积方法及系统，方法包括：将半精度权值数据和半精度输入数据存储在双倍速率同步动态随机存储器中；调用直接存储器访问操作，将半精度权值数据和半精度输入数据从双倍速率同步动态随机存储器分别加载到片上标量存储器SM空间和片上阵列存储器A M空间；在SM空间中，对加载到片上SM空间的权值数据进行向量化处理，在AM空间中，将向量化处理后的权值数据与AM空间上的输入数据做卷积操作 conv1×1，得到卷积后的特征图数据。本发明能够结合向量处理器的体系结构特征，将卷积计算 (conv1×1)面向向量处理器体系结构向量化，在保证精度的前提下实现了FLOPs的提升。权利要求书5页说明书11页附图9页 CN 114330669 B 2022.09.16 CN 114330669 B 1.一种面向向量处理器的半精度向量化conv1×1卷积方法，其特征在于，包括：将半精度权值数据和半精度输入数据存储在双倍速率同步动态随机存储器中；调用直接存储器访问操作，将所述半精度权值数据和半精度输入数据从所述双倍速率同步动态随机存储器分别加载到片上标量存储器SM空间和片上阵列存储器AM空间；在SM空间中，对加载到片上SM空间的权值数据进行向量化处理，在AM空间中，将向量化处理后的权值数据与AM空间上的输入数据做卷积操作conv1 ×1，得到卷积后的特征图数据；其中，所述半精度权值数据Weightddr的数据格式为[Co， Cin， ks， ks]， Co为输出通道数， Cin为输入通道数， ks为卷积核大小，当卷积核大小为1时，数据格式可视为[Co， Cin]，故所述权值数据可表示为矩阵Weightddr＝M×K，所述半精度输入数据Inputddr的数据格式为 [Cin， Hi， Wi， n]， Hi和Wi分别为图像的高和宽， n为卷积操作中一次批量处理的数量，可将 [Hi， Wi， n]看做一维，令N＝Hi ×Wi×n，故输入数据可表示为矩阵Inputddr＝K×N，其中， M表示Co， K表示Ci n， N表示图像维度的大小。 2.根据权利要求1所述的方法，其特征在于，所述调用直接存储器访问操作，将所述半精度权值数据和半精度输入数据从所述双倍速率同步动态随机存储器分别加载到片上标量存储器SM空间和片上阵列存储器AM空间，包括：调用直接存储器访问操作，将半精度权值矩阵Wddr加载到片上SM空间中，将原数据从M 维划分为x1个Wbsm矩阵，变为Wsm＝x1×Wbsm， Wbsm＝m×K，其中m的大小由SM的空间大小和AM空间的大小综合决定；调用直接存储器访问操作，将半精度输入矩阵Iddr加载到片上AM空间中，将原数据从N 维划分为x2个Ibam矩阵，变为Iam＝x2×Ibam，其中Ibam＝K×n，即N＝x2×n，其中n＝P ×L×4， p表示向量处理器的体系结构中向量功能运算单元部件的数量， L表示向量处理部件的数量。 3.根据权利要求2所述的方法，其特征在于，所述在SM空间中，对加载到片上SM空间的权值数据进行向量化处理，在AM空间中，将向量化处理后的权值数据与AM空间上的输入数据做卷积操作conv1×1，得到卷积后的特征图数据，包括以下步骤：步骤1、初始化 i＝0，其中， i表示权值子块矩阵Wbsm(i)在M维上的块索引；步骤2、初始化j＝0，其中， j表示输入子块矩阵Ibam(j)在N维上的块索引；步骤3、初始化k＝0，其中， k表示权值子块Wbsm的列索引和输入子块Ibam的行索引， m1表示权值子块的行索引， n1表示输入子块的列索引，即，权值子块表示为Wbsm(i， m1， k)，输入子块表示为Ibam(j， k， n1)；步骤4、将向量寄存器初始化为0，以便向量寄存器累加并存储计算结果；步骤5、标量加载指令的最小粒度为4字节，半精度数据为2字节，单次将加载两个半精度数据到指定标量寄存器的R[0： 15]和R[16： 31]，将所述SM空间中的权值子块Wbsm(i)的第k 列数据Wbsm(i， 0， k)......Wbsm(i， m‑1， k)依次加载到标量寄存器R30、 R31...R30+m‑1的R[0： 15]中，同时权值子块Wbsm(i)的第k+1列数据Wbsm(i， 0， k+1)......Wbsm(i， m‑1， k+1)依次加载到标量寄存器 R30、 R31...R30+m‑1的R[16： 31]中；步骤6、基于标量寄存器R30、 R31...R30+m‑1存放的半精度权值数据，对标量寄存器R30、权　利　要　求　书 1/5 页 2 CN 114330669 B 2R31...R30+m‑1进行低位扩展操作，将寄存器中低32位中低16 位数据R[0： 15]复制扩展为d位数据存储在标量寄存器R40、 R41...R40+m‑1中，其中， d为一个标量寄存器的位长；步骤7、基于标量寄存器R40、 R41...R40+m‑1存放的复制扩展后的数据，对标量寄存器R40、 R41...R40+m‑1依次进行广播操作并将数据储存在向量寄存器VR50、 VR51...VR50+m‑1中， L个向量处理部件存储相同的数据， Wbsm(i)的第k列数据向量化完成；步骤8、将所述AM空间中的输入子块矩阵Iba m (j)的第k行数据Iba m (j ， k ， 0) ......Ibam(j， k， n ‑1)加载到p个向量寄存器VR0、 VR1...VRp‑1中， p表示超长数据指令字的体系结构中功能向量运算单元部件的数量，单次加载最小粒度为个字节，故单次最少可加载个半精度数据；步骤9、将Wbsm(i， 0， k)向量化后的数据VR50分别与Ibam(j)的第k行数据VR0、 VR1...VRp‑1做乘加操作，同时L个向量处理部件并行操作，将计算结果存在向量寄存器VR10、 VR11...VR10+p‑1 中；步骤10、基于向量寄存器VR51...VR50+m‑1储存的是权值子块Wbsm(i， 1， k)......Wbsm(i， m‑1， k) 的向量化数据，向量寄存器VR0、 VR1...VRp‑1中储存的是输入子块Ibam(j)的第k行数据，重复步骤9，将权值的各组向量化数据分别与Ibam(j)的第k行数据相乘，并将相乘结果累加到向量寄存器VR10+p、 VR10+p+1....VR10+m×p‑1上，该过程L个向量处理部件同时并行操作，遍历Wbsm(i) 的第k列数据，直至Wbsm(i)的第k列和Ibam(j)的k行的乘加计算完成；步骤11、判断k+1是否小于K，若是，则跳转执行步骤19，若否，则继续执行步骤12；步骤12、基于标量寄存器R30、 R31...R30+m‑1的R[16： 31]中存放的Wbsm(i， 1， k+1) ......Wbsm(i， m‑1， k+1)数据，对标量寄存器R30、 R31...R30+m‑1进行高位扩展操作，将寄存器中低 32位中高16位数据R[16： 31]，复制扩展为d位数据存储在标量寄存器R40、 R41...R40+m‑1中， d 为一个标量寄存器的位长；步骤13、基于标量寄存器R40、 R41...R40+m‑1存放的复制扩展后的数据，对标量寄存器R40、 R41...R40+m‑1依次进行广播操作，将广播后的数据储存在向量寄存器VR50、 VR51...VR50+m‑1中， L个向量处理部件存储相同的数据， Wbsm(i)的第k+1列数据向量化完成；步骤14、将所述AM空间中的输入子块矩阵Ibam(j)的第k+1行数据Ibam(j， k+1， 0) ......Ibam(j， k+1， n ‑1)加载到p个向量寄存器VR0、 VR1...VRp‑1中， p表示超长数据指令字的体系结构中功能向量运算单元部件的数量，单次加载最小粒度为个字节，故单次最少可加载个半精度数据；步骤15、将Wbsm(i， 0， k+1)向量化后的数据VR50分别与Ibam(j)的第k+1行数据 VR0、 VR1...VR

专利 一种面向向量处理器的半精度向量化conv1×1卷积方法及系统

专利一种面向向量处理器的半精度向量化conv1×1卷积方法及系统