专利 一种基于分布估计的条件生成对抗网络文本生成图像方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111670694.6 (22)申请日 2021.12.31 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人俞俊　刘贝利　丁佳骏　范建平　付圣祺　沈铭　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人朱月芬 (51)Int.Cl. G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于分布估计的条件生成对抗网络文本生成图像方法 (57)摘要本发明公开了一种基于分布估计的条件生成对抗网络文本生成图像方法用。本发明步骤如下：步骤(1)、数据预处理，提取文本数据的特征；步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络和损失函数；步骤(3)、引入基于分布估计的损失函数；步骤(4)、模型训练；根据得到的新的损失函数，在训练过程中对判别器Di 和生成器Gi进行交替训练。本发明损失隐式地体现了单个文本生成无限次图像的影响，优化的目标为单个文本描述生成图像的特征分布。通过估计单个文本描述生成的图像的特征分布，来实现损失计算及梯度信息回传。在多个模型和数据集上的实验表明，基于分布估计的新损失函数能够有效提升文本生成图像模型的性能。权利要求书3页说明书8页附图1页 CN 114332565 A 2022.04.12 CN 114332565 A 1.一种基于分布估计的条件生成对抗网络文本生成图像方法，其特征在于包括如下步骤：步骤(1)、数据预处理，提取文本数据的特征；步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络和损失函数；步骤(3)、引入基于分布估计的损失函数；步骤(4)、模型训练；根据得到的新的损失函数，在训练过程中对判别器Di和生成器Gi进行交替训练。 2.根据权利要求书1所述的一种基于分布估计的条件生成对抗网络文本生成图像方法，其特征在于步骤(1)具体实现如下：引文数据集CUB‑200是包含200类的鸟类图像，总计11788张图像；按照指定的划分训练集和验证集，训练集包含8,855张图像， 2,933张图像作为测试集；每张图像描述了一个单一的物体(鸟)，每张图像有10个相关的文本描述；由于该数据集中80％的鸟类的对象和图像大小比小于0.5，对数据进行预处理，裁剪所有图像，以确保鸟类的边界框的对象和图像大小比大于 0.75；使用的真实图像的大小为2 99×299； COCO由大约123k张图像组成，每张图像有5个描述；其中80k的图像被划分为训练集， 40k的图像用作测试集；对数据集中的自然语言文本描述进行文本特征集合的提取，使用一个预训练好的双向的长短期记忆网络从文本描述中提取文本特征集合，文本特征集合包含单词的特征和句子的特征；在双向长短期记忆网络中，每个单词对应两个隐藏状态，每个方向对应一个状态；因此，连接它的两个隐藏状态作为一个单词的特征，最后得到一个单词特征矩阵e∈RD×T，其中矩阵的第i列向量ei表示第i个单词的特征， D＝256表示单词特征的维度， T＝25是单词的数量；同时，将双向的长短期记忆网络的最后一层隐藏状态连接起来，作为全局句子特征 3.根据权利要求书1或2所述的一种基于分布估计的条件生成对抗网络文本生成图像方法，其特征在于步骤(2)具体实现如下： 2‑1采用DM‑GAN作为基准模型，多阶段的层叠网络通过堆叠生成器和判别器来提高图像的分辨率；对于模型的生成器，给定随机噪声z～N(0,1)和条件变量c，维度分别是100和 256维；通过F0和Fi得到下一阶段生成器的输入h0＝F0(c,z)、 hi＝Fi(hi‑1,z)， hi‑1输入下一阶段生成器网络Fi得到hi，其中Fi是生成器中的神经网络； F0由一个全连接层和四层卷积网络构成， Fi由动态内存写入机制、两个残差模块和一个卷积层构成；对于生成器Gi，生成多阶段分辨率的图像的分别率大小分别是64 ×64,128×128和256×256 2‑2联合有条件和无条件生成对抗神经网络共同训练，模型的目标函数包含两项内容，分别是无条件损失和条件损失；第i个阶段判别器Di的损失定义如下：权　利　要　求　书 1/3 页 2 CN 114332565 A 2相应的第i个阶段的生成器Gi的损失也是由两部分的损失组成，其中xi是来自第i个阶段真实图像分布的图像， si是生成器Gi生成的第i阶段的虚假图像， c是条件变量， E表示求数学期望。 4.根据权利要求书3所述的一种基于分布估计的条件生成对抗网络文本生成图像方法，其特征在于步骤(3)具体实现如下：为了实现对单个文本描述生成的图像进行整体优化，使用之前推导出的新的损失函数，该损失为一个易于计算的上界，是以概率分布的形式来隐式体现单个文本生成大量图像的影响；生成器的损失定义如下：其中wu， bu和wc， bc分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的权重和偏差；是无条件生成对抗神经网络生成的图像，经过判别器Di最后一层网络前的特征；是条件生成对抗神经网络生成的图像，经过判别器Di最后一层网络前的特征；其中i 表示第i个阶段， E表示求相应的数学期望， N表示样本个数；假定单个文本描述生成的图像的特征都属于一个高斯分布，即和这里通过单个文本描述生成M ′次图像的来估计两个分布的均值和协方差矩阵，其中M ′＝4；生成器的损失在M趋向无穷后，推导出一个易于计算的形式，生成器的无条件损失和条件损失最后分别定义为如下：对于判别器Di的条件和无条件损失，通过同样的数学推导得到相应的损失上界，即：权　利　要　求　书 2/3 页 3 CN 114332565 A 3

专利 一种基于分布估计的条件生成对抗网络文本生成图像方法

专利一种基于分布估计的条件生成对抗网络文本生成图像方法