(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111670694.6
(22)申请日 2021.12.31
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 俞俊 刘贝利 丁佳骏 范建平
付圣祺 沈铭
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
代理人 朱月芬
(51)Int.Cl.
G06V 10/774(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于分布估计的条件生成对抗网络文
本生成图像方法
(57)摘要
本发明公开了一种基于分布估计的条件生
成对抗网络文本生成图像方法用。 本发明步骤如
下: 步骤(1)、 数据预处理, 提取文本 数据的特征;
步骤(2)、 建立多阶段的无条件和有条件联合生
成对抗神经网络和损失函数; 步骤(3)、 引入基于
分布估计的损 失函数; 步骤(4)、 模型训练; 根据
得到的新的损失函数, 在训练过程中对判别器Di
和生成器Gi进行交替训练。 本发明损失隐式地体
现了单个文本生成无限次图像的影 响, 优化的目
标为单个文本描述生成图像的特征分布。 通过估
计单个文本描述生成的 图像的特征分布, 来实现
损失计算及梯度信息回传。 在 多个模型和数据集
上的实验表明, 基于分布估计的新损失函数能够
有效提升文本生成图像模型的性能。
权利要求书3页 说明书8页 附图1页
CN 114332565 A
2022.04.12
CN 114332565 A
1.一种基于分布估计的条件生成对抗网络文本生成图像方法, 其特征在于包括如下步
骤:
步骤(1)、 数据预处 理, 提取文本数据的特 征;
步骤(2)、 建立多阶段的无 条件和有条件联合 生成对抗神经网络和损失函数;
步骤(3)、 引入基于分布估计的损失函数;
步骤(4)、 模型训练; 根据得到的新的损失函数, 在训练过程中对判别器Di和生成器Gi进
行交替训练。
2.根据权利要求书1所述的一种基于分布估计的条件生成对抗网络文本生成图像方
法, 其特征在于步骤(1)具体实现如下:
引文数据 集CUB‑200是包含200类的鸟类图像, 总计11788张图像; 按照指定的划分训练
集和验证集, 训练集包含8,855张图像, 2,933张图像作为测试集; 每张图像描述了一个单一
的物体(鸟), 每张图像有10个相关的文本描述; 由于该数据集中80%的鸟类的对象和图像
大小比小于0.5, 对数据进行预处理, 裁剪所有图像, 以确保鸟类的边界框的对象和图像大
小比大于 0.75; 使用的真实图像的大小为2 99×299;
COCO由大约123k张图像组成, 每张图像有5个描述; 其中80k的图像被划分为训练集,
40k的图像用作测试集;
对数据集中的自然语言文本描述进行文本特征集合的提取, 使用一个预训练好的双向
的长短期记忆网络从文本描述中提取文本特征集合, 文本特征集合包含单词的特征和句子
的特征; 在双向长短期记忆网络中, 每个单词对应两个隐藏状态, 每个方向对应一个状态;
因此, 连接它的两个隐藏状态作为一个单词的特征, 最后得到 一个单词特征矩阵e∈RD×T, 其
中矩阵的第i列向量ei表示第i个单词的特征, D=256表示单词特征的维度, T=25是单词的
数量; 同时, 将双向的长短期记忆网络的最后一层隐藏状态连接起来, 作为全局句子特征
3.根据权利要求书1或2所述的一种基于分布估计的条件生成对抗网络文本生成图像
方法, 其特 征在于步骤(2)具体实现如下:
2‑1采用DM‑GAN作为基准模型, 多阶段的层叠网络通过堆叠生成器和判别器来提高图
像的分辨率; 对于模型的生成器, 给定随机噪声z~N(0,1)和条件变量c, 维度分别是100和
256维;
通过F0和Fi得到下一阶段生成器的输入h0=F0(c,z)、 hi=Fi(hi‑1,z), hi‑1输入下一阶段
生成器网络Fi得到hi, 其中Fi是生成器中 的神经网络; F0由一个全连接层和四层卷积网络构
成, Fi由动态内存写入机制、 两个残差模块和一个卷积层 构成; 对于生成器Gi, 生成多阶段 分
辨率的图像
的分别率大小分别是64 ×64,128×128和256×256
2‑2联合有条件和无条件生成对抗神经网络共同训练, 模型的目标函数包含两项内容,
分别是无条件损失和条件损失; 第i个阶段判别器Di的损失定义如下:
权 利 要 求 书 1/3 页
2
CN 114332565 A
2相应的第i个阶段的生成器Gi的损失也是由两 部分的损失组成,
其中xi是来自第i个阶段真实图像分布
的图像, si是生成器Gi生成的第i阶段的虚
假图像, c是 条件变量, E表示 求数学期望。
4.根据权利要求书3所述的一种基于分布估计的条件生成对抗网络文本生成图像方
法, 其特征在于步骤(3)具体实现如下:
为了实现对单个文本描述生成的图像进行整体优化, 使用之前推导出的新的损失函
数, 该损失为一个易于计算的上界, 是以概率分布的形式来隐式体现单个文本生成大量图
像的影响; 生成器的损失
定义如下:
其中wu, bu和wc, bc分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的
权重和偏差;
是无条件生成对抗神经网络生成的图像, 经过判别器Di最后一层网络前的特
征;
是条件生成对抗神 经网络生成的图像, 经过判别器Di最后一层网络前的特征; 其中i
表示第i个阶段, E表示 求相应的数 学期望, N表示样本个数;
假定单个文本描述生成的图像的特征都属于一个高斯分布, 即
和
这里通过单个文本描述生成M ′次图像的来估计两个分布的均值和协方差
矩阵, 其中M ′=4;
生成器的损失
在M趋向无穷后, 推导出一个易于计算的形式, 生成器的无条件损失和
条件损失最后分别定义 为如下:
对于判别器Di的条件和无 条件损失, 通过同样的数 学推导得到相应的损失上界, 即:
权 利 要 求 书 2/3 页
3
CN 114332565 A
3
专利 一种基于分布估计的条件生成对抗网络文本生成图像方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:47:12上传分享