团体标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111670694.6 (22)申请日 2021.12.31 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 俞俊 刘贝利 丁佳骏 范建平  付圣祺 沈铭  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱月芬 (51)Int.Cl. G06V 10/774(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于分布估计的条件生成对抗网络文 本生成图像方法 (57)摘要 本发明公开了一种基于分布估计的条件生 成对抗网络文本生成图像方法用。 本发明步骤如 下: 步骤(1)、 数据预处理, 提取文本 数据的特征; 步骤(2)、 建立多阶段的无条件和有条件联合生 成对抗神经网络和损失函数; 步骤(3)、 引入基于 分布估计的损 失函数; 步骤(4)、 模型训练; 根据 得到的新的损失函数, 在训练过程中对判别器Di 和生成器Gi进行交替训练。 本发明损失隐式地体 现了单个文本生成无限次图像的影 响, 优化的目 标为单个文本描述生成图像的特征分布。 通过估 计单个文本描述生成的 图像的特征分布, 来实现 损失计算及梯度信息回传。 在 多个模型和数据集 上的实验表明, 基于分布估计的新损失函数能够 有效提升文本生成图像模型的性能。 权利要求书3页 说明书8页 附图1页 CN 114332565 A 2022.04.12 CN 114332565 A 1.一种基于分布估计的条件生成对抗网络文本生成图像方法, 其特征在于包括如下步 骤: 步骤(1)、 数据预处 理, 提取文本数据的特 征; 步骤(2)、 建立多阶段的无 条件和有条件联合 生成对抗神经网络和损失函数; 步骤(3)、 引入基于分布估计的损失函数; 步骤(4)、 模型训练; 根据得到的新的损失函数, 在训练过程中对判别器Di和生成器Gi进 行交替训练。 2.根据权利要求书1所述的一种基于分布估计的条件生成对抗网络文本生成图像方 法, 其特征在于步骤(1)具体实现如下: 引文数据 集CUB‑200是包含200类的鸟类图像, 总计11788张图像; 按照指定的划分训练 集和验证集, 训练集包含8,855张图像, 2,933张图像作为测试集; 每张图像描述了一个单一 的物体(鸟), 每张图像有10个相关的文本描述; 由于该数据集中80%的鸟类的对象和图像 大小比小于0.5, 对数据进行预处理, 裁剪所有图像, 以确保鸟类的边界框的对象和图像大 小比大于 0.75; 使用的真实图像的大小为2 99×299; COCO由大约123k张图像组成, 每张图像有5个描述; 其中80k的图像被划分为训练集, 40k的图像用作测试集; 对数据集中的自然语言文本描述进行文本特征集合的提取, 使用一个预训练好的双向 的长短期记忆网络从文本描述中提取文本特征集合, 文本特征集合包含单词的特征和句子 的特征; 在双向长短期记忆网络中, 每个单词对应两个隐藏状态, 每个方向对应一个状态; 因此, 连接它的两个隐藏状态作为一个单词的特征, 最后得到 一个单词特征矩阵e∈RD×T, 其 中矩阵的第i列向量ei表示第i个单词的特征, D=256表示单词特征的维度, T=25是单词的 数量; 同时, 将双向的长短期记忆网络的最后一层隐藏状态连接起来, 作为全局句子特征 3.根据权利要求书1或2所述的一种基于分布估计的条件生成对抗网络文本生成图像 方法, 其特 征在于步骤(2)具体实现如下: 2‑1采用DM‑GAN作为基准模型, 多阶段的层叠网络通过堆叠生成器和判别器来提高图 像的分辨率; 对于模型的生成器, 给定随机噪声z~N(0,1)和条件变量c, 维度分别是100和 256维; 通过F0和Fi得到下一阶段生成器的输入h0=F0(c,z)、 hi=Fi(hi‑1,z), hi‑1输入下一阶段 生成器网络Fi得到hi, 其中Fi是生成器中 的神经网络; F0由一个全连接层和四层卷积网络构 成, Fi由动态内存写入机制、 两个残差模块和一个卷积层 构成; 对于生成器Gi, 生成多阶段 分 辨率的图像 的分别率大小分别是64 ×64,128×128和256×256 2‑2联合有条件和无条件生成对抗神经网络共同训练, 模型的目标函数包含两项内容, 分别是无条件损失和条件损失; 第i个阶段判别器Di的损失定义如下: 权 利 要 求 书 1/3 页 2 CN 114332565 A 2相应的第i个阶段的生成器Gi的损失也是由两 部分的损失组成, 其中xi是来自第i个阶段真实图像分布 的图像, si是生成器Gi生成的第i阶段的虚 假图像, c是 条件变量, E表示 求数学期望。 4.根据权利要求书3所述的一种基于分布估计的条件生成对抗网络文本生成图像方 法, 其特征在于步骤(3)具体实现如下: 为了实现对单个文本描述生成的图像进行整体优化, 使用之前推导出的新的损失函 数, 该损失为一个易于计算的上界, 是以概率分布的形式来隐式体现单个文本生成大量图 像的影响; 生成器的损失 定义如下: 其中wu, bu和wc, bc分别是无条件和有条件生成对抗神经网络的判别器网络最后一层的 权重和偏差; 是无条件生成对抗神经网络生成的图像, 经过判别器Di最后一层网络前的特 征; 是条件生成对抗神 经网络生成的图像, 经过判别器Di最后一层网络前的特征; 其中i 表示第i个阶段, E表示 求相应的数 学期望, N表示样本个数; 假定单个文本描述生成的图像的特征都属于一个高斯分布, 即 和 这里通过单个文本描述生成M ′次图像的来估计两个分布的均值和协方差 矩阵, 其中M ′=4; 生成器的损失 在M趋向无穷后, 推导出一个易于计算的形式, 生成器的无条件损失和 条件损失最后分别定义 为如下: 对于判别器Di的条件和无 条件损失, 通过同样的数 学推导得到相应的损失上界, 即: 权 利 要 求 书 2/3 页 3 CN 114332565 A 3

.PDF文档 专利 一种基于分布估计的条件生成对抗网络文本生成图像方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分布估计的条件生成对抗网络文本生成图像方法 第 1 页 专利 一种基于分布估计的条件生成对抗网络文本生成图像方法 第 2 页 专利 一种基于分布估计的条件生成对抗网络文本生成图像方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:47:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。