团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111679605.4 (22)申请日 2021.12.31 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 沙煜 张绪杰 谢震宇 梁小丹 (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 禹小明 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/56(2019.01) G06F 16/55(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多模态编码本的跨模态人物服装 设计生成方法 (57)摘要 本发明公开了一种基于多模态编码本的跨 模态人物服装设计生成方法, 包括步骤如下: 将 第一目标衣服图像输入图像编码器, 编码得到特 征向量图, 构造一个第一特征编码本; 将特征向 量图离散化后, 从第一特征编码 本中选取不同的 离散化编码, 组合得到离散化后的编码特征图; 将编码特征图输入解码器进行解码, 解码得到复 原后的第二目标衣服图像, 并对第二目标衣服图 像进行分块损失计算, 并通过反向梯度传播, 分 步更新图像编码器、 解码器; 利用标记性对比损 失来学习视觉特征和单词嵌入之间的对应关系 进行训练, 得到富含语义和图像信息的第二特征 编码本; 通过输入目标图像训练基于注意力机制 的神经网络去预测图像中的序列, 从第二特征编 码本中采样得到序列值, 用第二解码器解码序列 值输出得到最后的图像 。 权利要求书3页 说明书9页 附图5页 CN 114491125 A 2022.05.13 CN 114491125 A 1.一种基于多模态编码本的跨模态人物服装设计生成方法, 其特征在于: 所述的方法 包括步骤如下: S1: 将第一目标衣服图像输入图像编码器, 编码得到特征向量图, 构造一个第一特征编 码本; 将特征向量图离散化后, 从第一特征编 码本中选取不同的离散化编 码, 组合得到离散 化后的编码特 征图; S2: 将编码特征图输入解码器进行解码, 解码得到复原后的第 二目标衣服图像, 并对第 二目标衣服图像进行分块损失计算, 并通过反向梯度传播, 分步更新图像编码器、 解码器; S3: 利用标记性对比损失来学习视觉特征和单词嵌入之间的对应关系进行训练, 得到 富含语义和图像信息的第二特 征编码本; S4: 通过输入目标图像训练基于注意力机制的神经网络, 从而去预测目标图像中的序 列, 从第二特 征编码本中采样得到序列值, 用第二 解码器解码序列值输出 得到最后的图像。 2.根据权利要求1所述的基于多模态编码本的跨模态人物服装设计生成方法, 其特征 在于: 步骤S1, 具体如下: S101: 输入第一目标衣物图像, 使用多层卷积网络构成的图像编码器, 并利用图像编码 器进行编码, 得到第一目标衣物图像的特 征向量图; S102: 对得到特征向量图进行离散化, 将特征向量图分块划分, 通过计算每块特征向量 与第一特征编码本中所有编码的距离值, 选取最近的距离值为该块的编码; 在第一特征编 码本中选取离 散化后的编码值, 构建一个编码图。 3.根据权利要求2所述的基于多模态编码本的跨模态人物服装设计生成方法, 其特征 在于: 步骤S2, 具体如下: S201: 构造一个基于多层卷积网络的解码器, 将编码特征图输入解码器进行解码, 得到 复原后的第二目标衣服图像; S202: 将第一目标衣服图像和复原后的第二目标衣服图像分别通过VGG16网络进行提 取特征, 计算第一目标衣服图像和复原后的第二目标衣服图像之间的视 觉损失; S203: 构造一个基于多层卷积网络的鉴别器, 对复原后的第二目标衣服图像分块划分, 输入鉴别器中分别判断真假, 并对输出值进 行结合, 得到对抗生成网络损失, 对损失进行反 向梯度传播, 分步更新图像编码器、 解码器和鉴别器的参数。 4.根据权利要求3所述的基于多模态编码本的跨模态人物服装设计生成方法, 其特征 在于: 步骤S3, 具体如下: S301: 在训练阶段, 给定图像 ‑文本对 图像Ik被多层卷积网络构成的图像编 码器编码为视觉特征 文本Tk被基于注意力机制的神经网络编码为文本特征 S302: 计算图像和文本之间的相似度, 并由此计算一个训练批次及其文本 ‑图像对应物 的图像‑文本标记相似度损失, 计算得到总损失函数; S303: 根据得到总损失函数进行梯度反向传播, 更新特征编码本, 得到第二特征编码 本。 5.根据权利要求4所述的基于多模态编码本的跨模态人物服装设计生成方法, 其特征 在于: 步骤S3 02, 计算图像和文本之间的相似度:权 利 要 求 书 1/3 页 2 CN 114491125 A 2其中, Ip为输入的第p张目标衣物图像, Tq为输入的第q段 文本, 为图片序列特 征值的转置值, 为文本序列特 征值, n1代表图像序列长度; 式(3)为Ip和Tq的相似度计算; 其中, n2代表文本序列长度; 式(4)为Tq和Ip的相似度计算; 式中, Ip为输入的第p张目标衣物图像, Tq为输入的第q段文本; 式(5)和式(6)表示 一个训练批次及其文本 ‑图像对应物的图像 ‑文本标记相似度损失; 总损失函数计算 为: 6.根据权利要求5所述的基于多模态编码本的跨模态人物服装设计生成方法, 其特征 在于: 步骤S4, 具体如下: S401: 将输入目标图像的文本、 轮廓或部分图像中的一项或多项转换为文本标记序列 和/或图像标记序列, 其中文本标记序列由基于注意力机制的编码 器直接获得; 对于图像序 列, 通过为每种类型 的目标图像学习一个特征编码本, 并将每个目标图像量化为离散的图 像序列; S402: 将不同的文本标记序列和图像标记序列组合在一起, 并使用一个特殊的标记 [SEP]来表示各模式之 间的分离; 组合序列形成跨模态序列, 并在训练过程中作为基于注 意 力机制的神经网络的条件输入, 对基于注意力机制的神经网络进行训练, 使所预测 生成的 基于各种目标图像的序列的对数似然值最大化, 即使训练损失最小化, 从第二特征编码本 中采样得到序列值, 最后输出 得到服装设计生成图像。 7.根据权利要求6所述的基于多模态编码本的跨模态人物服装设计生成方法, 其特征 在于: 用于训练基于注意力的神经网络的网络损失函数, 表示如下: p(s|c)=∏ip(si|s<i, c) (9) 其中, s表示预测的序列, c表示输入的条件序列, p为输入序列和输入序列相似的概率 值。 8.一种基于注意力 机制的跨模态服装设计生成系统, 其特征在于: 包括图像编码模块、 特征编码模块、 解码模块、 特 征编码本构造模块和序列预测模块; 其中, 所述的图像编码模块, 用于获取第一目标衣服图像, 并进行编码得到特 征向量图;权 利 要 求 书 2/3 页 3 CN 114491125 A 3
专利 一种基于多模态编码本的跨模态人物服装设计生成方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 21:47:22
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
DB37-T 4221.9-2020 政务信息资源 数据集 人口 第9部分 生育保险信息.pdf
DB11-T 1920-2021 行政检查数据规范 北京市.pdf
GB-T 11969-2020 蒸压加气混凝土性能试验方法.pdf
T-CCIASD 10005—2023 集装箱结构有限元分析指南.pdf
DB50-T 1474.3-2023 化粪池监控系统 第3部分:运行与管理 重庆市.pdf
GB-T 22264.5-2008 安装式数字显示电测量仪表 第5部分:相位表和功率因数表的特殊要求.pdf
DB32-T 4281-2022 江苏省建筑工程施工现场专业人员配备标准 江苏省.pdf
GB-T 31129-2014 制造业信息化标准体系结构.pdf
GB-T 23336-2022 半挂车通用技术条件.pdf
GB-T 29755-2013 中空玻璃用弹性密封胶.pdf
GB-T 43848-2024 网络安全技术 软件产品开源代码安全评价方法.pdf
SY-T 7644-2021 盐穴型储气库井筒及盐穴密封性检测技术规范.pdf
DL-T 932-2019 凝汽器与真空系统运行维护导则.pdf
GB-T 15909-2017 电子工业用气体 硅烷.pdf
GB-T 32658-2016 业余无线电设备射频技术要求及测试方法.pdf
T-ZJCX 0019—2022 鼻腔护理液.pdf
GB-T 37950-2019 信息安全技术 桌面云安全技术要求.pdf
GB-T 38590-2020 森林资源连续清查技术规程.pdf
GB-T 42097-2022 地上石油储 备 库完整性管理规范.pdf
YD-T 4204-2023 5G移动通信网络设备安全保障要求 核心网网络功能.pdf
1
/
3
18
评价文档
赞助2元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。