团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111663219.6 (22)申请日 2021.12.3 0 (71)申请人 山东师范大学 地址 250014 山东省济南市历下区文化 东 路88号 (72)发明人 张化祥 董新锋 刘丽 孙建德  朱磊 于治楼 金圣开  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 闫圣娟 (51)Int.Cl. G06F 16/903(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) (54)发明名称 一种基于 分层特征聚合的图像-文本匹配方 法及系统 (57)摘要 本发明公开一种基于分层特征聚合的图像 ‑ 文本匹配方法及系统, 包括: 对图像和文本经预 处理后得到图像场景图和文本场景图; 对图像场 景图和文本场景图分别进行分层特征聚合, 得到 每个对象的属性及对象间的关系, 以此重构得到 图像模态的对象特征和文本模态的对象特征; 将 图像模态的对象特征和文本模态的对象特征进 行多模态特征融合, 将融合特征映射至公共空 间, 在公共空间中测量不同模态间的距离, 根据 距离进行图像和文本的匹配。 分层聚合每个对象 节点上的属性信息和对象间的关系信息, 以保证 对象语义的完整性, 然后仅利用对象节点的特征 进行特征融合, 有效降低跨模态匹配的复杂性, 提高算法的效率。 权利要求书1页 说明书11页 附图1页 CN 114491174 A 2022.05.13 CN 114491174 A 1.一种基于分层特 征聚合的图像 ‑文本匹配方法, 其特 征在于, 包括: 对图像和文本经 预处理后得到图像场景图和文本场景图; 对图像场景图和文本场景图分别进行分层特征聚合, 得到每个对象的属性及对象间的 关系, 以此重构得到图像模态的对象特 征和文本模态的对象特 征; 根据图像模态的对象特征和文本模态的对象特征进行多模态特征融合, 将融合特征映 射至公共空间, 在公共空间中测量 不同模态间的距离, 根据距离进行图像和文本的匹配。 2.如权利要求1所述的一种基于分层特征聚合的图像 ‑文本匹配方法, 其特征在于, 重 构图像模态的对 象特征的过程包括: 采用属 性聚合器对图像场景图进行分层特征聚合, 对 图像场景图中每个对象的属性进行平均池操作, 继而通过全连接网络得到对象的属性特 征, 将对象的属性特征再次通过全连接网络得到第二属 性特征, 根据对 象的属性特征和第 二属性特 征进行对象特 征的更新。 3.如权利要求1所述的一种基于分层特征聚合的图像 ‑文本匹配方法, 其特征在于, 重 构文本模态的对 象特征的过程包括: 获取对 象的关系信息, 根据对 象的关系信息得到对 象 的关系特 征, 根据对象的关系信息和对象的关系特 征得到对象特 征。 4.如权利要求1所述的一种基于分层特征聚合的图像 ‑文本匹配方法, 其特征在于, 多 模态特征融合的过程包括: 采用Tr ansformer模型将图像模态的对象特征和文本模态的全 局特征进行多模态特 征融合后, 得到图像融合特 征。 5.如权利要求4所述的一种基于分层特征聚合的图像 ‑文本匹配方法, 其特征在于, 文 本模态的全局特征为: 获取文本中每个单词的嵌入向量表示, 根据嵌入向量表示得到句 子 上下文表示, 根据句子上 下文表示得到全局特 征。 6.如权利要求1所述的一种基于分层特征聚合的图像 ‑文本匹配方法, 其特征在于, 多 模态特征融合的过程包括: 采用Tr ansformer模型将文本模态的对象特征和图像模态的全 局特征进行多模态特 征融合后, 得到文本融合特 征。 7.如权利要求6所述的一种基于分层特征聚合的图像 ‑文本匹配方法, 其特征在于, 图 像模态的全局特征为: 提取图像的目标对象特征, 对目标对象特征进 行线性变换后, 映射到 多维空间中, 继而对目标对象特 征使用全局平均池得到全局特 征。 8.一种基于分层特 征聚合的图像 ‑文本匹配系统, 其特 征在于, 包括: 预处理模块, 被 配置为对图像和文本经 预处理后得到图像场景图和文本场景图; 分层特征聚合模块, 被配置为对图像场景图和文本场景图分别进行分层特征聚合, 得 到每个对象的属性及对象间的关系, 以此重构得到图像模态的对象特征和文本模态的对象 特征; 跨模态特征融合模块, 被配置为根据图像模态的对象特征和文本模态的对象特征进行 多模态特征融合, 将融合特征映射至公共空间, 在公共空间中测量不同模态间的距离, 根据 距离进行图像和文本的匹配。 9.一种电子设备, 其特征在于, 包括存储器和处理器以及存储在存储器上并在处理器 上运行的计算机指 令, 所述计算机指 令被处理器运行时, 完成权利要求 1‑7任一项所述的方 法。 10.一种计算机可读存储介质, 其特征在于, 用于存储计算机指令, 所述计算机指令被 处理器执行时, 完成权利要求1 ‑7任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 114491174 A 2一种基于分层特征 聚合的图像 ‑文本匹配方 法及系统 技术领域 [0001]本发明涉及跨模态检索技术领域, 特别是涉及一种基于分层特征聚合的图像 ‑文 本匹配方法及系统。 背景技术 [0002]本部分的陈述仅仅是提供了与本发明相关的背景技术信息, 不必然构成在先技 术。 [0003]跨模态检索是指给定一种模态的查询(如图片), 检索出与查询主题相关的所有模 态(如文本)内容。 对多媒体数据之间的关系建模的最大挑战是模态之间的异质性差距。 例 如图像表示通常是连续的, 而文本表 示通常是离散的。 为了解决这一问题, 一些方法利用现 有的预训练模型获取全局特征, 并将这些特征映射到一个公共空间中, 在这个空间中可以 直接比较多模态特 征。 [0004]但上述方法仅使用粗粒度的全局特征作为样本表示, 存在无法探索图像与句子之 间的交互的问题, 这 不利于准确地检索所需的多模态样本 。 [0005]为了更准确地对齐图像和文本, 一些学者提出了细粒度的方法。 但是, 在这些细粒 度的方法中存在一个缺点, 即仅仅对齐图像中的对 象, 段落中的文字不能结合更精确的高 阶信息, 如对象的属性信息和对象之间的关系信息, 不利于图像文本对齐; 同时在图像与文 本对齐时, 对象的属性与对象之间的关系对语义表达也有重要的影响。 发明内容 [0006]为了解决上述问题, 本发明提出了一种基于分层特征聚合的图像 ‑文本匹配方法 及系统, 分层聚合每个对 象节点上 的属性信息和对 象间的关系信息, 以保证对 象语义的完 整性, 然后仅利用对象节点的特征进 行特征融合, 有效降低跨模态匹配的复杂性, 提高算法 的效率。 [0007]为了实现上述目的, 本发明采用如下技 术方案: [0008]第一方面, 本发明提供一种基于分层特 征聚合的图像 ‑文本匹配方法, 包括: [0009]对图像和文本经 预处理后得到图像场景图和文本场景图; [0010]对图像场景图和文本场景图分别进行分层特征聚合, 得到每个对象的属性及对象 间的关系, 以此重构得到图像模态的对象特 征和文本模态的对象特 征; [0011]根据图像模态的对象特征和文本模态的对象特征进行多模态特征融合, 将融合特 征映射至公共空间, 在公共空间中测量不同模态间的距离, 根据距离进行图像和文本的匹 配。 [0012]作为可选择的实施方式, 重构图像模态的对象特征的过程包括: 采用属性聚合器 对图像场景图进行分层特征聚合, 对图像场景图中每个对 象的属性进行平均池操作, 继而 通过全连接网络得到对象的属性特征, 将对象的属性特征再次通过全连接网络得到第二属 性特征, 根据对象的属性特 征和第二属性特 征进行对象特 征的更新。说 明 书 1/11 页 3 CN 114491174 A 3

.PDF文档 专利 一种基于分层特征聚合的图像-文本匹配方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分层特征聚合的图像-文本匹配方法及系统 第 1 页 专利 一种基于分层特征聚合的图像-文本匹配方法及系统 第 2 页 专利 一种基于分层特征聚合的图像-文本匹配方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:47:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。