团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111665541.2 (22)申请日 2021.12.3 0 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 王若楠 王小捷 江会星 武威  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 王婷婷 (51)Int.Cl. G06F 40/166(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种视觉问答方法、 装置、 电子设备、 介质及 程序产品 (57)摘要 本申请提供了一种视觉问答方法、 装置、 电 子设备、 介质及程序产品, 涉及视觉问答技术领 域, 旨在提供一种自适应推理步数、 推理过程可 解释性强的视觉问答方法。 所述方法包括: 获得 图像和原始问题; 根据原始问题中的各个词语, 逐轮生成所述原始问题的多个子问题, 直到所述 原始问题中的各个词语所关联的子问题都已解 答为止, 停止子问题生成, 其中, 每一轮子问题是 根据所述图像、 所述原始问题、 全部历史子问题 和全部历史子问题的答案生成的; 根据所述图 像、 所述原始问题以及所述多个子问题, 生成所 述原始问题的答案 。 权利要求书2页 说明书10页 附图2页 CN 114444448 A 2022.05.06 CN 114444448 A 1.一种视 觉问答方法, 其特 征在于, 所述方法包括: 获得图像和原 始问题; 根据原始问题中的各个词语, 逐轮生成所述原始问题的多个子问题, 直到所述原始问 题中的各个词语所关联的子问题都已解答为止, 停止子问题 生成, 其中, 每一轮子问题是根 据所述图像、 所述原 始问题、 全部历史子问题和全部历史子问题的答案生成的; 根据所述图像、 所述原 始问题以及所述多个子问题, 生成所述原 始问题的答案 。 2.根据权利要求1所述的方法, 其特征在于, 根据所述图像、 所述原始问题以及所述多 个子问题, 生成所述原 始问题的答案, 包括: 将所述图像的原 始特征, 确定为所述图像在第一轮的特 征; 以每一轮为当前轮, 根据上一轮子问题的特 征, 更新所述图像在当前轮的特 征; 根据所述原始问题 的特征, 更新所述图像在最后一轮的特征, 得到所述图像的最终特 征; 根据所述原 始问题的特 征和所述图像的最终特 征, 生成所述原 始问题的答案 。 3.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 根据第一轮子问题的特 征和所述图像的原 始特征, 生成所述第一轮子问题的答案; 以每一轮为当前轮, 根据当前轮子问题的特征, 以及所述图像在当前轮的特征和在上 一轮的特 征, 生成所述当前轮子问题的答案 。 4.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获得样本图像和样本原 始问题; 生成所述样本原始问题的多个子样本问题, 并根据所述样本 图像, 生成所述样本原始 问题以及所述多个子样本问题各自的正确答案, 以构建训练样本; 将所述样本图像和所述样本原始问题输入预设模型, 得到所述预设模型中根据 所述样 本原始问题中的各个词语逐轮生成的多个预测子问题, 直到所述样本原始问题中的各个词 语所关联的预测子问题的预测答案都已生成为止, 停止预测子问题 生成, 其中, 每一轮预测 子问题是根据所述样本图像、 所述样本原始问题、 全部历史预测子 问题和全部历史预测子 问题的预测答案生成的; 根据所述样本原始问题以及所述多个子预测问题各自的正确答案, 对所述预设模型进 行训练, 得到 视觉问答模型; 根据原始问题中的各个词语, 逐轮生成所述原始问题的多个子问题, 根据 所述图像、 所 述原始问题以及所述多个子问题, 生成所述原 始问题的答案, 包括: 将所述图像和所述原始问题输入所述视觉问答模型, 以使所述视觉问答模型逐轮生成 所述原始问题的多个子问题, 进 而输出所述原始问题的答案 。 5.根据权利要求4所述的方法, 其特征在于, 根据 所述样本原始问题以及所述多个子预 测问题各自的正确答案, 对所述预设模型进行训练, 得到 视觉问答模型, 包括: 以每一轮为当前轮, 根据当前轮预测子问题的正确答案和所述预设模型在 当前轮输出 的预测答案, 得到 子问题损失值, 以更新所述预设模型的模型参数; 根据所述样本原始问题的正确答案和所述预设模型输出的针对所述样本原始问题的 预测答案, 得到样本原 始问题损失值, 以更新所述预设模型的模型参数; 在满足训练结束条件时, 将训练结束的预设模型确定为所述视 觉问答模型。权 利 要 求 书 1/2 页 2 CN 114444448 A 26.根据权利要求5所述的方法, 其特征在于, 所述预设模型输出的针对所述样本原始问 题的预测答案, 是按照以下步骤生成的: 以每一轮为当前轮, 根据上一轮预测子问题的特征, 更新所述样本 图像在当前轮的预 测特征; 根据所述样本原始问题的特征, 更新所述样本 图像在最后一轮的预测特征, 得到所述 样本图像的最终预测特 征; 根据所述样本原始问题的特征和所述样本图像的最终预测特征, 生成所述样本原始问 题的预测答案 。 7.一种视 觉问答装置, 其特 征在于, 所述装置包括: 获得模块, 用于获得图像和原 始问题; 子问题生成模块, 用于根据原始问题中的各个词语, 逐轮生成所述原始问题的多个子 问题, 直到所述原始问题中的各个词语所关联的子问题都已解答为止, 停止子问题生成, 其 中, 每一轮子问题是根据所述图像、 所述原始问题、 全部历史子问题和全部历史子问题的答 案生成的 答案生成模块, 用于根据 所述图像、 所述原始问题以及所述多个子问题, 生成所述原始 问题的答案 。 8.一种电子设备, 其特 征在于, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述指令, 以实现如权利要求1至6中任一项所述的视 觉问答方法。 9.一种计算机可读存储介质, 当所述计算机可读存储介质中的指令由电子设备的处理 器执行时, 使得电子设备能够执 行如权利要求1至 6中任一项所述的视 觉问答方法。 10.一种计算机程序产品, 包括计算机程序或计算机指令, 其特征在于, 所述计算机程 序或计算机指令被处 理器执行时实现如权利要求1至 6中任一项所述的视 觉问答方法。权 利 要 求 书 2/2 页 3 CN 114444448 A 3

.PDF文档 专利 一种视觉问答方法、装置、电子设备、介质及程序产品

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视觉问答方法、装置、电子设备、介质及程序产品 第 1 页 专利 一种视觉问答方法、装置、电子设备、介质及程序产品 第 2 页 专利 一种视觉问答方法、装置、电子设备、介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:48:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。