专利 一种视觉问答方法、装置、电子设备、介质及程序产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111665541.2 (22)申请日 2021.12.3 0 (71)申请人北京三快在线科技有限公司地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人王若楠　王小捷　江会星　武威　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师王婷婷 (51)Int.Cl. G06F 40/166(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种视觉问答方法、装置、电子设备、介质及程序产品 (57)摘要本申请提供了一种视觉问答方法、装置、电子设备、介质及程序产品，涉及视觉问答技术领域，旨在提供一种自适应推理步数、推理过程可解释性强的视觉问答方法。所述方法包括：获得图像和原始问题；根据原始问题中的各个词语，逐轮生成所述原始问题的多个子问题，直到所述原始问题中的各个词语所关联的子问题都已解答为止，停止子问题生成，其中，每一轮子问题是根据所述图像、所述原始问题、全部历史子问题和全部历史子问题的答案生成的；根据所述图像、所述原始问题以及所述多个子问题，生成所述原始问题的答案。权利要求书2页说明书10页附图2页 CN 114444448 A 2022.05.06 CN 114444448 A 1.一种视觉问答方法，其特征在于，所述方法包括：获得图像和原始问题；根据原始问题中的各个词语，逐轮生成所述原始问题的多个子问题，直到所述原始问题中的各个词语所关联的子问题都已解答为止，停止子问题生成，其中，每一轮子问题是根据所述图像、所述原始问题、全部历史子问题和全部历史子问题的答案生成的；根据所述图像、所述原始问题以及所述多个子问题，生成所述原始问题的答案。 2.根据权利要求1所述的方法，其特征在于，根据所述图像、所述原始问题以及所述多个子问题，生成所述原始问题的答案，包括：将所述图像的原始特征，确定为所述图像在第一轮的特征；以每一轮为当前轮，根据上一轮子问题的特征，更新所述图像在当前轮的特征；根据所述原始问题的特征，更新所述图像在最后一轮的特征，得到所述图像的最终特征；根据所述原始问题的特征和所述图像的最终特征，生成所述原始问题的答案。 3.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据第一轮子问题的特征和所述图像的原始特征，生成所述第一轮子问题的答案；以每一轮为当前轮，根据当前轮子问题的特征，以及所述图像在当前轮的特征和在上一轮的特征，生成所述当前轮子问题的答案。 4.根据权利要求1所述的方法，其特征在于，所述方法还包括：获得样本图像和样本原始问题；生成所述样本原始问题的多个子样本问题，并根据所述样本图像，生成所述样本原始问题以及所述多个子样本问题各自的正确答案，以构建训练样本；将所述样本图像和所述样本原始问题输入预设模型，得到所述预设模型中根据所述样本原始问题中的各个词语逐轮生成的多个预测子问题，直到所述样本原始问题中的各个词语所关联的预测子问题的预测答案都已生成为止，停止预测子问题生成，其中，每一轮预测子问题是根据所述样本图像、所述样本原始问题、全部历史预测子问题和全部历史预测子问题的预测答案生成的；根据所述样本原始问题以及所述多个子预测问题各自的正确答案，对所述预设模型进行训练，得到视觉问答模型；根据原始问题中的各个词语，逐轮生成所述原始问题的多个子问题，根据所述图像、所述原始问题以及所述多个子问题，生成所述原始问题的答案，包括：将所述图像和所述原始问题输入所述视觉问答模型，以使所述视觉问答模型逐轮生成所述原始问题的多个子问题，进而输出所述原始问题的答案。 5.根据权利要求4所述的方法，其特征在于，根据所述样本原始问题以及所述多个子预测问题各自的正确答案，对所述预设模型进行训练，得到视觉问答模型，包括：以每一轮为当前轮，根据当前轮预测子问题的正确答案和所述预设模型在当前轮输出的预测答案，得到子问题损失值，以更新所述预设模型的模型参数；根据所述样本原始问题的正确答案和所述预设模型输出的针对所述样本原始问题的预测答案，得到样本原始问题损失值，以更新所述预设模型的模型参数；在满足训练结束条件时，将训练结束的预设模型确定为所述视觉问答模型。权　利　要　求　书 1/2 页 2 CN 114444448 A 26.根据权利要求5所述的方法，其特征在于，所述预设模型输出的针对所述样本原始问题的预测答案，是按照以下步骤生成的：以每一轮为当前轮，根据上一轮预测子问题的特征，更新所述样本图像在当前轮的预测特征；根据所述样本原始问题的特征，更新所述样本图像在最后一轮的预测特征，得到所述样本图像的最终预测特征；根据所述样本原始问题的特征和所述样本图像的最终预测特征，生成所述样本原始问题的预测答案。 7.一种视觉问答装置，其特征在于，所述装置包括：获得模块，用于获得图像和原始问题；子问题生成模块，用于根据原始问题中的各个词语，逐轮生成所述原始问题的多个子问题，直到所述原始问题中的各个词语所关联的子问题都已解答为止，停止子问题生成，其中，每一轮子问题是根据所述图像、所述原始问题、全部历史子问题和全部历史子问题的答案生成的答案生成模块，用于根据所述图像、所述原始问题以及所述多个子问题，生成所述原始问题的答案。 8.一种电子设备，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视觉问答方法。 9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至 6中任一项所述的视觉问答方法。 10.一种计算机程序产品，包括计算机程序或计算机指令，其特征在于，所述计算机程序或计算机指令被处理器执行时实现如权利要求1至 6中任一项所述的视觉问答方法。权　利　要　求　书 2/2 页 3 CN 114444448 A 3

专利 一种视觉问答方法、装置、电子设备、介质及程序产品

专利一种视觉问答方法、装置、电子设备、介质及程序产品