专利 一种生成式和检索式结合的多轮对话方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111666257.7 (22)申请日 2021.12.3 0 (71)申请人天翼电子商务有限公司地址 100037 北京市西城区阜成门外大街 31号4层429D (72)发明人孙芃　 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/34(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种生成式和检索式结合的多轮对话方法 (57)摘要本发明公开了一种生成式和检索式结合的多轮对话方法，包括以下步骤： S1：多轮对话历史中每一句utterance的重要性是不同的，最后一句utteranc e是最重要的，前面的utterance可以概括为context，候选的语句是response； S2：首先需要对utterance和response进行编码，中英文编码方式存在一定的差异，基于中文的特点使用字编码和词编码，词编码使用结巴分词，将语句进行词级别的拆分，然后进行向量映射。本发明的生成式和检索式融合的多轮对话方法在中文对话数据集上获得较高的准确率，继而体现出本发明的有效性；在深度学习模型广泛应用的今天，智能客服对于提高用户体验至关重要，基于此，本发明能明显提高多轮对话的匹配能力，从而为提高深度学习在多伦对话领域做出贡献。权利要求书1页说明书3页附图2页 CN 114528384 A 2022.05.24 CN 114528384 A 1.一种生成式和检索式结合的多轮对话方法，其特征在于，包括以下步骤： S1：多轮对话历史中每一句utterance的重要性是不同的，最后一句utterance是最重要的，前面的ut terance可以概括为context，候选的语句是respo nse； S2：首先需要对utterance和response进行编码，中英文编码方式存在一定的差异，基于中文的特点使用字编码和词编码，词编码使用结巴分词，将语句进行词级别的拆分，然后进行向量映射，字编码使用word2vec进行编码；基于英文的特点分别是基于词级别和 character级别编码，词级别和c haracter级别分别使用w ord2vec； S3：分别对ut terance和respo nse进行编码，得到句子向量； S4：对步骤S3得到的句子向量进行GRU，强化句子向量的表示，将last utterance和每一轮utterance拼接得到新的句子向量； S5：对步骤S4得到的句子向量进行自注意力机制，进一步强化句子向量的表示； S5：根据步骤S4得到的句子向量，对context中的每一句分别和最后一轮utterance进行计算文本相似度，选择文本相似度最低的一句话作为分割点，只保留相似度最低的句子后面的几组句子向量residual context，认为相似度最低的句子之前的句子与本轮候选对话无关，减少冗余信息，提高匹配准确性； S6：对S5阶段得到的residual context进行文本生成，得到一句信息量更大的对话摘要generation context，同时只保留一句话降低了后续文本配对的难度， S5中选取历史文本的方式有两种方式，分别是选择所有文本，寻找相似度最低的句子以后的所有句子，文本摘要的生成也可以采用多种方式，包括抽取式的摘要和生成式的摘要； S7：候选response文本分别与generation context进入匹配网络进行文本相似度匹配； S8：针对word2vec字向量编码和jieba词向量编码得到的文本表示方法，有两种结合方法，分别是将向量拼接，和在匹配网络后接入MLP将两种向量得到的匹配结果进行叠加，前者方法会使部分特征丢失，后者方法精度更高； S9：在训练和测试阶段略有不同，训练阶段对context使用回译方法增强文本多样性，提高文本生成的鲁棒性，为了在Encoder ‑Decoder结构训练过程中加速训练收敛速度，使用的策略是Teacher Forcing，一般t时刻decoder的输入会采用上一步的预测输出，但是由于不准确的输出会带偏模型的节奏，减缓收敛速度； Teacher Forcing是将t ‑1时刻的真实标签作为t时刻decoder的输入，这样做让模型很快的学习到了训练集中的一些特征，但是如果一直使用t ‑1的真实标签会导致模型的鲁棒性较差，在t时刻decoder过程中以一定概率选取真实标签，将真实标签与预测结果随机选择作为decoder的输入，在前几轮迭代过程中 decoder的输入选择真实的标签以便模型快速的往收敛方向发展，在随后decoder过程中逐步减少减少真实的标签出现的概率，增大预测的结果，会使得模型的泛化能力更强。权　利　要　求　书 1/1 页 2 CN 114528384 A 2一种生成式和检索式结合的多轮对话方法技术领域 [0001]本发明涉及多轮对话系统技术领域，特别涉及一种生成式和检索式结合的多轮对话方法。背景技术 [0002]多轮对话技术用以实现人与计算机之类的快速信息交互,其中基于pipline的多轮对话系统包括语音识别、语言理解、对话状态维护、动作候选排序、语言生成、语音合成等模块,其中回答逻辑主要体现在对话状态维护模块中,也即,当接收到语言理解模块的输出之后,判断系统应该跳转到什么状态。对话状态维护模块一般可采用人工规则来设置,但是基于人工规则的对话状态维护模块不具有泛化能力,即当用户输入特别信息后，人工规则未针对该特别信息进行设置，则会造成整个多轮对话的中断。因此，传统的多轮对话方案的泛化能力差,运行流畅性得不到保证，对于状态维护模块需要专家进行总结，在不同场景下无法通用。使用端到端的多轮对话系统可以有效降低多轮对话的中间状态，防止错误累积，同时可以提高对话系统的泛化能力，也不需要过多的专家经验，有效降低人力成本。 [0003]本发明是将生成式和检索式多轮对话进行融合，首先将历史对话的前几句分别与最后一句utterance进行话题相似度计算，剔除无意义的话题减少后续匹配计算的难度，将话题相关的多轮对话进行生成一句对话历史摘要，再与候选回复句子进行匹配度计算。发明内容 [0004]本发明要解决的技术问题是克服现有技术的缺陷，提供一种历史对话生成和候选 response检索的生产式和检索式结合多轮对话方法，能够实现更高的准确率。 [0005]本发明提供了如下的技术方案： [0006]本发明提供一种生成式和检索式结合的多轮对话方法，包括以下步骤： [0007]S1：多轮对话历史中每一句utterance的重要性是不同的，最后一句utterance是最重要的，前面的ut terance可以概括为context，候选的语句是respo nse； [0008]S2：首先需要对utterance和response进行编码，中英文编码方式存在一定的差异，基于中文的特点使用字编码和词编码，词编码使用结巴分词，将语句进行词级别的拆分，然后进行向量映射，字编码使用word2v ec进行编码；基于英文的特点分别是基于词级别和character级别编码，词级别和c haracter级别分别使用w ord2vec； [0009]S3：分别对ut terance和respo nse进行编码，得到句子向量； [0010]S4：对步骤S3得到的句子向量进行GRU，强化句子向量的表示，将last utterance 和每一轮ut terance拼接得到新的句子向量； [0011]S5：对步骤S4得到的句子向量进行自注意力机制，进一步强化句子向量的表示； [0012]S5：根据步骤S4得到的句子向量，对context中的每一句分别和最后一轮 utterance进行计算文本相似度，选择文本相似度最低的一句话作为分割点，只保留相似度最低的句子后面的几组句子向量residual context，认为相似度最低的句子之前的句子与说　明　书 1/3 页 3 CN 114528384 A 3

专利 一种生成式和检索式结合的多轮对话方法

专利一种生成式和检索式结合的多轮对话方法