专利 一种基于语句补全的多轮对话领域识别方法和装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111672056.8 (22)申请日 2021.12.31 (71)申请人四川启睿克科技有限公司地址 610000 四川省成都市中国（四川）自由贸易试验区成都高新区天府四街 199号1栋33层 (72)发明人李焕　谭斌　杨兰　饶璐　周兴发　孙锐　展华益　 (74)专利代理机构四川省成都市天策商标专利事务所(有限合伙) 51213 代理人刘堋 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01)G06F 40/126(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于语句补全的多轮对话领域识别方法和装置 (57)摘要本发明公开了一种基于语句补全的多轮对话领域识别方法及装置，方法包括：将历史对话语料和每个领域转换为语义向量；按顺序考虑第 N个领域，将该领域的语义向量和历史语料的语义向量输入到语句补全模型，得到补全后的句子；将第N个领域补全后的句子输入到有效性判定模型，若判定为有效，第N个领域即为识别结果，否则跳转回步骤二，继续考虑第N+1个领域。本发明将多轮对话领域识别任务和语句补全任务结合起来，可以很好地识别用户在多轮对话中回复省略句的情况。此外本发明既利用了对话的历史信息，又保证了历史信息不会对领域切换造成干扰，从而提高识别的准确性。权利要求书1页说明书4页附图1页 CN 114328876 A 2022.04.12 CN 114328876 A 1.一种基于语句补全的多轮对话领域识别方法，其特征在于，包括：步骤一，将历史对话语料和每个领域转换为语义向量；步骤二，按顺序考虑第N个领域，将该领域的语义向量和历史语料的语义向量输入到语句补全模型，得到补全后的句子；步骤三，将第N个领域补全后的句子输入到有效性判定模型，若判定为有效，第N个领域即为识别结果，否则跳转回步骤二，继续考虑第N+1个领域。 2.根据权利要求1所述的基于语句补全的多轮对话领域识别方法，其特征在于，获取语义向量的方法包括：基于深度学习的语义编码方法。 3.根据权利要求1所述的基于语句补全的多轮对话领域识别方法，其特征在于，步骤二中，按顺序考虑领域的方法包括，对于非首轮语句，将上一轮语句的领域作为首要考虑领域。 4.根据权利要求1所述的基于语句补全的多轮对话领域识别方法，其特征在于，构建语句补全模型的方法包括： Seq2Seq模型或Po inter‑Generator Networks模型。 5.根据权利要求1所述的基于语句补全的多轮对话领域识别方法，其特征在于，构建所述语句补全模型后，还包括设定损失函数，以及设定迭代更新所述语句补全模型的参数。 6.根据权利要求1所述的基于语句补全的多轮对话领域识别方法，其特征在于，语句补全模型的训练方法包含：获取语料数据，根据实际需求对语料中的文本进行处理，将处理后的文本转换为语义向量，将所述语义向量输入语句补全模型进行训练，得到训练好的语句补全模型。 7.根据权利要求1所述的基于语句补全的多轮对话领域识别方法，其特征在于，构建有效性判定模型的方法包括：基于深度学习的分类模型方法。 8.根据权利要求1所述的基于语句补全的多轮对话领域识别方法，其特征在于，构建所述有效性判定模型后，还包括设定损失函数，以及设定迭代更新所述有效性判定模型的参数。 9.根据权利要求1所述的基于语句补全的多轮对话领域识别方法，其特征在于，有效性判定模型的训练方法包含：获取语料数据，根据实际需求对语料中的文本进行处理，将处理后的文本转换为语义向量，将所述语义向量输入有效性判定模型进行训练，得到训练好的有效性判定模型。 10.一种基于语句补全的多轮对话领域识别装置，其特征在于，包括：语义编码单元，用于将历史对话语料和每个领域转换为语义向量；语句补全单元，用于将第N个领域的语义向量和历史语料的语义向量输入到语句补全模型，得到补全后的句子；有效性判定单元，用于将第 N个领域补全后的句子输入到有效性判定模型，若判定为有效，第N个领域即为识别结果，否则跳转回语句补全单元，继续考虑第N+1个领域。权　利　要　求　书 1/1 页 2 CN 114328876 A 2一种基于语句补全的多轮对话领域识别方法和装置技术领域 [0001]本发明涉及自然语言处理和深度学习技术领域，尤其涉及一种基于语句补全的多轮对话领域识别方法和装置。背景技术 [0002]从人工智能研究的初期开始，人们就致力于开发高度智能化的人机对话系统。艾伦·图灵(Alan Turing)在1950年提出图灵测试，认为如果人类无法区分和他对话交谈的是机器还是人类，那么就可以说机器通过了图灵测试，拥有高度的智能。随着信息技术和自然语言处理技术的不断发展，人机对话系统初步地应用在智能客服、智能音箱等场景，人们的期望也逐渐从单领域单轮的对话系统变为多领域多轮的对话系统。 [0003]在多领域多轮的对话系统中，第一步就是领域识别。聊天计算机获取用户的输入，将其正确地分类到相应的领域，然后再基于该领域开展后续任务。所以领域识别的准确性直接决定了整个对话系统的服务质量。 [0004]一种思路是只基于当前轮语句来识别领域。较早的方法利用领域的先验知识或模板来识别，后来有了基于统计方法的分类模型。随着深度学习技术的发展，还出现了卷积神经网络、循环神经网络、 fastText等分类模型。然而这些方法没有利用历史信息，无法处理用户回复省略句的情况。 [0005]另外一种思路是将历史语句和当前轮语句的特征融合在一起作为输入，训练分类模型。然而当历史语句和当前轮语句的领域不一致时，历史语句完全变成了干扰信息，很大地影响了分类的准确性。这种情况下，可能需要用户反复强调才能成功切换领域，很影响用户体验。 [0006]综上所述，现有领域识别模型存在以下几点问题： [0007](1)、基于单轮的领域识别模型只利用了当前轮信息，没有利用历史信息，模型的灵活性不高，无法处理实际对话中用户经常回复省略句的情况。 [0008](2)、一些利用了历史信息的领域识别模型，只是单纯地将历史信息和当前轮信息合在一起，没有考虑到在领域切换时历史信息含有干扰信息，模型的准确率较低。发明内容 [0009]本发明提供了一种基于语句补全的多轮对话领域识别方法和装置，以解决上述技术问题。 [0010]本发明采用的技术方案是：提供一种基于语句补全的多轮对话领域识别方法，包括： [0011]步骤一，将历史对话语料和每个领域转换为语义向量； [0012]步骤二，按顺序考虑第N个领域，将该领域的语义向量和历史语料的语义向量输入到语句补全模型，得到补全后的句子； [0013]步骤三，将第N个领域补全后的句子输入到有效性判定模型，若判定为有效，第N个说　明　书 1/4 页 3 CN 114328876 A 3

专利 一种基于语句补全的多轮对话领域识别方法和装置

专利一种基于语句补全的多轮对话领域识别方法和装置