(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111658349.0
(22)申请日 2021.12.3 0
(71)申请人 思必驰科技股份有限公司
地址 215123 江苏省苏州市苏州工业园区
新平街38 8号腾飞创新园14栋
(72)发明人 李茂龙 施淼元 杨一帆
(74)专利代理 机构 北京商专永信知识产权代理
事务所(普通 合伙) 11400
专利代理师 黄谦 侯晓艳
(51)Int.Cl.
G06F 40/35(2020.01)
G06F 40/284(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
咨询类对话的咨询要素抽取方法、 电子设备
和存储介质
(57)摘要
本发明公开一种咨询类对话的咨询要素抽
取方法、 电子设备和存储介质, 本方法包括: 根据
主题字段及其所属应用领域获取主题分组。 通过
设定的片段式深度神经网络从对话内容数据中
识别出咨询要点词。 根据咨询要点词及设定类别
将对话内容数据分为多组对话内容数据。 聚类各
组对话内容中的提问句, 通过每个类簇中的关键
句获取咨询要素。 本发明主要是基于聚类方法来
获取语义抽象后的咨询要素, 同时针对咨询要素
获取现有提问。 识别率高且可从咨询类对话中获
取主要的咨询要素, 从而更便于后续回答或应答
匹配的需要。
权利要求书1页 说明书10页 附图3页
CN 114444518 A
2022.05.06
CN 114444518 A
1.一种咨询类对话中咨询要素的抽取 方法, 包括:
获取咨询类对话数据; 所述咨询类对话数据中包括主题字段和对话内容数据; 所述对
话内容数据包括: 提问句和回答句; 根据主题字段及其所属应用领域获取主题分组;
通过设定的片段式深度神经网络从所述对话内容数据中识别出咨询要点词; 根据 所述
咨询要点词及设定类别将所述对话内容数据分为多组对话内容数据; 从所述多组对话内容
数据组中提取提问句;
聚类各组对话内容中的提问句, 获取每个类簇中的关键句; 根据所述每个类簇中的关
键句抽取类簇关键词; 根据所述类簇关键词获取 所述咨询要素。
2.根据权利要求1所述的抽取方法, 其中, 所述咨询要点词包括: 专有名词以及属于句
子中心词中的非 实体词。
3.根据权利要求1所述的抽取方法, 其中, 所述聚类各组对话内容中的提问句, 获取每
个类簇中的关键句的步骤中包括: 通过k ‑means的聚类算法聚类各组对话内容中的提问句。
4.根据权利要求3所述的抽取方法, 其中, 所述通过k ‑means的聚类算法聚类各组对话
内容中的提问句的步骤中包括: 通过Elb ow Method获取所述k ‑means的聚类算法中的K值;
所述k的取值区间设置为[10,5 0]; 所述k值为整数。
5.根据权利要求4所述的抽取方法, 其中, 所述通过k ‑means的聚类算法聚类各组对话
内容中的提问句的步骤中包括: 若Elbow method没有明显的肘点, 则选取斜率大于设定斜
率值且k大于设定K值的值; 所述设定斜率为常规斜率的平均值; 所述设定K值为常规K的平
均值。
6.根据权利要求4所述的抽取方法, 其中, 所述通过k ‑means的聚类算法聚类各组对话
内容中的提 问句的步骤中包括: 通过FastText训练提 问句中各词的词向量; 所述提 问句包
括提问句和其对应的回答句; 通过BOW词袋模 型根据所述词向量求平均获取句子向量; 通过
所述k‑means的聚类算法聚类各组对话内容中的提问句的句子向量, 获取每个类簇中的关
键句。
7.根据权利要求1所述的抽取方法, 其中, 所述根据 所述每个类簇 中的关键句抽取类簇
关键词的步骤中包括, 对于关键词cosine余弦相 似度大于设定阈值的类簇关键词 合并; 所
述设定阈值 为0.8。
8.根据权利要求1所述的抽取方法, 其中, 所述根据 所述每个类簇 中的关键句抽取类簇
关键词的步骤中还 包括:
合并同义的类簇关键词; 若类簇关键词为医疗类询问词, 则去掉类簇关键词中的症状
词; 所述根据所述类簇关键词获取所述咨询要素 的步骤中还包括, 根据所述类簇关键词的
权重从大到小排序, 获取最大权重对应的类簇关键词, 将该类簇关键词作为所述咨询要素
词。
9.一种电子设备, 其包括: 至少一个处理器, 以及与所述至少一个处理器通信连接的存
储器, 其中, 所述存储器存储有 可被所述至少一个处理器执行的指 令, 所述指 令被所述至少
一个处理器执行, 以使所述至少一个处理器能够执行权利要求1至8任一项所述方法的步
骤。
10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执行时实
现权利要求1至8任一项所述方法的步骤。权 利 要 求 书 1/1 页
2
CN 114444518 A
2咨询类对话的咨询要素抽取方 法、 电子设备和存储介质
技术领域
[0001]本发明属于语音处理技术领域, 尤其涉及一种咨询类对话的咨询要素 抽取方法、
电子设备和存 储介质。
背景技术
[0002]现有技术关注的是如何识别句子中的意图类别或者如何挖掘类别, 或 者是关注
如何得到咨询答案, 但是并没有关注如何发起 提问。
[0003]现有技术会针对用户的提问意图获取答案信息, 但是关注的是如何获 取意图答
案信息, 而不是如何对特定意图的要素进行提问。
[0004]或者使用用户查询意图识别的方法解决已知意图的情况下, 如何确定 用户的查
询意图。 解决对用户输入进行意图挖掘, 得到用户的所有候选意 图。 也可以使用生成提问
的方法及 装置针对未获得的回答参数进 行提问。 通过基于未获得的回答参数检索问题, 并
返回给用户。
[0005]还会针对用户的提问意图获取答案信息, 例如获取第一用户与多个第 二用户进
行即时通信过程中的历史对话记录; 从所述历史对话记录中对各 个第二用户提出 的问题
语料进行用户意图识别, 获取同一用户意图下包 括的各个问题语料, 并获取该第一用户对
同一用户意图下的各问题语料给 出的回复语料; 针对同一用户意图, 对各个回复语料进 行
聚类, 得出多 个类别, 并在 包含回复语料数目多于预置阈值的目标类别中, 分别计算 各个
回复语料在所述目标类别中成为类别中心的权重; 根据所述权重, 确 定该用户意图的中心
答案。
[0006]也有使用生成提问的方法来进行要素抽 取, 例如: 确定未获得的回答 参数; 从问
题库中获取针对所述未获得的回答参数 的问题集合; 根据所 述问题库中针对所述未获得
的回答参数的问题 集合, 获取一个针对 所述未 获得的回答参数的问题; 将所述问题发送给
用户。
[0007]上述方法缺陷包括: 需要的所有回答参数是已知或是人工定义的, 主 要关注的是
如何对未能获得的回答参数进行提问, 仅能针对未获得的回答 参数。 总的来说, 让AI了解
如何提问是 领域比较苦难的任务, 现有技 术 很难一蹴而就。
发明内容
[0008]本发明实施例旨在至少解决上述 技术问题之一。
[0009]第一方面, 本发明实施例提供一种咨询类对话的咨询要素抽取方法, 包括: 获取
咨询类对话数据。 咨询类对话数据中包括主题字段和对话内容 数据。 对话内容数据包括:
提问句和回答句。 根据主题字段及其所属应用 领域获取主题分组。 通过设定的片段式深度
神经网络从对话内容数据中识 别出咨询要点词。 根据咨询要点词及设定类别将对话内容
数据分为多组对 话内容数据。 从多组对话内容数据组中提取提问句。 聚类各 组对话内容中
的提问句, 获取每个类簇中的关键句。 根据每个类簇中的关键句, 抽取类 簇关键词。 根据类说 明 书 1/10 页
3
CN 114444518 A
3
专利 咨询类对话的咨询要素抽取方法、电子设备和存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:49:36上传分享