团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111680397.X (22)申请日 2021.12.3 0 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 陈默也 李伟 刘家辰 肖欣延 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 杜月 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/335(2019.01) G06F 16/34(2019.01) G06N 3/08(2006.01) (54)发明名称 对话摘要训练数据 的生成方法、 装置、 设备 及存储介质 (57)摘要 本公开提出了一种对话摘要训练数据的生 成方法、 装置、 电子设备及存储介质, 涉及计算机 技术领域, 具体涉及深度学习、 自然语言处理等 人工智能技术领域, 具体实现方案为: 获取多个 参考文本及每个所述参考文本对应的参考摘要; 基于每个所述参考文本中包含的语句, 生成对话 语句集; 将所述对话语句集中的各个语句进行随 机排列, 以生成对话文本; 将多个所述参考摘要 随机排列, 以生成与所述对话文本对应的目标摘 要。 本公开采用非对话形式的文本及对应的摘 要, 构建对话文本及对话摘要, 实现了获取大量 的对话摘要训练数据, 为训练得到对话摘要算法 模型提供了支撑 。 权利要求书3页 说明书13页 附图4页 CN 114490976 A 2022.05.13 CN 114490976 A 1.一种对话摘要训练数据的生成方法, 包括: 获取多个参 考文本及每 个所述参考文本对应的参 考摘要; 基于每个所述参考文本中包 含的语句, 生成对话语句集; 将所述对话语句集中的各个 语句进行随机排列, 以生成对话文本; 将多个所述 参考摘要随机排列, 以生成与所述对话文本对应的目标摘要。 2.如权利要求1所述的方法, 其中, 所述获取多个参考文本及每个所述参考文本对应的 参考摘要, 包括: 确定候选词语; 确定文本数据集中包 含所述候选词语的各个候选摘要的数量; 响应于所述候选摘要的数量大于第一阈值, 从所述各个候选摘要中选取所述参考摘 要, 其中, 所述 候选摘要对应的候选文本为所述 参考文本。 3.如权利要求2所述的方法, 其中, 所述从所述各个候选摘要中选取所述参考摘要, 包 括: 响应于所述候选摘要的数量小于或等于第 二阈值, 确定所述各个候选摘要为所述参考 摘要; 或者, 响应于所述候选摘要的数量大于所述第 二阈值, 将所述各个候选摘要中的任意数量个 候选摘要确定为 一组参考摘要。 4.如权利要求2所述的方法, 其中, 所述从所述各个候选摘要中选取所述参考摘要, 包 括: 根据所述各个候选摘要对应的所述候选文本间的字符数量差值, 从所述各个候选摘要 中选取所述参考摘要; 或者, 根据所述各个候选摘要对应的所述候选文本包含的语句数量间的差值, 从所述各个候 选摘要中选取 所述参考摘要。 5.如权利要求2所述的方法, 其中, 所述确定候选词语, 包括: 根据所述文本数据集中每 个文本对应的摘要中包 含的各个词语, 确定候选词集; 将所述候选词集中每 个词语, 依次确定为所述 候选词语。 6.如权利要求1-5任一所述的方法, 其中, 所述基于每个所述参考文本中包含的语句, 生成对话语句集, 包括: 根据每个所述参考摘要, 从每 个所述参考文本包 含的多个 语句中筛 选目标语句; 基于每个所述参考文本中包 含的目标语句, 生成所述对话语句集。 7.如权利要求6所述的方法, 其中, 所述根据每个所述参考摘要, 从每个所述参考文本 包含的多个 语句中筛 选目标语句, 包括: 将所述参考文本对应的所述 参考摘要划分为多个摘要语句; 确定所述 参考文本中每 个语句与每 个所述摘要语句间的关联度; 将关联度大于第二阈值的语句, 确定为目标语句。 8.如权利要求6所述的方法, 其中, 所述根据每个所述参考摘要, 从每个所述参考文本 包含的多个 语句中筛 选目标语句, 包括: 确定每个所述参考摘要对应的关键词集;权 利 要 求 书 1/3 页 2 CN 114490976 A 2确定每个所述语句中包 含所述关键词集中关键词的数量; 根据各个所述语句包 含所述关键词的数量, 从所述多个 语句中筛 选目标语句。 9.一种对话摘要训练数据的生成装置, 包括: 获取模块, 用于获取多个参 考文本及每 个所述参考文本对应的参 考摘要; 第一生成模块, 用于基于每 个所述参考文本中包 含的语句, 生成对话语句集; 第二生成模块, 用于将所述对话语句集中的各个 语句进行随机排列, 以生成对话文本; 第三生成模块, 用于将多个所述参考摘要随机排列, 以生成与所述对话文本对应的目 标摘要。 10.如权利要求9所述的装置, 其中, 所述获取模块包括: 第一确定单 元, 用于确定候选词语; 第二确定单 元, 用于确定文本数据集中包 含所述候选词语的各个候选摘要的数量; 第三确定单元, 用于响应于所述候选摘要的数量大于第一阈值, 从所述各个候选摘要 中选取所述参考摘要, 其中, 所述 候选摘要对应的候选文本为所述 参考文本。 11.如权利要求10所述的装置, 其中, 所述第三确定单 元用于: 响应于所述候选摘要的数量小于或等于第 二阈值, 确定所述各个候选摘要为所述参考 摘要; 或者, 响应于所述候选摘要的数量大于所述第 二阈值, 将所述各个候选摘要中的任意数量个 候选摘要确定为 一组参考摘要。 12.如权利要求10所述的装置, 其中, 所述第三确定单 元用于: 根据所述各个候选摘要对应的所述候选文本间的字符数量差值, 从所述各个候选摘要 中选取所述参考摘要; 或者, 根据所述各个候选摘要对应的所述候选文本包含的语句数量间的差值, 从所述各个候 选摘要中选取 所述参考摘要。 13.如权利要求10所述的装置, 其中, 所述第一确定单 元用于: 根据所述文本数据集中每 个文本对应的摘要中包 含的各个词语, 确定候选词集; 将所述候选词集中每 个词语, 依次确定为所述 候选词语。 14.如权利要求9-13任一所述的装置, 其中, 所述第一 生成模块包括: 筛选单元, 用于根据每个所述参考摘要, 从每个所述参考文本包含的多个语句中筛选 目标语句; 生成单元, 用于基于每 个所述参考文本中包 含的目标语句, 生成所述对话语句集。 15.如权利要求14所述的装置, 其中, 所述筛 选单元用于: 将所述参考文本对应的所述 参考摘要划分为多个摘要语句; 确定所述 参考文本中每 个语句与每 个所述摘要语句间的关联度; 将关联度大于第二阈值的语句, 确定为目标语句。 16.如权利要求14所述的装置, 其中, 所述筛 选单元用于: 确定每个所述参考摘要对应的关键词集; 确定每个所述语句中包 含所述关键词集中关键词的数量; 根据各个所述语句包 含所述关键词的数量, 从所述多个 语句中筛 选目标语句。权 利 要 求 书 2/3 页 3 CN 114490976 A 3
专利 对话摘要训练数据的生成方法、装置、设备及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 21:50:50
上传分享
举报
下载
原文档
(779.0 KB)
分享
友情链接
DB44-T 2389-2022 计量检测数据与结果数字化处理系统技术要求 广东省.pdf
GB-T 14951-2023 汽车节油技术评定方法.pdf
GB-T 36474-2018 半导体集成电路 第三代双倍数据速率同步动态随机存储器 (DDR3 SDRAM)测试方法.pdf
GB-T 8566-2022系统与软件工程 软件生存周期过程.pdf
T-YFSEA 0008—2023 陆用液体装卸臂检验规程.pdf
FTTR光纤到房间白皮书 2022 .pdf
T-TCDZ 0001—2019 电动自行车用蓄电池充电器.pdf
GB-T 18354-2021 物流术语.pdf
T-GDCKCJH 068—2022 离子风机静电消除器性能要求与检测方法.pdf
GB/T 23827-2021 道路交通标志板及支撑件.pdf
GB-T 15843.3-2023 信息技术 安全技术 实体鉴别 第3部分:采用数字签名技术的机制.pdf
GB-T 30656-2023 碳化硅单晶抛光片.pdf
GB-T 43558-2023 全国一体化政务服务平台移动端规范.pdf
腾讯研究院:2024工业大模型应用报告-2024-04-宏观大势.pdf
DB4403-T 12-2019 物业服务要求 商务写字楼 深圳市.pdf
GB-T 41072-2021 表面化学分析 电子能谱 紫外光电子能谱分析指南.pdf
数据安全合规评估方法-1.19发布.pdf
GM T 0129-2023 SSH密码协议规范.pdf
TB-T 3369-2018 铁路数字移动通信系统(GSM-R)光纤直放站网络管理系统试验方法.pdf
GB-T 41973-2022 工业通风机 平衡品质与振动等级规范.pdf
1
/
3
21
评价文档
赞助2元 点击下载(779.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。