团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111650452.0 (22)申请日 2021.12.31 (71)申请人 上海犀语科技有限公司 地址 200082 上海市杨 浦区伟德路6号 1005-18室 (72)发明人 金鑫 李鹏辉 (74)专利代理 机构 北京卫智易创专利代理事务 所(普通合伙) 16015 代理人 朱春野 (51)Int.Cl. G06F 40/279(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文本要素抽取方法及系统 (57)摘要 本发明提供一种文本要 素抽取方法及系统, 首先获取目标文本, 按照预设业务规则对目标文 本的文本内容进行段落分割, 将目标文本拆分为 多个段落文本; 获取每个段落文本的文本内容; 利用预训练模型对每个段落文本中的句子进行 编码, 得到对应的编码结果; 通过卷积神经网络 从编码结果中聚合每个句子的内部信息, 获取每 个句子的表征; 通过条件随机场从每个句子的表 征中获取对应句子的上下文信息, 得到目标文本 的要素信息。 由此可知, 本发明提出了基于长文 本预训练模 型段落级的要素抽取方案, 不仅能够 解决传统模型输入长度的限制和无法充分利用 上下文信息, 而且还能够以9 0%的准确率抽取出 长文本要素信息 。 权利要求书2页 说明书5页 附图2页 CN 114282533 A 2022.04.05 CN 114282533 A 1.一种文本要素抽取 方法, 其特 征在于, 包括以下步骤: 获取待进行文本要素抽取的目标文本, 所述目标文本的字数超过 预设值; 按照预设业务规则对所述目标文本的文本 内容进行段落分割, 将所述目标文本拆分为 多个段落文本; 获取每个段落文本的文本内容; 其中, 每 个段落文本的文本内容包括句子和词; 利用预训练模型对每 个段落文本中的句子进行编码, 得到对应的编码结果; 通过卷积神经网络从所述编码结果中聚合每个句子的内部信息, 获取每个句子的表 征; 通过条件随机场从每个句子的表征中获取对应句子的上下文信 息, 得到所述目标文本 的要素信息 。 2.根据权利要求1所述的文本要素抽取 方法, 其特 征在于, 所述方法还 包括: 获取符合 业务规则的文本语料; 对所述文本语料按照句号进行句子划分, 得到多个句子级 文本; 将所述句子级文本的内容按照预先设定的要素标签进行标注, 并将标准后的句子级文 本转换为训练语料; 根据所述训练语料进行训练, 生成所述预训练模型。 3.根据权利要求2所述的文本要素抽取方法, 其特征在于, 预先设定的要素标签包括: 甲方名称和乙方名称, 其中, 所述甲方是指提出目标的一方, 所述乙方是指实现所述甲方所 提出的目标的另一方。 4.根据权利要求1或2所述的文本要素抽取方法, 其特征在于, 按照预设业务规则对所 述目标文本的文本内容进行 段落分割的过程包括: 按照换行符对所述目标文本的文本 内容进行段落分割, 将所述目标文本拆分为多个段 落文本。 5.根据权利要求1所述的文本要素抽取 方法, 其特 征在于, 所述预设值 为512。 6.一种文本要素抽取系统, 其特 征在于, 包括有: 第一采集模块, 用于获取待进行文本要素抽取的目标文本, 所述目标文本的字数超过 预设值; 分割模块, 用于按照预设业务规则对所述目标文本的文本内容进行段落分割, 将所述 目标文本拆分为多个段落文本; 编码模块, 用于获取每个段落文本的文本内容, 并利用预训练模型对每个段落文本中 的句子进行编码, 得到对应的编码结果; 其中, 每 个段落文本的文本内容包括句子和词; 聚合表征模块, 用于通过卷积神经网络从所述编码结果中聚合每个句子的内部信息, 获取每个句子的表征; 要素抽取模块, 用于通过条件随机场从每个句子的表征中获取对应句子的上下文信 息, 得到所述目标文本的要素信息 。 7.根据权利要求6所述的文本要素抽取系统, 其特 征在于, 所述系统还 包括: 获取符合 业务规则的文本语料; 对所述文本语料按照句号进行句子划分, 得到多个句子级 文本; 将所述句子级文本的内容按照预先设定的要素标签进行标注, 并将标准后的句子级文权 利 要 求 书 1/2 页 2 CN 114282533 A 2本转换为训练语料; 根据所述训练语料进行训练, 生成所述预训练模型。 8.根据权利要求7所述的文本要素抽取系统, 其特征在于, 预先设定的要素标签包括: 甲方名称和乙方名称, 其中, 所述甲方是指提出目标的一方, 所述乙方是指实现所述甲方所 提出的目标的另一方。 9.根据权利要求6或7所述的文本要素抽取系统, 其特征在于, 按照预设业务规则对所 述目标文本的文本内容进行 段落分割的过程包括: 按照换行符对所述目标文本的文本 内容进行段落分割, 将所述目标文本拆分为多个段 落文本。 10.根据权利要求6所述的文本要素抽取系统, 其特 征在于, 所述预设值 为512。权 利 要 求 书 2/2 页 3 CN 114282533 A 3
专利 一种文本要素抽取方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 21:48:24
上传分享
举报
下载
原文档
(478.8 KB)
分享
友情链接
DB4403-T 51-2020 珠宝行业经营服务规范 深圳市.pdf
T-GZAS 018—2022 数据要素安全可信流通技术标准.pdf
GB-T 35580-2017 建设项目水资源论证导则.pdf
DB21-T 3722.2—2023 高标准农田建设指南 第2部分:项目概算编制 辽宁省.pdf
T-CITS 0004—2023 高性能医用冷藏箱技术要求及检测方法.pdf
T-CSBT 002—2019 血液筛查反应性献血者归队指南.pdf
GB-T 29241-2012 信息安全技术 公钥基础设施 PKI互操作性评估准则.pdf
GB-T 21709.1-2008 针灸技术操作规范 第1部分 艾灸.pdf
美创 数据安全解决方案简介.pdf
GB-T 41475-2022 1:25 000~1:500 000土壤养分图用色与图例规范.pdf
GB-T 38634.2-2020 系统与软件工程 软件测试 第2部分:测试过程.pdf
T-GSWX 011—2023 住宅小区物业清洁服务标准.pdf
DB41-T 1047-2015 锅炉风机节能潜力评估导则 河南省.pdf
GB-T 21642.3-2012 基于IP网络的视讯会议系统设备技术要求 第3部分:多点控制单元 MCU.pdf
YD-T 4042.4-2022 智慧化工园区大数据平台 第4部分:平台运维管理技术要求.pdf
GB-T 35003-2018 非易失性存储器耐久和数据保持试验方法.pdf
GB-T 18936-2020 高致病性禽流感诊断技术.pdf
T-GHDQ 89.2—2022 车载网络安全测试规范 第2部分:车载以太网安全测试规范.pdf
GB-T 20933-2021 热轧钢板桩.pdf
NIST 特别出版物 800 安全软件开发框架 (SSDF) 1.1 版:降低软件漏洞风险的建议o.pdf
1
/
3
10
评价文档
赞助2元 点击下载(478.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。