团体标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111650452.0 (22)申请日 2021.12.31 (71)申请人 上海犀语科技有限公司 地址 200082 上海市杨 浦区伟德路6号 1005-18室 (72)发明人 金鑫 李鹏辉  (74)专利代理 机构 北京卫智易创专利代理事务 所(普通合伙) 16015 代理人 朱春野 (51)Int.Cl. G06F 40/279(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文本要素抽取方法及系统 (57)摘要 本发明提供一种文本要 素抽取方法及系统, 首先获取目标文本, 按照预设业务规则对目标文 本的文本内容进行段落分割, 将目标文本拆分为 多个段落文本; 获取每个段落文本的文本内容; 利用预训练模型对每个段落文本中的句子进行 编码, 得到对应的编码结果; 通过卷积神经网络 从编码结果中聚合每个句子的内部信息, 获取每 个句子的表征; 通过条件随机场从每个句子的表 征中获取对应句子的上下文信息, 得到目标文本 的要素信息。 由此可知, 本发明提出了基于长文 本预训练模 型段落级的要素抽取方案, 不仅能够 解决传统模型输入长度的限制和无法充分利用 上下文信息, 而且还能够以9 0%的准确率抽取出 长文本要素信息 。 权利要求书2页 说明书5页 附图2页 CN 114282533 A 2022.04.05 CN 114282533 A 1.一种文本要素抽取 方法, 其特 征在于, 包括以下步骤: 获取待进行文本要素抽取的目标文本, 所述目标文本的字数超过 预设值; 按照预设业务规则对所述目标文本的文本 内容进行段落分割, 将所述目标文本拆分为 多个段落文本; 获取每个段落文本的文本内容; 其中, 每 个段落文本的文本内容包括句子和词; 利用预训练模型对每 个段落文本中的句子进行编码, 得到对应的编码结果; 通过卷积神经网络从所述编码结果中聚合每个句子的内部信息, 获取每个句子的表 征; 通过条件随机场从每个句子的表征中获取对应句子的上下文信 息, 得到所述目标文本 的要素信息 。 2.根据权利要求1所述的文本要素抽取 方法, 其特 征在于, 所述方法还 包括: 获取符合 业务规则的文本语料; 对所述文本语料按照句号进行句子划分, 得到多个句子级 文本; 将所述句子级文本的内容按照预先设定的要素标签进行标注, 并将标准后的句子级文 本转换为训练语料; 根据所述训练语料进行训练, 生成所述预训练模型。 3.根据权利要求2所述的文本要素抽取方法, 其特征在于, 预先设定的要素标签包括: 甲方名称和乙方名称, 其中, 所述甲方是指提出目标的一方, 所述乙方是指实现所述甲方所 提出的目标的另一方。 4.根据权利要求1或2所述的文本要素抽取方法, 其特征在于, 按照预设业务规则对所 述目标文本的文本内容进行 段落分割的过程包括: 按照换行符对所述目标文本的文本 内容进行段落分割, 将所述目标文本拆分为多个段 落文本。 5.根据权利要求1所述的文本要素抽取 方法, 其特 征在于, 所述预设值 为512。 6.一种文本要素抽取系统, 其特 征在于, 包括有: 第一采集模块, 用于获取待进行文本要素抽取的目标文本, 所述目标文本的字数超过 预设值; 分割模块, 用于按照预设业务规则对所述目标文本的文本内容进行段落分割, 将所述 目标文本拆分为多个段落文本; 编码模块, 用于获取每个段落文本的文本内容, 并利用预训练模型对每个段落文本中 的句子进行编码, 得到对应的编码结果; 其中, 每 个段落文本的文本内容包括句子和词; 聚合表征模块, 用于通过卷积神经网络从所述编码结果中聚合每个句子的内部信息, 获取每个句子的表征; 要素抽取模块, 用于通过条件随机场从每个句子的表征中获取对应句子的上下文信 息, 得到所述目标文本的要素信息 。 7.根据权利要求6所述的文本要素抽取系统, 其特 征在于, 所述系统还 包括: 获取符合 业务规则的文本语料; 对所述文本语料按照句号进行句子划分, 得到多个句子级 文本; 将所述句子级文本的内容按照预先设定的要素标签进行标注, 并将标准后的句子级文权 利 要 求 书 1/2 页 2 CN 114282533 A 2本转换为训练语料; 根据所述训练语料进行训练, 生成所述预训练模型。 8.根据权利要求7所述的文本要素抽取系统, 其特征在于, 预先设定的要素标签包括: 甲方名称和乙方名称, 其中, 所述甲方是指提出目标的一方, 所述乙方是指实现所述甲方所 提出的目标的另一方。 9.根据权利要求6或7所述的文本要素抽取系统, 其特征在于, 按照预设业务规则对所 述目标文本的文本内容进行 段落分割的过程包括: 按照换行符对所述目标文本的文本 内容进行段落分割, 将所述目标文本拆分为多个段 落文本。 10.根据权利要求6所述的文本要素抽取系统, 其特 征在于, 所述预设值 为512。权 利 要 求 书 2/2 页 3 CN 114282533 A 3

.PDF文档 专利 一种文本要素抽取方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本要素抽取方法及系统 第 1 页 专利 一种文本要素抽取方法及系统 第 2 页 专利 一种文本要素抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:48:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。