(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111644281.0
(22)申请日 2021.12.3 0
(65)同一申请的已公布的文献号
申请公布号 CN 114004233 A
(43)申请公布日 2022.02.01
(73)专利权人 之江实验室
地址 310023 浙江省杭州市余杭区文一西
路1818号人工智能小镇10号楼
(72)发明人 李劲松 辛然 田雨 周天舒
阮彤 王凯
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 刘静
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/242(2020.01)
G06F 40/211(2020.01)
G06F 40/216(2020.01)
G06F 16/903(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 109635108 A,2019.04.16
CN 110991165 A,2020.04.10
CN 111914558 A,2020.1 1.10
CN 111832294 A,2020.10.27
US 2016098645 A1,2016.04.07
CN 111291195 A,2020.0 6.16
CN 113591478 A,2021.1 1.02
CN 112348113 A,2021.02.09
CN 108845988 A,2018.1 1.20 (续)
审查员 杜琳琳
(54)发明名称
一种基于半训练和句子选择的远程监督命
名实体识别方法
(57)摘要
本发明公开了一种基于半训练和句子选择
的远程监督命名实体识别方法, 该方法首先通过
半训练策略将双向循环神经网络和条件随机场
混合双向循环神经网络和条件随机场混合模型
在人工标注数据集上的平衡F分数训练到预设半
训练区间; 然后采用FNN作为强化学习 中的策略
网络, 来对远程监督数据集中的句子进行选择;
接着采用软概率选择出置信 度大于阈值的句子;
然后将筛选出的句子和人工标注数据集进行合
并作为新的训练集; 最后利用新的训练集对双向
循环神经网络和条件随机场混合双向循环神经
网络和条件随机场混合模型进行训练, 同时对策
略网络进行更新。 本发明方法能够有效提高基于远程监督的命名实体识别模型的性能。
[转续页]
权利要求书3页 说明书7页 附图2页
CN 114004233 B
2022.05.06
CN 114004233 B
(56)对比文件
Erxin Yu等.A Tw o-Level N oise-Tolerant
Model for Relati on Extraction with
Reinforcement Learn ing. 《2020 IE EE
Internati onal Conference o n Knowledge
Graph (ICKG)》 .2020,
杨穗珠等.远程 监督关系抽取综述. 《计算机学报》 .2021,第4 4卷(第8期),
白龙等.基 于远程监督的关系抽取研究综
述. 《中文信息学报》 .2019,第3 3卷(第10期),
刘鑫.基于弱监督深度学习的中 医文本关系
抽取研究. 《中国优秀硕士学位 论文全文数据库
(电子期刊) 》 .2021,2/2 页
2[接上页]
CN 114004233 B1.一种基于半训练和句子选择的远程监督命名实体识别方法, 其特征在于, 该方法包
括以下步骤:
S1、 人工标注少量纯文本构成人工标注数据集
, 利用人工标注数据集
中的实体字段
构建一个词典;
S2、 利用词典和字符串匹配技 术在纯文本中进行 标注, 生成远程 监督数据集
;
S3、 通过半训练策略, 利用人工标注 数据集
训练双向循环神经 网络和条件随机场混合
模型, 直至双向循环神经网络和条件随机场混合模型在人工标注数据集
上的平衡F分数达
到预设半训练区间;
S4、 采用前馈神经网络FNN作为强化学习的策略网络, 在远程监督数据集
中进行句子
选择, 将选择 出的句子作为数据集
;
S5、 利用双 向循环神经网络和条件随机场混合模型的输出计算每一个句子的软概率,
基于软概率选择出数据集
中置信度大于置信度阈值
的句子, 将选择出的句子与人工标
注数据集
进行合并, 作为 新的训练集
;
S6、 利用新的训练集
对双向循环神经网络和条件随机场混合模型进行训练, 同时对
策略网络进行 更新, 具体步骤如下:
S61、 策略网络的奖励值
表示为:
其中
是从新的训练集
中取出的一个批次的句子集合,
是双向循环神经
网络和条件随机场混合模型根据第
个句子的向量表示
, 将第
个句子打标成
的概
率;
S62、 对策略网络
进行参数 更新, 更新方式表示 为:
其中
为学习率,
是策略网络的参数;
是策略网络对第
个句子生成的动作;
是第
个句子的状态;
S7、 将训练好的双向循环神经网络和条件随机场混合模型作为命名实体识别模型, 对
未标注的纯文本数据中的字块to ken进行标签预测。
2.根据权利要求1所述的一种基于半训练和句子选择的远程监督命名实体识别方法,
其特征在于, 所述的步骤S1具体包括:
S11、 以序列标注的形式对少量纯文本进行 标注, 生成人工标注数据集
;
S12、 提取 人工标注数据集
中的所有实体字段, 进行去重处 理;
S13、 将所有非重复的实体字段存 入词典中。
3.根据权利要求1所述的一种基于半训练和句子选择的远程监督命名实体识别方法,
其特征在于, 所述的步骤S2具体包括:权 利 要 求 书 1/3 页
2
CN 114004233 B
3
专利 一种基于半训练和句子选择的远程监督命名实体识别方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:47:14上传分享