(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111652552.7
(22)申请日 2021.12.3 0
(71)申请人 北京尘锋信息技 术有限公司
地址 100020 北京市朝阳区安 立路78、 80号
05层501内506室
(72)发明人 赵继帆 吉庆琳
(74)专利代理 机构 北京东灵通专利代理事务所
(普通合伙) 61242
代理人 李金豹
(51)Int.Cl.
G06F 40/253(2020.01)
G06F 40/237(2020.01)
G06F 40/289(2020.01)
G06N 3/08(2006.01)
(54)发明名称
基于MASK训练的辱骂识别方法
(57)摘要
本发明属于数据挖掘技术领域, 尤其是基于
MASK训练的辱骂识别方法, 包括DusBERT训练模
型, 具体包 括以下步骤: S1: 数据准备; S2: 数据清
洗; S3: 构造字典; S4: 数据增强; S5: 分词构建输
入; S6: MASK训练; S7: 结束, 所述S1的步骤中, 从
网络上收集脏话数据, 另外收集不带脏词但语义
上是辱骂的的文本, 该文本实验中不作为训练数
据, 而仅仅作为特殊测试数据, 非辱骂文本来自
于之前各种任务的随机抽样。 本发 明从特殊测试
集上来看, 不需要额外准备数据, 大大节省成本
且达到较高水平, 在未使用特殊测试集训练的情
况下, 能够区分包含脏字脏词但非辱骂语义以及
暗喻辱骂文本, 足可 见模型方法的泛华能力。
权利要求书1页 说明书4页 附图1页
CN 114298017 A
2022.04.08
CN 114298017 A
1.一种基于MASK训练的辱骂识别方法, 包括DusBERT训练模型, 其特征在于, 具体包括
以下步骤:
S1: 数据准备;
S2: 数据清洗;
S3: 构造字典;
S4: 数据增强;
S5: 分词构建输入;
S6: MASK训练;
S7: 结束。
2.根据权利要求1所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S1的步骤
中, 从网络上收集脏话数据, 另外收集不带脏词但语义上是辱骂的的文本, 该文本实验中不
作为训练数据, 而仅仅作为特殊测试数据, 非辱骂文本来自于之前各种任务的随机抽样, 并
通过人工筛选和增加, 存在脏 字脏词但非辱骂文本, 加入特殊测试集。
3.根据权利要求2所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S2的步骤
中, 通过人工筛选的通过一些 预处理手段对这些文本清洗 。
4.根据权利要求3所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S3的步骤
中, 基于收集到的语料, 将预 料中的脏词按字的粒度构成一个字典。
5.根据权利要求4所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S4的步骤
中, 基于上述的字典数据随机做一些增强, 增强的手段如转换成拼音、 转换成火星文、 将字
进行一些拆 分、 随机加入一些噪音字 符, 将这些增强后的字符也同样加入到字典中, 这里的
增强仅仅对相应字典脏字脏词的数据进 行增强, 随后将数据按 7:2:1的比例分成训练集、 验
证集、 测试集。
6.根据权利要求5所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S5的步骤
中, 经过数据增强后, 我们对文本进 行词性标注POS, 考虑到对于收集文本的特点, 分词采用
的是LTP, 然后将POS后的词以及词性 一起作为BERT的输入。
7.根据权利要求6所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S6步骤中,
训练过程中, 当某个文本中存在上述步骤中字典包含的字, 则以0.98的概率将改字替换成
DusBERT(BERT)预训练任务的特殊token——[MASK],而对于不在该字典的词则以0.05的概
率随机替换成[MASK], 所以最后输入到DusBERT的形式可能是[CLS][p0][MASK][p0][p1]
[w1][p1][MASK]...[SEP]; 取除了[CLS]、 [SEP]的所有token的编码进行平均池化, 再接FFN
做2分类任务, 采用梯度传播更新网络参数。
8.根据权利要求7所述的基于MASK训练的辱骂识别方法, 其特征在于, 测试时, 不对文
本进行MASK训练中的替换, 而是采用分词构建输入的输入形式进行预测, 当FFN输出的
sigmoid值大于 0.5时是辱骂, 反 之, 不是。权 利 要 求 书 1/1 页
2
CN 114298017 A
2基于MASK训练 的辱骂识别方 法
技术领域
[0001]本发明涉及数据 挖掘技术领域, 尤其涉及一种基于 MASK训练的辱骂识别方法。
背景技术
[0002]客户服务(Customer Service), 主要体现了一种以客户满意为导向的价值观, 它
整合及管理在预先设定的最优成本——服务组合中的客户界面的所有要素。 广义而言, 任
何能提高客户满意度的内容都属于客户服 务的范围。
[0003]在客服的业务中, 涉及大量的销售(客服)与客户的对话, 严格控制销售及客服人
员的言行规范、 文明不仅有利于成单, 更关系到公司的外在形象, 辱骂是一种性质极为严重
的不文明行为, 应该被杜绝。 传统的辱骂检测方案有关键词匹配、 基于深度学习方法, 这些
方法存在 如下一些不足:
[0004](1)关键词匹配误伤率高, 例如关键词 “下流”, 在“你提个审批, 走下流程 ”会被当
做辱骂, 在我们的实验中, 关键词匹配的准确率仅 仅为0.065, 远远不能满足生产需要。
[0005](2)基于深度学习方法, 比如训练语料中 “你妈的xx ”是辱骂文本, 则训练完成后,
很可能退化成关键词模型, 对于 “你妈的手机 ”也判定为辱骂文本, 解决方法是补足对抗样
本, 例如将 “你妈的手机 ”作为非辱骂文本放入训练集中, 但这样依然会 出现问题, 首先容易
过拟合到x x上; 第二需要补足的文本随着辱骂的词成指数级增长 。
[0006](3)对于字面无辱骂的文本, 但语义上是辱骂性质的文本, 例如 “长的真后现代。 ”
这种判定更加难, 且 可能暗含的文本无限多, 收集类似的数据成本高, 且不一定能有很好的
效果。
[0007](4)另外就是辱骂文本在字面上的多样性, 例如转换成火星文、 转换成拼音、 字形
拆分等等。 这种情况下更是让传统方法不好识别, 单靠增加相应数据, 成本依旧很高, 且覆
盖率不一定全。
[0008]为了解决上述问题和不足之处: 我们提出了种基于 MASK训练的辱骂识别方法。
发明内容
[0009]基于背景技术中提出的关键词匹配误伤率高, 例如关键词 “下流”, 在“你提个审
批, 走下流程 ”会被当做辱骂, 在我们的实验中, 关键词匹配的准确率仅仅为0.065, 远远不
能满足生产需要的技 术问题, 本发明提出一种基于 MASK训练的辱骂识别方法。
[0010]本发明提出的基于MASK训练的辱骂识别方法, 包括Du sBERT训练模型, 具体包括以
下步骤:
[0011]S1: 数据准备;
[0012]S2: 数据清洗;
[0013]S3: 构造字典;
[0014]S4: 数据增强;
[0015]S5: 分词构建输入;说 明 书 1/4 页
3
CN 114298017 A
3
专利 基于MASK训练的辱骂识别方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:49:51上传分享