团体标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111652552.7 (22)申请日 2021.12.3 0 (71)申请人 北京尘锋信息技 术有限公司 地址 100020 北京市朝阳区安 立路78、 80号 05层501内506室 (72)发明人 赵继帆 吉庆琳  (74)专利代理 机构 北京东灵通专利代理事务所 (普通合伙) 61242 代理人 李金豹 (51)Int.Cl. G06F 40/253(2020.01) G06F 40/237(2020.01) G06F 40/289(2020.01) G06N 3/08(2006.01) (54)发明名称 基于MASK训练的辱骂识别方法 (57)摘要 本发明属于数据挖掘技术领域, 尤其是基于 MASK训练的辱骂识别方法, 包括DusBERT训练模 型, 具体包 括以下步骤: S1: 数据准备; S2: 数据清 洗; S3: 构造字典; S4: 数据增强; S5: 分词构建输 入; S6: MASK训练; S7: 结束, 所述S1的步骤中, 从 网络上收集脏话数据, 另外收集不带脏词但语义 上是辱骂的的文本, 该文本实验中不作为训练数 据, 而仅仅作为特殊测试数据, 非辱骂文本来自 于之前各种任务的随机抽样。 本发 明从特殊测试 集上来看, 不需要额外准备数据, 大大节省成本 且达到较高水平, 在未使用特殊测试集训练的情 况下, 能够区分包含脏字脏词但非辱骂语义以及 暗喻辱骂文本, 足可 见模型方法的泛华能力。 权利要求书1页 说明书4页 附图1页 CN 114298017 A 2022.04.08 CN 114298017 A 1.一种基于MASK训练的辱骂识别方法, 包括DusBERT训练模型, 其特征在于, 具体包括 以下步骤: S1: 数据准备; S2: 数据清洗; S3: 构造字典; S4: 数据增强; S5: 分词构建输入; S6: MASK训练; S7: 结束。 2.根据权利要求1所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S1的步骤 中, 从网络上收集脏话数据, 另外收集不带脏词但语义上是辱骂的的文本, 该文本实验中不 作为训练数据, 而仅仅作为特殊测试数据, 非辱骂文本来自于之前各种任务的随机抽样, 并 通过人工筛选和增加, 存在脏 字脏词但非辱骂文本, 加入特殊测试集。 3.根据权利要求2所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S2的步骤 中, 通过人工筛选的通过一些 预处理手段对这些文本清洗 。 4.根据权利要求3所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S3的步骤 中, 基于收集到的语料, 将预 料中的脏词按字的粒度构成一个字典。 5.根据权利要求4所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S4的步骤 中, 基于上述的字典数据随机做一些增强, 增强的手段如转换成拼音、 转换成火星文、 将字 进行一些拆 分、 随机加入一些噪音字 符, 将这些增强后的字符也同样加入到字典中, 这里的 增强仅仅对相应字典脏字脏词的数据进 行增强, 随后将数据按 7:2:1的比例分成训练集、 验 证集、 测试集。 6.根据权利要求5所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S5的步骤 中, 经过数据增强后, 我们对文本进 行词性标注POS, 考虑到对于收集文本的特点, 分词采用 的是LTP, 然后将POS后的词以及词性 一起作为BERT的输入。 7.根据权利要求6所述的基于MASK训练的辱骂识别方法, 其特征在于, 所述S6步骤中, 训练过程中, 当某个文本中存在上述步骤中字典包含的字, 则以0.98的概率将改字替换成 DusBERT(BERT)预训练任务的特殊token——[MASK],而对于不在该字典的词则以0.05的概 率随机替换成[MASK], 所以最后输入到DusBERT的形式可能是[CLS][p0][MASK][p0][p1] [w1][p1][MASK]...[SEP]; 取除了[CLS]、 [SEP]的所有token的编码进行平均池化, 再接FFN 做2分类任务, 采用梯度传播更新网络参数。 8.根据权利要求7所述的基于MASK训练的辱骂识别方法, 其特征在于, 测试时, 不对文 本进行MASK训练中的替换, 而是采用分词构建输入的输入形式进行预测, 当FFN输出的 sigmoid值大于 0.5时是辱骂, 反 之, 不是。权 利 要 求 书 1/1 页 2 CN 114298017 A 2基于MASK训练 的辱骂识别方 法 技术领域 [0001]本发明涉及数据 挖掘技术领域, 尤其涉及一种基于 MASK训练的辱骂识别方法。 背景技术 [0002]客户服务(Customer  Service), 主要体现了一种以客户满意为导向的价值观, 它 整合及管理在预先设定的最优成本——服务组合中的客户界面的所有要素。 广义而言, 任 何能提高客户满意度的内容都属于客户服 务的范围。 [0003]在客服的业务中, 涉及大量的销售(客服)与客户的对话, 严格控制销售及客服人 员的言行规范、 文明不仅有利于成单, 更关系到公司的外在形象, 辱骂是一种性质极为严重 的不文明行为, 应该被杜绝。 传统的辱骂检测方案有关键词匹配、 基于深度学习方法, 这些 方法存在 如下一些不足: [0004](1)关键词匹配误伤率高, 例如关键词 “下流”, 在“你提个审批, 走下流程 ”会被当 做辱骂, 在我们的实验中, 关键词匹配的准确率仅 仅为0.065, 远远不能满足生产需要。 [0005](2)基于深度学习方法, 比如训练语料中 “你妈的xx ”是辱骂文本, 则训练完成后, 很可能退化成关键词模型, 对于 “你妈的手机 ”也判定为辱骂文本, 解决方法是补足对抗样 本, 例如将 “你妈的手机 ”作为非辱骂文本放入训练集中, 但这样依然会 出现问题, 首先容易 过拟合到x x上; 第二需要补足的文本随着辱骂的词成指数级增长 。 [0006](3)对于字面无辱骂的文本, 但语义上是辱骂性质的文本, 例如 “长的真后现代。 ” 这种判定更加难, 且 可能暗含的文本无限多, 收集类似的数据成本高, 且不一定能有很好的 效果。 [0007](4)另外就是辱骂文本在字面上的多样性, 例如转换成火星文、 转换成拼音、 字形 拆分等等。 这种情况下更是让传统方法不好识别, 单靠增加相应数据, 成本依旧很高, 且覆 盖率不一定全。 [0008]为了解决上述问题和不足之处: 我们提出了种基于 MASK训练的辱骂识别方法。 发明内容 [0009]基于背景技术中提出的关键词匹配误伤率高, 例如关键词 “下流”, 在“你提个审 批, 走下流程 ”会被当做辱骂, 在我们的实验中, 关键词匹配的准确率仅仅为0.065, 远远不 能满足生产需要的技 术问题, 本发明提出一种基于 MASK训练的辱骂识别方法。 [0010]本发明提出的基于MASK训练的辱骂识别方法, 包括Du sBERT训练模型, 具体包括以 下步骤: [0011]S1: 数据准备; [0012]S2: 数据清洗; [0013]S3: 构造字典; [0014]S4: 数据增强; [0015]S5: 分词构建输入;说 明 书 1/4 页 3 CN 114298017 A 3

.PDF文档 专利 基于MASK训练的辱骂识别方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于MASK训练的辱骂识别方法 第 1 页 专利 基于MASK训练的辱骂识别方法 第 2 页 专利 基于MASK训练的辱骂识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:49:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。