团体标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111672999.0 (22)申请日 2021.12.31 (65)同一申请的已公布的文献号 申请公布号 CN 114357168 A (43)申请公布日 2022.04.15 (73)专利权人 成都信息工程大学 地址 610225 四川省成 都市西南 航空港经 济开发区学府路1段24 号 (72)发明人 岳希 周涛 何磊 唐聃 高燕  刘斌  (74)专利代理 机构 成都云纵知识产权代理事务 所(普通合伙) 51316 专利代理师 熊曦 伍星 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/126(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 110532386 A,2019.12.0 3 CN 110047584 A,2019.07.23 CN 111444343 A,2020.07.24 CN 110580288 A,2019.12.17CN 107301246 A,2017.10.27 CN 111222339 A,2020.0 6.02 CN 110609899 A,2019.12.24 CN 111047054 A,2020.04.21 CN 110728298 A,2020.01.24 CN 113111871 A,2021.07.13 CN 110413785 A,2019.1 1.05 CN 109285112 A,2019.01.2 9 CN 110851604 A,2020.02.28 CN 111309920 A,2020.0 6.19 CN 112926322 A,2021.0 6.08 CN 113704473 A,2021.1 1.26 CN 1097107 70 A,2019.0 5.03 CN 111027632 A,2020.04.17 CN 110334210 A,2019.10.15 US 2021150340 A1,2021.0 5.20 周丽等.一种基 于GAN的异构信息网络表示 学习方法. 《计算机与现代化》 .2020,(第0 5期), 杜思佳等.基 于深度学习的文本分类 研究进 展. 《网络与信息安全学报》 .2020,(第04期), 吕璐成等.基 于深度学习的中文专利自动分 类方法研究. 《图书情 报工作》 .2020,(第10期), (续) 审查员 周循 (54)发明名称 一种文本分类方法 (57)摘要 本发明公开了一种文本 分类方法, 涉及 文本 智能处理领域, 所述方法包括: 构建第一文本分 类模型; 采集样本文本数据, 对所述样本文本数 据进行处理获得训练集; 利用所述训练集训练所 述第一文本分类模型获得第二文本分类模型; 获 得待分类文本数据, 将所述待分类文本数据输入 所述第二文本分类模型, 所述第二文本分类模型 输出所述待分类文本数据的分类结果; 本方法能 够提升对长文本的文本信息的提取效果。 [转续页] 权利要求书2页 说明书9页 附图2页 CN 114357168 B 2022.08.02 CN 114357168 B (56)对比文件 Yingxin Song.MIHNet: Combi ning N-gram, Sequential and Gl obal informati on for Text Clas sificati on. 《Journal of Physics: Conference Series》 .2019,第1-8页.2/2 页 2[接上页] CN 114357168 B1.一种文本分类方法, 其特 征在于, 所述方法包括: 构建第一文本分类模型; 采集样本文本数据, 对所述样本文本数据进行处 理获得训练集; 利用所述训练集训练所述第一文本分类模型获得第二文本分类模型; 获得待分类文本数据, 将所述待分类文本数据输入所述第二文本分类模型, 所述第二 文本分类模型输出 所述待分类文本数据的分类结果; 其中, 所述第一文本分类模型包括: 输入层, 所述输入层用于获得输入文本数据; Bert预训练模型, 所述Bert预训练模型用于对所述输入文本数据进行编码获得词向 量, 基于所述词向量获得第一输入序列; 卷积单元, 所述卷积单元包括: 第一池化层、 第一至第k卷积块, k为大于1的整数, 所述 第一池化层用于对所述第一输入序列进行下采样处理获得第二输入序列; 第一至第k卷积 块依次连接, 第一卷积块的输入为所述第二输入序列, 所述第一卷积块的输出为第二卷积 块的输入, ..., 第k ‑1卷积块的输出为第k卷积块的输入; 第一至第k卷积块中的每个卷积块 均包括一个卷积层和一个激活层, 所述卷积层用于对输入所述卷积块的数据进行特征提取 获得特征向量, 所述激活层用于对所述特 征向量进行激活 处理; 通过残差连接将所述第 一池化层的输出和所述第 k卷积块的输出叠加后输入第 二池化 层, 所述第二池化层用于对叠加后的输入数据进行降维处 理获得池化结果; 全连接层, 所述全连接层用于对所述池化结果进行分类并将分类结果传输 至输出层; 输出层, 所述输出层用于 输出所述输入文本的分类结果。 2.根据权利要求1所述的文本分类方法, 其特征在于, 所述第 一输入序列的长度为n, 所 述卷积层的卷积核 大小为m, 步长为s, 在所述第一输入序列两端分别填补p个零所述卷积层 的输出序列为(n ‑m+2p)/s+1。 3.根据权利要求2所述的文本分类方法, 其特征在于, 所述卷积层中, s=1, m=250, 所述卷积层的输出序列的长度为 n。 4.根据权利 要求1所述的文本分类方法, 其特征在于, 所述第一池化层的大小size=3, 步长stride=2。 5.根据权利要求1所述的文本分类方法, 其特征在于, 所述方法包括: 对所述样本文本 数据进行处 理获得训练集、 测试集和验证集。 6.根据权利要求5所述的文本分类方法, 其特征在于, 所述方法包括: 对训练集、 测试集 和验证集进行字符向量编 码以及分词处理, 生成所述第一文本 分类模型能够识别的数据结 构和标签列表。 7.根据权利要求6所述的文本分类方法, 其特征在于, 所述方法包括: 对训练集、 测试集 和验证集中的中文字 符以字为单位进行分词, 对于每个t oken字符返回该字 符的词表索引, 在文本标签化序列中首尾添加标志位[CLS]和[SEP], 并统一训练集、 测试集和验证集中的 序列长度, 对序列长度小于阈值的序列进 行补位, 当序列真实长度小于最长序列长度时, 对 真实序列进行第一标识, 对补位长度进行第二标识。 8.根据权利要求6所述的文本分类方法, 其特征在于, 所述方法包括: 对训练集、 测试集权 利 要 求 书 1/2 页 2 CN 114357168 B 3

.PDF文档 专利 一种文本分类方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本分类方法 第 1 页 专利 一种文本分类方法 第 2 页 专利 一种文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:48:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。