团体标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111651286.6 (22)申请日 2021.12.31 (65)同一申请的已公布的文献号 申请公布号 CN 114003726 A (43)申请公布日 2022.02.01 (73)专利权人 山东大学 地址 250013 山东省济南市历城区山大南 路27号 (72)发明人 孙宇清 谢翌  (74)专利代理 机构 济南竹森知识产权代理事务 所(普通合伙) 37270 代理人 吕利敏 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/117(2020.01)G06F 40/126(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 109213995 A,2019.01.15 CN 111552816 A,2020.08.18 CN 112784013 A,2021.0 5.11 CN 113051397 A,2021.0 6.29 KR 20200087977 A,2020.07.2 2 李培芸.融合BERT语境词向量的译 文质量估 计方法研究. 《中文信息学报》 .2020,第5 6-63页. Yifei Guan 等.Understandi ng Lexical Feature for C hinese Essay Gradi ng. 《Springer》 .2019,第645 -657页. 审查员 王璐 (54)发明名称 一种基于子空间嵌入的学术论文差异性分 析方法 (57)摘要 本发明公开一种基于子空间嵌入的学术论 文差异性分析方法, 属于自然语言处理的技术领 域。 本发明针对论文差异性分析目标, 提出了融 合专家规则的论文子空间嵌入模 型。 引入子空间 概念描述论文不同层面的学术创新, 提出基于预 训练模型的论文子空间语义 嵌入方法。 本发明将 摘要等重点关注文本建模成不同子空间语义向 量, 相较于传统的基于文本向量的差异性分析方 法, 子空间嵌入更能够体现学术创新的不同特 点。 引入学术界的基本共识作为度量两篇比较论 文差异性的规则, 提出基于对比学习的规则嵌入 模型, 采用孪生神经网络与对比损失函数进行多 规则联合嵌入学习, 以分析论文差异性。 权利要求书4页 说明书14页 附图6页 CN 114003726 B 2022.04.08 CN 114003726 B 1.一种基于子空间嵌入的学术论文差异性分析方法, 其特征在于, 包括, 针对论文中某 一特定部分文本进行论文差异评分: 1) 设论文 某一特定部分文本包含 个句子 , 利用神经网络预训练文本编码 器模型BERT作为编码器, 得到句向量序列 ; 2) 采用条件随机场方法CRF作为预训练序列标记模型, 对某一特定部分文本进行句子 级别的功能子 空间标记, 得到句子功能标记序列 , , 其中 为 子空间数量; 3) 基于句向量序列 和句子功能标记序列 , 对论文 的某一特定部分文本进行子空 间融合嵌入, 即对相同句子功能标记的句向量进行语义融合; 采用了基于全局注意力机制和池化操作的多层感知机神经网络的子空间融合嵌入方 法, 以获得不同子空间交 互信息, 计算方式如下:                      (1)                    (2)                    (3)                  (4)                  (5) 在公式 (1) 中, 表示子空间 中第 个句子的句向量; 其中 表示编码器计算 出来的第 个句子的句向量; 是运算符, 表示点积; 是指示函数, 当第 个句子的 功能标记为子空间 时, , 否则 ; 在公式 (2) 中, 表示子空间 中全部句子的句向量序列; 在公式 (3) 、 (4) 中, 其中; 分别是多层感知机神经网络的权重 参数和偏差参数, ; 在公式 (5) 中, 为子空间 中的文本嵌入向量, 是子空间 的权重矩阵, 是基 于全局注意力机制的权 重参数, 是基于全局注意力机制的偏差参数; 然后采用基于全局注意力机制融合 其他子空间作为上 下文信息, 记为 ; 最后融合子空间 中的文本嵌入向量 和上下文信息 为嵌入结果 :                      (6)                       (7)权 利 要 求 书 1/4 页 2 CN 114003726 B 2                        (8) 在公式 (6) 中, 表示对于子空间 作为上下文融合到子空间 中的权重, 和 分 别表示子空间 和 中的文本嵌入向量; 在公式 (7) 中, 表示除子空间 外的全部子空间嵌入的加权和; 是子空间 中的 文本嵌入向量; 在公式 (8) 中, 是融合上 下文信息后的子空间 的嵌入结果; 4) 最终子空间语义差异评分函数 如下:                     (9) 在公式 (9) 中, 表示论文的文本; 为向量欧氏距离; 为论文 子空间 的嵌入向 量; 为论文 子空间 的嵌入向量; 对于论文 , 采用期望方式计算嵌入向量: (10) 在公式 (10) 中, 为指示函数, 计算方式为子空间 中全部句子的子空间嵌入 平均值; 对于论文 , 的求取原理与公式 (10) 相同。 2.根据权利要求1所述的一种基于子空间嵌入的学术论文差异性分析方法, 其特征在 于, 还包括: 引入学术界度量论文间差异性的基本共识作为专家规则, 设计评价函数量化论文差 异, 评价指标包括基于摘要的论文差异评分函数 、 基于学科分类标记的论文差异 评分 、 基于参考文献的论文差异评分 、 基于关键词的论文差异评分 , 其中 分别表示 论文文本、 分类、 参 考文献、 关键词; 所述基于学科分类 标记的论文差异评分, 包括: 给定两篇文章 和 , 用 和 分别表 示从根节点到论文标记节点之间的路径, 定义两篇文章的学科分类的标记的差异函数 : (11) 在公式 (11) 中, 表示当前节点 在学术论文分类系统的层次, 所述 分类系统是指学术 论文分类系统是专家创建的不同研究领域学术内容的层次化分类系统; 表示该层次节 点的权重; 所述基于参考文献的论文差异评分, 包括: 定义两篇文章 和 的差异评分函数 为引用文献集 合 和 的杰卡德系数的倒数:权 利 要 求 书 2/4 页 3 CN 114003726 B 3

.PDF文档 专利 一种基于子空间嵌入的学术论文差异性分析方法

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于子空间嵌入的学术论文差异性分析方法 第 1 页 专利 一种基于子空间嵌入的学术论文差异性分析方法 第 2 页 专利 一种基于子空间嵌入的学术论文差异性分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:47:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。