团体标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111652902.X (22)申请日 2021.12.3 0 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区 (72)发明人 王引苗 韩志敏 游科友 林志赟  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 杨舟涛 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/28(2019.01) G06F 40/289(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于多跳路径的生物医学知识库补全方法 及装置 (57)摘要 本发明公开了一种基于多跳路径的生物医 学知识库补全 方法及装置, 在生物医学知识库中 存在着大量的关于疾病、 药物和基因等实体的信 息, 补全知识库中实体 之间缺失的关系可以改善 许多重要的应用, 例如药物设计和再利用。 为了 对生物医学知识库中缺少的实体关系进行补全, 本发明使用了长短时记忆网络对生物医学知识 库中存在的多跳路径集合进行编码, 注意力机制 对多跳路径集合的编码结果进行汇总, 实现了实 体关系补全。 最后 在药物和疾病为主的数据集上 进行实验, 实验结果表明, 该方法充分地利用了 路径信息, 不使用外 部工具, 具有更好的竞争性。 权利要求书2页 说明书6页 附图1页 CN 114328493 A 2022.04.12 CN 114328493 A 1.一种基于多跳路径的生物医学知识库补全方法, 其特 征在于, 包括以下步骤: 步骤1: 对生物医学知识库中的三元组数据进行预处理, 包括: 获取数据集中实体的名 称及描述; 将实体名称及 描述转化为词向量的形式并保存; 选择待测试的实体关系; 从数据 集中抽取多跳路径, 并对路径进行负采样, 将抽取 的路径以及负采样得到的路径构成多跳 路径集合, 将多跳路径集 合划分成训练集和 测试集; 步骤2: 将预处理后的实体名称向量和实体描述向量集合输入到注意力机制中, 以获取 实体的最终表示向量; 步骤3: 将每条路径中实体的最终表示向量输入到长短时记忆网络LSTM中对实体进行 编码, 将LSTM每 个时间步的隐藏状态作为本层输出; 步骤4: 将步骤3的输出向量和路径中包含的实体关系向量进行拼接, 将拼接后的向量 输入到LSTM中进行编码, 将最后一个时间步的隐藏状态作为该条路径预测的实体关系向 量; 步骤5: 重复步骤2 ‑4, 对多跳路径集合中剩余的路径进行编码, 得到预测的实体关系向 量集合, 将实体关系向量 集合输入到注意力机制中, 得到实体对缺失的实体关系。 2.根据权利要求1所述的基于多跳路径的生物医学知识库补全方法, 其特征在于, 所述 步骤1中预处 理具体为: (1.1)获取数据集中实体 的名称及描述, 对于数据集中缺少描述的实体, 从DrugBank、 Disease Ontology、 Gene Ontology中抓取对应的实体描述; (1.2)使用预训练的词向量将实体名称转换为词向量, 对实体描述进行分词, 并将分词 后的结果同实体名称一样转换为词向量 集合, 并保存; (1.3)在数据集中选择最常见的若干种实体关系作为被测关系; (1.4)使用 广度优先方法在数据集中获取实体对之间的多跳路径, 并对每对实体随机 抽取若干条路径进行负采样; (1.5)将抽取的路径以及负采样得到的路径构成多跳路径集合, 将多跳路径集合划分 成训练集和 测试集。 3.根据权利要求1所述的基于多跳路径的生物医学知识库补全方法, 其特征在于, 所述 步骤2中获取实体的最终表示向量具体为: 将实体名称ek和实体描述τk={tk, 1,…, tk,n‑1, tk,n}输入到注意力机制中, 计算实体描述 中不同词的权 重αk, o: zk, o=f(V(tk, o)+V(ek)), o=1, 2,…, n 其中αk, o代表实体描述τk中第o个词tk, o的权重, zk, o是一个中间变量, V(tk, o), V(ek)分别 代表实体描述τk中第o个词的向量和实体名称ek向量, f(·)是全连接网络, n表示实体描述 中词的数量; 将得到的权重αk, o与实体描述向量集合的乘积之和作为实体ek的最终表示向量 *表示按位相乘。 4.根据权利要求3所述的基于多跳路径的生物医学知识库补全方法, 其特征在于, 所述权 利 要 求 书 1/2 页 2 CN 114328493 A 2步骤3中对实体进行编码具体为: 每条路径中包含m个实体, 使用LSTM对路径中包含的实体的最终表示向量[E1,…, Em‑1, Em]进行编码, 将每个时间步的隐藏状态[H1,…, Hm‑1, Hm]作为编码结果, [H1,…, Hm‑1, Hm]= LSTM([E1,…, Em‑1, Em])。 5.根据权利要求1所述的基于多跳路径的生物医学知识库补全方法, 其特征在于, 所述 步骤4中对实体关系进行编码具体为: 将步骤3得到的结果[H1,…, Hm‑1, Hm], 与路径中包含的实体关系向量[V(r1),…, V (rm‑1), V(rm)]进行拼接, 每条路径中包括m ‑1个实体关系, 为了使实体数量和关系数量匹 配, 为每条路径增加一个路径结束标志V(rm); 将拼接后得到的结果输入到LSTM网络中, 将 LSTM网络最后一个时间步的隐藏状态作为该路径预测的关系向量p1。 6.根据权利要求1所述的基于多跳路径的生物医学知识库补全方法, 其特征在于, 所述 步骤5中关系补全具体为: 重复步骤2 ‑4, 对多跳路径集合中剩余的路径进行编码, 得到预测的实体关系向量集合 P=[p1,…, pN‑1, pN], N是多跳路径集合 中路径的数量; 将实体关系向量集合P和给定的实体 关系向量r之差的绝对值输入到注意力机制中, 对 所有路径的误差进 行汇总, 得到缺 失的实 体关系; 注意力机制汇总误差的方法如下: Δi=|r‑pi| hi=f(pi+r) P(r|e1, em)= δ(f( ε(P, r) )) 其中Δi是第i条路径产生的误差, hi是一个中间变量, f( ·)是全连接网络, βi是第i条 路径的权重, ε(P, r)是多跳路径集合的误差汇总向量, δ( ·)是sigmoid函数, P(r|e1, em)是 预测的实体对(e1, em)与给定关系r的概率向量, 取P(r|e1, em)的最大值对应的实体关系作 为实体对缺失的关系。 7.一种基于多跳路径的生物医学知识库补全装置, 包括存储器和一个或多个处理器, 所述存储器中存储有可执行代码, 所述处理器执行所述可执行代码时, 用于实现如权利要 求1‑6中任一项所述的基于多跳路径的生物医学知识库补全方法。 8.一种计算机可读存储介质, 其上存储有程序, 该程序被处理器执行时, 实现如权利要 求1‑6中任一项所述的基于多跳路径的生物医学知识库补全方法。权 利 要 求 书 2/2 页 3 CN 114328493 A 3

.PDF文档 专利 基于多跳路径的生物医学知识库补全方法及装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多跳路径的生物医学知识库补全方法及装置 第 1 页 专利 基于多跳路径的生物医学知识库补全方法及装置 第 2 页 专利 基于多跳路径的生物医学知识库补全方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:50:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。