(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111669140.4
(22)申请日 2021.12.31
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 刘博 张冀东 王志晗 武嘉慧
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
专利代理师 沈波
(51)Int.Cl.
G16B 20/00(2019.01)
G16B 30/00(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于自注 意力卷积的核糖核酸-蛋白质
位点识别方法
(57)摘要
本发明公开了一种基于自注意力卷积的核
糖核酸‑蛋白质位点识别方法, 从相关公开数据
集库或相关公开数据网站获取RBP结合位点序列
数据; 预处理数据集, 利用独热编码对数据进行
重新编码, 作为模型的输入数据 将处理好的训练
集数据输入到模 型当中, 利用损失函数和反向传
播算法自更新模型参数。 通过设置的好的早停
法, 获取最优模型并保存该模型。 整体完成后利
用测试集进行测试。 本发明通过多头自注意力机
制捕获全局特征, 有效的弥补卷积方法只能关注
局部特征的问题, 在有效降低模 型参数量的同时
仍可保持模型整体分析效果。
权利要求书1页 说明书3页 附图3页
CN 114464249 A
2022.05.10
CN 114464249 A
1.一种基于自注意力卷积的核糖核酸 ‑蛋白质位点识别方法, 其特征在于: 该方法的执
行步骤如下,
步骤1、 从相关公开数据集库或相关公开数据网站获取RBP结合 位点序列数据;
步骤2、 预处 理数据集, 利用独热编码对数据进行重新编码, 作为模型的输入数据;
步骤3、 将处理好的训练集数据输入到模型当中, 利用损失函数和反向传播算法自更新
模型参数;
步骤4、 通过设置的好的早停法, 获取最优模型并保存该模型; 整体完成后利用测试集
进行测试。
2.根据权利要求1所述的一种基于自注意力卷积的核糖核酸 ‑蛋白质位点识别方法, 其
特征在于: 步骤1的实现过程如下:
从公开数据库或公开数据网站下载公共数据集完毕后, 将数据集分为正类数据集与负
类数据集, 正类表示经过生物实验验证为核糖核酸 ‑蛋白质RBP结合位点序列, 负类则是从
非该位点的序列中随机抽取的序列, 保证负类数据集与正类数据集数据量相同。
3.根据权利要求1所述的一种基于自注意力卷积的核糖核酸 ‑蛋白质位点识别方法, 其
特征在于: 步骤2的实现过程如下:
对数据进行预处理, 将长度不等的RBP序列同规划 成长度为500的序列; 针对过长的序
列进行剪裁, 对长度不 足的序列用无意义占位符N在该条序列后补 充, 并将待操作数据通过
独热编码的方式编码成向量化数据; RNA序列包含四种碱基, 分别为: A腺嘌 呤、 G鸟嘌 呤、 C胞
嘧啶和U尿嘧啶, 这四种碱基, 加上无效占位符N, 即有五种字符需要编码, 其分别对应编码
向量: [1,0,0,0]、 [0,1,0,0]、 [0,0,1,0]、 [0,0,0,1]和[0,0,0,0]; 对编码后的数据按 4: 1的
比例进行训练集、 测试集划分。
4.根据权利要求1所述的一种基于自注意力卷积的核糖核酸 ‑蛋白质位点识别方法, 其
特征在于: 步骤3的实现过程如下:
根据步骤2获得好的编码数据, 输入进网络之中进行训练学习; 该网络是由三层特征提
取层; 每层的特征提取层首先是由多头自注意力机制MHA和卷积神经网络CNN组成的特征提
取模块, 随后是激活函数层, 激活函数为tanh, 和最大池化层, 并配合dropout方法;
经过特征提取层后会形成高维特征向量, 该向量会经过一层扁平层后进入由两层全连
接层组成的分类器中; 第一层的全连接层输出维度为512, 第二层输出维度 2, 即最终识别是
或不是的概率大小, 并依据此概率进行分类判别; 为降低过拟合的影响, 同样会配合着
dropout方法。
5.根据权利要求1所述的一种基于自注意力卷积的核糖核酸 ‑蛋白质位点识别方法, 其
特征在于: 步骤4的实现过程如下:
利用训练数据集配合着交叉熵算法对模型进行训练, 完成模型参数自更新; 完成一次
正向传播与反向传播为一次epoch; epoch设置为8 0; 随后利用早停法, 当数据在验证集上获
得的效果不在上升超过10次epoch后就会停止训练; 验证集是按10%的比例从训练集中划
分种出来的; 获取到最优模 型后, 利用测试集数据测试获取到模型效果; 训练集和测试集是
从原始正负类数据集中划分出来的, 训练集与测试集的比例为 4: 1。权 利 要 求 书 1/1 页
2
CN 114464249 A
2一种基于自注意力卷积的核糖核酸 ‑蛋白质位点识别方 法
技术领域
[0001]本发明属于深度学习领域, 主要用于核糖核酸 ‑蛋白质(RNA ‑binding protein,以
下简称为RBP)结合点位的识别方法, 相较于以往的方法, 本方法提出了以注意力机制与卷
积神经网络为基础的深度学习方法, 该方法有效的挖掘了RBP序列的潜在特征, 提升了识别
效率, 同时降低了方法的参数量, 更加轻量 化。
背景技术
[0002]核糖核酸(RNA), 主要存在于生物细胞中, 在生命体中发挥着调控基因编码的作
用, 同时也担任着转录过程后的蛋白质合 成模板的角色。 而一条RNA想要完成蛋白质合成任
务, 脱离不了RBP的帮助。 RBP作为翻译过程中重要的媒介物质, 是起到重要作用的关键参与
者。 它们与编码或非编码RNA有高度的互动, 调节RNA的剪切、 多腺苷 酸化、 稳定性、 定位和退
化。 在一系 列的相关研究中发现, RBP与癌症、 肿瘤等相关疾病有密切的相关性, 例如ELAV L1
结合蛋白在肿瘤的增殖、 转移血管生成以及耐药性方面就存在着一定关联。 因此, 研究RBP
与RNA的结合有助于对以肿瘤为代表的相关生物学内容做出更好的解释, 推动相关研究的
发展。
[0003]随着高通量技术的发展, 大量的RNA序列数据得以产出。 对于数据量大, 维度高的
生物序列数据, 一般的生物实验方法对于确定RBP结合位点需要较高的人力物力成本。 因
此, 基于计算的方法成为了对RBP结合位点识别方法中的应用热点。 最近, 由于深度学习可
以捕获高维数据中的潜在特征, 在图像, 翻译等领域突破性的进展, RBP序列结合位点的分
析也逐渐的应用到 了深度学习。
[0004]在深度学习领域中, 卷积神经网络(Convolutional neural network,以下简称
CNN)成为了主要的应用方法。 但是, CNN更多是关注于RBP数据局部的特征, 并未能关注全局
特征。 因此, 我们此处利用了多头自注意力机制(Mu lti‑head self‑attention, 简称MHA)作
为全局特征捕捉手段进行补充。 MHA早期是作为分析序列化数据, 如自然语言数据。 随着对
MHA的不断深入研究, 其在图像等领域上 逐渐取的了良好的成果。
[0005]本发明专利基于以上方法做了结合, 应用于RBP结合位点的识别之中。 调研发现,
在本发明之前并没有相同技 术应用于RBP位 点识别领域之中, 具有创新 性和原创性
发明内容
[0006]本发明将RBPs结合位点数据构建可学习的数据, 再利用多个由MHA与CNN共同组成
的特征提取层捕获潜在特征, 生成高维特征向量, 并将此类特征向量输入到基于全连接神
经网络的分类器中作判别 分析, 并与实际标签作比较, 同时设置交叉熵损失函数指导模型
训练。 训练完成后, 保存模型参数, 调用此模型可实现RBPs结合位点判别。 本发明中的特征
提取层与传统的CN N特征提取层相比, 在降低该层参数量并保证甚至提升最终分析效果。
[0007]本发明针对RBP结合位点识别任务提出了以MHA与CNN结合的深度模型(模型结构
图见说明书附图1), 对从公开数据集库获取的RBP数据集进 行数据预 处理, 首先将长度都统说 明 书 1/3 页
3
CN 114464249 A
3
专利 一种基于自注意力卷积的核糖核酸-蛋白质位点识别方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:47:48上传分享