基于多特征表达和特征融合的RNA结合蛋白分类算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:haolei88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真核细胞中能够与RNA结合的蛋白质称为RNA结合蛋白(RNA-binding protein,RBP)。RBP是一种功能强大而广泛的调节因子,在调节剪接、RNA转运等转录后过程,识别特殊的RNA结合域并与RNA相互作用。因此,快速计算分析和预测对于理解RBP至关重要。本文主要工作是将进化信息,原始序列信息,结构信息以及二肽和三肽分布信息作为特征表达方法,采用多种深度学习方法为每一种特征构建子分类模型。在此基础上,利用特征融合方法和Stacking集成学习方法对子模型的输出特征进行有效融合。本文主要进行了以下研究:首先,依托文献重新整理了一个包含一万余条RBP序列的训练集和三个独立测试集:人类、酿酒酵母、拟南芥;同时,为丰富独立测试集种类,原始构建了一个老鼠独立测试集。针对数据存在的序列长短分布不均衡,正负样本容量不均衡的问题;采用滑动窗口来截取子序列,通过优化窗口长度和滑动步长两个参数,在解决序列长度分布不均问题的同时,缓解正负样本容量的不均衡,同时还扩充了样本的容量。第二,针对以往方法对RBP序列中存在的遗传和变异信息提取不充分的问题,本文提出四个步骤获取更丰富有效的特征:(1)采用位置特异性得分矩阵编码表达RBP序列的遗传进化信息;(2)为进化信息设计包含嵌入层,注意力机制,LSTM与卷积层的深度学习模型,尽可能的捕捉氨基酸的特异性和相似性,同时保留序列的进化信息;(3)为补充结构信息,加入RBP序列的二级结构信息;(4)添加经氨基酸嵌入处理后的原始序列。通过在模型中加入特异性强的结构信息与原始序列信息,使其与进化信息相互结合互为补充,使模型学习到差异性更强和信息量更丰富的知识。第三,针对多肽分布信息和特征多样性不足的问题,加入包含有二肽和三肽信息的多肽分布矩阵;对于三肽分布矩阵过于稀疏的问题,采用改进的Max Pooling方法单方向降低特征维数;最后采用Stacking方法对各子模型特征信息集成并引入可靠的评价指标,全面对比和分析不同参数和不同方法的分类性能。结果表明,我们的模型在四个验证集上优于对比方法,可以更有效的学习RBP特征知识。相关资源可在https://github.com/mmwangxu/Deep Fusion-RBP-tool获取。
其他文献
太阳斑点图像重建是天文观测领域中一个重要的研究问题。由于地球大气的影响,地基望远镜只能观测到模糊的太阳斑点图像,在太阳研究中必须要用到高分辨率的太阳图像。所以太阳斑点图像进行高分辨率的重建一直是天文学和太阳物理学中的重要研究内容。传统重建算法利用太阳斑点图的统计信息,计算过程复杂,重建时间较长。剪切波变换是一种多尺度几何分析方法,相对于其他多尺度几何分析方法,剪切波变换能更好的适应人类的感知,同时
学位
伴随现代技术的发展,社会网络不论从规模和复杂度上来看都呈现出快速增长的势态,针对社会网络的研究如日方升。结构洞是指社会网络中的关键性节点,一般理解为在网络中起到“桥”作用的节点,是网络中连接各个部分的关键。结构洞的研究对分析网络信息传播的扩散特性和网络社区发现都有重要意义。传统结构洞发现算法通常侧重于处理无权社会网络,通过网络的结构特征进行结构洞的发现。而在真实的社会网络中,节点之间除了描述它们关
学位
云南由于地处边疆,地域广阔,长久以来陆路交通不便,发展航空是解决交通不便的重要措施。云南是航空大省,目前云南省运营的机场数量较多,在全国位居前三,仅民用机场数量就达15个之多,为了推进机场安检的智能化建设,本文对智能飞机安全监护和智能机务安全检测进行研究。飞机安全监护系统主要对进入停机坪人员的合法性进行自动识别。由于进入停机坪的人员在监控视频中都是小目标,存在光线昏暗,人员密集等复杂场景,对目标检
学位
Web API是一种可供应用程序实现存储、消息、计算等服务功能的应用编程接口。它的好处在于容易被访问、开发、组合和扩展,因此在基于Mashup的服务系统的构建方面起着重要的支撑作用。随着互联网上Web API数量的迅猛增多,开发者面临着如何从众多功能相似的API中挑选最合适的目标以构建Mashup的问题,这为开发者带来了许多挑战。通过构建API的推荐系统则有助于缓解此问题,因此已经有许多基于协同过
学位
随着全球一体化进程发展和“一带一路”倡议的提出,中国与周边国家的经济、技术、文化交流在广泛和纵深方面不断发展。彼此间跨语言的共享和交流成为保障和巩固发展的前提。近年来,自然语言处理技术地进步带来了机器翻译技术的飞速发展和翻译质量的大幅提升,但对于语料匮乏的非通用语翻译来说,仍然难以从根本上解决机器翻译质量低等问题。群智协同计算是伴随互联网和大数据地发展所提出的,对开放网络环境中群智资源的高效管理和
学位
基于位置的社交网络(LBSN)随着技术的不断革新,受到越来越多的人们喜爱,由此产生大量位置相关数据,可用来提供基于位置的服务。在位置服务研究中兴趣点(POI)推荐备受关注。兴趣点推荐可以帮助用户探索感兴趣的地点,在兴趣点推荐时不可避免的面临着用户签到数据稀疏以及如何提高用户满意度的问题。在用户探索某一兴趣点的过程中,时空因素具有较大的影响作用。因此,本文提出两种兴趣点推荐方法,探索时空因素对用户访
学位
安全是机场的生命线,是民航业永恒的主题,建设机场安全监管平台至关重要,“智”造加速势在必行。然而目前机场停机坪一线人员缺乏必要的信息终端,且监控系统不够智能,因此,一方面一线人员面临突发情况,难以迅速找到相关预案,更重要的是缺乏对一线岗位的安全工作和规范操作的实时、完整管控,难以对机场安全态势进行整体把握,相关信息滞后失真,安全管理常常是事后管理。本文对云南机场集团丽江三义国际机场停机坪视频监控中
学位
蛋白质的可溶性是指蛋白质能否以小分子状态溶解于水或其它溶质的能力。可溶性是蛋白质生物物理研究和工业应用成功的重要先决条件,对基于蛋白质的药物设计和食品生产有至关重要的作用。传统生物实验对蛋白质可溶性的测定费时费力,也难以满足蛋白质数量的增长速度。蛋白组数据的累积为基于计算方法的蛋白质可溶性预测创造了可能性,也使之成为一个可选的替代方法。然而,现有方法在表示和挖掘可溶性特征时,仍存在一定的改进空间。
学位
关联实体是知识的直观表达方式,知识图谱(Knowledge Graph,KG)包含大量三元组形式的关联实体,为知识驱动的应用提供结构化资源。给定查询,KG关联实体排序通过量化评价关联强度,明确候选实体的先后顺序。KG关联实体排序是实体链接、实体推荐、关联查询和关联实体推理等面向实体应用的重要环节。同时,KG关联实体排序是增强智能系统在知识发现、融合和计算过程中关联分析能力的关键要素,具有重要意义。
学位
随着Web2.0应用的迅速发展和快速普及,大量用户生成的数据成为了Web信息服务的基础,例如,产生于电商平台的网购数据可用于分析用户的购物偏好,从而实现商品的个性化推荐。这些数据中的特征之间往往存在非线性的图型依赖关系,同时存在无法观测到的特征(如用户对商品多个描述维度的偏好)。对数据进行建模、并实现有效的信息服务,需要建立有效描述无法观测到的特征并对所蕴含的依赖关系进行有效计算分析的知识模型。作
学位