基于序列的蛋白质表征学习方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:BENLAOQIAN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的不断进步和发展,针对不同物种及组织的蛋白质组测序已经为国内外研究者提供了多样化的蛋白质序列数据库。可用蛋白质序列数量的不断增加,也让对于蛋白质生物学以及蛋白质相关下游任务的研究向数据驱动转变,机器学习和深度学习方法在蛋白质组学相关任务中被广泛应用。如何从蛋白质序列中挖掘得到蕴含结构和功能语义信息的蛋白质向量表征,已经是国内外研究者关注的热点。另外,海量的蛋白质序列数据背景下也出现了另一种矛盾,对于某一特定生物问题,可获取的有任务标签的蛋白质序列数据往往规模较小,使得深度学习模型无法发挥其性能。针对上述两个问题,本文提出了两种基于序列的蛋白质表征学习方法,并分别将其应用在蛋白质溶解性预测问题以及蛋白质亚细胞定位问题上。首先,针对蛋白质序列数据相关的特定监督学习任务场景下,提出了一种端到端的多维度蛋白质序列嵌入方法。该方法基于蛋白质的氨基酸序列,计算衍生出蛋白质结构信息序列,并行的输入卷积池化模块,从多个维度的序列学习蛋白质不同层面的特征表示。不同的特征表示之间可以互相补充,共同对蛋白质进行刻画。在蛋白质溶解性预测问题中应用该方法,所提出的EPSOL模型优于目前现有的所有基于序列的溶解度预测方法,预测准确率为0.79,马修斯相关系数为0.58,相较于最接近的方法分别提升了2.6%和5.5%。EPSOL更高的性能可用于大规模的筛选可制造性强的序列变体,并以更高的可靠性预测新的重组蛋白在大肠杆菌表达系统中的溶解性。其次,针对于有生物学先验、可进行知识迁移的两个或多个任务的场景,提出了一种基于多任务学习模型的迁移学习方法。该方法通过多任务学习模型,打破单个任务下有标签数据规模的限制,扩充数据量,并能充分利用进化关系或物种间的相似性生物先验,选择可进行知识迁移的数据和任务,提升多任务学习模型中每个子问题的预测效果。利用革兰氏阳性细菌和古菌的蛋白质亚细胞定位标签以及蛋白质序列数据进行了实验验证。通过实验评估,说明以多任务学习进行知识迁移的方式能够更好的利用进化关系、功能关系或其他有生物意义的先验知识解决生物学相关问题。
其他文献
三目标水库调度是一个复杂的多目标优化问题,其复杂性主要体现在决策空间和目标空间两个方面。决策空间层面的复杂性主要体现在决策变量的序列维度高,并且各个决策维度之间存在链式相关性;目标空间层面的复杂性主要体现在各个目标求解过程中存在难度差异,使得最优化解集分布不均,导致帕累托前沿面的形状复杂。决策空间和目标空间的求解复杂性,致使三目标水库调度问题的求解不够高效。因此,本文围绕如何高效求解三目标水库调度
学位
科技服务业是在创新驱动与产业融合的趋势下形成的一种新兴服务产业,是助推科技成果转化与经济发展方式转变的重要手段。科技文献服务与专家咨询服务是科技服务应用的重要分支,能够满足相关技术人员及企业对科技文献检索、科研成果发现、专家技术咨询及交流与合作等需求,为其提供专业的技术支持。科技信息数据存在专业性高、针对性强、学科间交叉广泛等特点,且具有较高的时效性要求,因此,科技服务推荐面临着文本数据稀疏、特征
学位
行人重识别是利用计算机视觉技术从跨域视角候选图像数据集或者非重叠监控视频序列中检索出与指定行人具有相同身份信息行人的过程。行人重识别技术在行人轨迹跟踪以及智能安防领域发挥着重要的作用。受到拍摄设备以及环境中各种干扰因素的影响,使得行人重识别任务在实际应用中面临诸多挑战。因此,提取更具有鲁棒性和高区分度的行人特征成为了行人重识别研究领域的重点课题之一。针对这些问题,本文从两个不同角度提出了优化行人重
学位
现阶段,人工智能已经广泛而又深刻地影响着人类的生活,机器学习作为其代表性技术,通过数据来提升模型的性能以达到自主决策的目的。然而,在机器学习算法的整个生命周期内,都会存在着各种各样的安全隐患导致人工智能系统面临风险,这些缺陷一旦被利用可能会造成极为严重的影响,例如不够鲁棒的模型面对扰动图像可能会做出错误的决策导致智能驾驶汽车失控,深度学习框架中的漏洞被攻击可能会使系统无法正常运行等等。算法安全评估
学位
目的 比较不同干燥方式黄芪提取物的理化性质及HPLC-ELSD指纹图谱。方法 水提醇沉法制备提取液后,分别采用常压干燥法、减压干燥法、冷冻干燥法制备提取物,水溶法、称重法、筛分法测定其溶解性、吸湿性、粒径分布特征,HPLC法测定黄芪甲苷含量,进行平衡溶解度、稳定性评价。建立提取物HPLC-ELSD指纹图谱,指认特征成分,研究不同干燥方式对特征成分的影响。结果 常压干燥、减压干燥、冷冻干燥提取物的溶
期刊
伴随着互联网的蓬勃发展,我们早已处于“信息过载”时代,从海量数据中快速获取有效信息变得愈发重要。因此,推荐系统作为解决“信息过载”难题的有效方式,具有重要的研究意义。随着深度学习技术在推荐系统中的广泛应用,以及学者们逐渐开始将社交信息作为推荐系统输入特征之一,在一定程度上解决了传统推荐方法的泛化能力弱和数据稀疏问题。但二者还存在一些局限性,一方面,现有的基于社交特征的推荐方法大多通过挖掘用户的历史
学位
随着现代军事领域向无人化、智能化方向发展,防空作战体系武器系统的决策能力、系统信息处理能力、高精度计算等要素发挥的作用逐渐得到体现。其中武器系统的决策能力因制约战局的变化,受到许多研究者的关注。随着一体化防空作战模式发展,舰对空、空对空与地对空之间形成作战体系,将各单位彼此联合是目前相关领域下的发展趋势。武器系统攻击决策中面临多种“选择”、“判断”等问题,包括武器选择、目标分配、发射判决等。本文针
学位
多目标优化问题广泛存在于现实生活中的各行各业,与我们的生活密切相关。近年来,诸多学者提出了许多优秀的算法框架解决多目标优化问题,取得了不错的效果。然而,这些算法在解决大规模多目标优化问题时,求解效果明显下降。这主要是因为随着问题决策变量维数增加,搜索空间急剧增大。随着社会的发展,现实世界的问题越来越复杂,建立的模型的决策空间维度也随之增多,因此,研究和设计解决大规模多目标优化问题的高效算法是具有重
学位
在大数据时代背景下,人们时时刻刻都在产生数据信息。而这些信息在各行各业中都有着很大的经济价值,比如银行、通讯、金融行业等等,同时还衍生出了百度智能云、广告推荐等服务平台,给人类的生活带来了非常大的便利。另外在近几年,大数据还被应用到了机器学习领域。在机器学习领域中,模型训练数据集的使用往往存在着许多隐私泄露问题。随着科技的发展,人类对机器学习模型的性能的要求也越来越高,所需的训练数据量越来越大,因
学位
伴随着计算机技术的快速发展,计算机运行监控系统也在越来越多的企业中得到实际应用,运行监控系统通常由监控中心软件和若干部署在外站的数据采集设备两部分组成。近些年来,航天等领域的运行监控系统在实际应用中暴露出了诸多问题。其中由于系统中的数据采集设备往往会被安放在一些网络基础受限的地方,经常面临网络带宽较小、网络时断时续等情况,导致采集到的大量监控数据不能及时传输到监控中心进行处理。此外,随着系统中数据
学位