【摘 要】
:
蛋白质是构成人体细胞、组织的重要部分,是生命活动的主要承担者。膜蛋白是与细胞质膜或细胞器膜相结合的蛋白质,其在细胞增殖、分化、信号转导等活动中起着非常重要的作用,因此,针对膜蛋白类型进行精确分类成为一项重要课题。随着高通量生物实验方法积累了大量膜蛋白序列数据,研究人员利用膜蛋白序列信息训练分类模型,通过序列特征可以快速判断未知蛋白质类别。单一特征并不能全面表示蛋白质生物信息,而特征缺失将直接影响模
论文部分内容阅读
蛋白质是构成人体细胞、组织的重要部分,是生命活动的主要承担者。膜蛋白是与细胞质膜或细胞器膜相结合的蛋白质,其在细胞增殖、分化、信号转导等活动中起着非常重要的作用,因此,针对膜蛋白类型进行精确分类成为一项重要课题。随着高通量生物实验方法积累了大量膜蛋白序列数据,研究人员利用膜蛋白序列信息训练分类模型,通过序列特征可以快速判断未知蛋白质类别。单一特征并不能全面表示蛋白质生物信息,而特征缺失将直接影响模型的分类准确性。为了更好地利用蛋白质不同特性的特征,采用多特征融合的方式描述序列是一个趋势。多特征融合可以避免单个特征提取方法的片面性,获得更多蛋白质特征信息,提高模型的整体分类性能。本文工作研究多特征融合的膜蛋白分类方法,完成的主要工作和取得的成果如下:(1)提出了基于特征融合、MRMD和支持向量机算法的高尔基体蛋白分类模型DLDW-MRMD-SVM。该方法首先使用二肽组成(DPC)、Local_DPP、188D、word2vec提取蛋白质序列四种不同的特征集,通过特征组合的方式多角度地获取蛋白质特征信息,然后通过合成少数过采样技术(SMOTE)缓解数据集样本中正负例样本不均衡问题,数据集正负样本不均衡将对导致模型分类效果出现偏差的现象。随后使用MRMD(MaxRelevance-Max-Distance)算法进行特征选择,选择出最佳的特征向量。通过多个分类器的对比选择SVM作为分类算法,并构建出高尔基体蛋白分类模型。通过十折交叉验证和独立测试集验证,构建的高尔基体蛋白分类模型准确率分别达到了96.2%和95.6%,通过与其它预测模型对比,本模型优于其它高尔基体蛋白分类模型。(2)提出了基于深度表示特征与传统特征信息融合、自适应提升算法(Adaptive Boosting,Ada Boost)和SVM的噬菌体蛋白分类模型Unirep ACC_PSSM-Ada Boost-SVM。首先,采用深度学习预训练模型Unirep对蛋白质进行特征提取,然后用传统的编码方式SAAC、188D、ACC-PSSM进行特征提取,在三种传统的编码方式中,基于氨基酸进化信息的编码方式ACC-PSSM表现最佳,Unirep深度表示特征则优于传统的编码特征。随后,采用Unirep深度表示特征与ACC-PSSM特征融合,采取SMOTE算法缓解正负例样本不均衡问题。Unirep特征向量和ACC-PSSM特征向量维数分别为1900维和800维,过高的特征向量维数会产生过拟合的风险,为了选择出最优特征子集,采取两步特征优化方式对融合特征进行处理:首先对这两种特征集分别使用Ada Boost筛选出特征重要性得分排名前300的特征向量;随后采用特征增量的策略,分别从这300维特征向量中再选出最佳的特征子集,最后将153维Unirep特征和122维ACC-PSSM特征输入到SVM分类器构建噬菌体蛋白分类模型。在十折交叉验证和独立测试集验证下,模型的准确率达到95.1%和89.6%,与其它噬菌体蛋白分类方法相比,本模型的分类性能较优。(3)开发了一种基于特征工程的多分类器集成膜蛋白分类工具。用户只需要加载数据集和训练集文件,根据需要选择合适的特征提取方法,特征选择方法。根据加载数据集正负样本比例情况选择是否需要使用SMOTE,最后将特征值输入选择的分类器中,训练出膜蛋白分类模型。除此之外,模型训练完成后,该工具会自动以CSV格式保存特征值,以PKL格式保存训练完成的分类器模型,方便用户进一步研究。
其他文献
物联网,即“Internet of Things”(IoT),是一种通过互联网将各种计算设备、电气设备、机械设备与传感器相连接,实现智能感知与控制的技术。近年来,随着IoT技术与设备的广泛应用以及相关产业的迅速发展,具有较强计算能力的IoT边缘计算设备数量在近几年内迅速增长。在IoT生态繁荣发展的同时,平台与软件缺乏维护与漏洞修复机制的隐忧也在逐渐显现出来。扫描散落在各处的IoT设备、通过病毒程序
聚类作为一种有效的无监督学习方法,普遍用于文本推荐、数据挖掘、图像分割等各个领域。其中,基于划分的聚类凭借其简单灵活、快速高效的特点深受大量研究学者的青睐。k-means是一种典型的硬划分方法,它严格的把数据对象划分到某类中,然而实际应用中大多数数据对象并没有严格的区分开,需要进行软划分。因此,模糊聚类算法应运而生,能够更好的处理数据的边界问题。但是,对于高维数据,聚类结构通常存在于特征子集中,而
当下老龄化是全球不少国家面临的问题,并且本文通过实际调研和以往文献的研究,机器人陪护越来越被老年人认可。但由于目前机器人陪护系统交互方式单一,在老年人意图理解的识别率有待提高,令老年人在使用陪护机器人时增加了交互负担,同时忽略了机器人交互的主动性和灵活性,难以达到人机协同的目标,影响了目标任务的完成。因此,本文为了实现服务机器人更加准确全面的理解老年用户的意图和实现低负荷的协同交互,提出并实现了面
21世纪是计算机网络高速发展的世纪,伴随大量电子设备被设计、生产和销售,接入计算机网络的设备数量呈现出爆发增长的态势。与此同时,大量计算机网络配套设施和服务被广泛布署,以便为不断膨胀的用户群体提供多样的网络服务。正是由于看到其中的巨大利益,厂商为了快速占领市场,导致其所销售的设备通常含有产品缺陷和漏洞,另外,一些非法组织或个人通过开发恶意代码攻击他人网络或设备的方式获取利益,从而导致目前网络上存在
为研究不同加工工艺对多穗石柯(Lithocarpus litseifolius)茶挥发性成分的影响,以晾干、炒制和发酵的多穗石柯茶为样品,采用顶空气相色谱-离子迁移谱(HS-GC-IMS)和主成分分析(PCA)定性和定量地对其挥发性成分进行分析。结果表明,共有58种化合物被识别;三维谱图和指纹图谱显示不同加工工艺样品的挥发性成分有差异,多穗石柯叶在不同加工条件下产生热分解和一系列化学反应。HS-G
面对消费者消费需求由产品使用价值向产品审美以及产品个性化设计的极速转变,以往的很多产品的市场价值和产品“魅力”急速下降,已很难吸引消费者的注意,满足消费者的“胃口”。且随着技术的不断发展,产品更新换代的速度急剧增加。企业为了跟上市场环境变化的节奏,不断推陈出新,加大产品创新投资。产品设计师也为了防止自家产品与其他产品同质化严重,产品设计越来越“大胆”突破,产品理念也愈发独特清奇。在这个由产品同质化
目的:从个体行为角度探索普惠型补充医疗保险的续保问题及其影响因素。方法:利用来自17 229名普惠型补充医疗保险参保人的调查数据,基于安德森模型框架,研究参保人续保意愿的影响因素。结果:81.44%的被调查参保人愿意续保;对产品服务感知、是否享受过赔付是影响续保意愿的重要因素。结论:参保人对产品服务感知是影响普惠型补充医疗保险续保意愿的核心因素,完善配套健康服务功能迫在眉睫。普惠型补充医疗保险与传
如何充分利用数据资源,促进高等教育数据智能化深度挖掘,是教育信息化广泛应用的背景下优化高等教育发展决策的关键。本文以高校在教学过程中实际生成的综合性结构化数据,和以高校学生网络行为为主要内容的非结构化数据为研究对象。针对综合数据具有特征规模复杂、因果逻辑关系弱、结论受噪声干扰影响严重等特点,设计和开发了一套以高校综合数据为基础的评价计算系统。作为一个数据计算平台,为高等教育发展决策提供技术方面的数
在过去的数十年里,随着计算机软硬件的飞速发展,计算机动画技术得到了蓬勃发展。人体运动是许多视觉计算相关任务或应用的关键,例如,运动捕获数据已经可以实现大规模地应用到电影制作、视频游戏开发等领域当中。目前,运动捕获技术已经成为三维人体动画制作技术的主流。有了运动捕获数据存储库,通常需要从存储库中检索相关的运动捕获数据,例如,可以检索运动捕获数据片段并将其重新用于动画制作。然而,随着运动捕获数据的普遍
现实中的许多工程应用问题都涉及到建模数据中自变量与因变量的统计关系,但由于信息的缺失和误差引入的不确定性,传统的分类和回归模型面临着失效的问题,若想提取更可靠的信息就需要建模整个条件概率分布。条件密度估计是在给定条件下估计随机变量概率密度函数的一类任务。该任务中模型需要输出目标随机变量所有取值的概率密度,可以被认为是分类和回归任务的一般化推广。该技术使得量化与目标变量预测有关的不确定性成为可能,有