基于半监督学习的单体型组装算法

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:jian_mei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单体型组装(Haplotype Assembly)是根据测序得到的DNA片段通过各种模型算法来重建出生物个体的单体型。随着人类基因组计划(Human Genome Project,HGP)的逐渐完成,人们已经认识到个体之间基因序列的差异是造成个体之间各种表型差异的主要原因,如发色、体型、罹患疾病的不同风险程度等。因此分析个体的单体型在遗传领域有非常重要的意义,其主要应用有疾病诊断、药物研究等。如果能仅通过生物手段就获得个体正确的完整DNA序列,那么单体型组装问题是容易解决的。然而,在实际过程中,由于生物实验的的限制,通常仅能得到一些较短的DNA片段,并且实验中会不可避免地发生一些测序错误。因此,根据一些有测序错误的DNA片段并结合计算机技术来组装出错误最少甚至是正确的个体单体型既是目标,也是挑战。机器学习领域的半监督学习策略是一种科学利用无类标签数据的学习模式,由于有标签样本仅占少数,因此结合少量有标签数据和大量无标签数据来提高模型的学习性能是非常有必要的。基于以上,本文提出两种结合半监督学习的单体型组装算法。K均值算法(K-Means)是机器学习中非常经典的聚类算法,算法在迭代过程中不断地进行划分和更新聚类中心以获得最优聚类效果。本文提出一种基于半监督学习的单体型组装K均值算法,称之为SKMEANS。SKMEANS算法利用在预处理阶段可确认类别的片段构建初始聚类中心,然后通过比较片段与聚类中心之间的距离完成片段的划分,并更新聚类中心,这一阶段不断重复,直到聚类中心不再变化。K均值聚类阶段完成后得到的聚类中心被认为是最优单体型,通过两个聚类中心还原两条单体型,从而完成单体型组装。K最近邻算法(K-Nearest Neighbor,KNN)是机器学习中最基本的分类算法之一,算法的基本原理是:在特征空间中,如果样本的K个最近距离的样本类别多数属于某一个类别,那么该样本也属于这一个类别。本文提出一种基于半监督学习的单体型组装K最近邻算法,称之为SKNN。SKNN的数据预处理阶段与SKMEANS相似,通过已确认类别的片段构建初始SKNN模型。然后利用初始模型对剩下未确认类别的片段逐个进行分类,并且将置信度高的片段加入训练集,来逐渐完善模型。分类完成后,模型将得到两个不相交集合,通过每个集合里的片段的重叠位点可以推导出两条单体型。在实验设计部分,本文同时利用模拟数据和真实数据对SKMEANS和SKNN的算法进行测试,并与另外两种单体型组装算法ProbHap和PEATH进行算法性能比较,实验结果显示,SKMEANS算法和SKNN算法是可行的,与其他两种算法相比有更高的准确率,并且在真实数据实验中,SKMEANS有运行时间上的优势。
其他文献
气象与人类衣食住行密不可分,观测气象相态有利于促进国民发展。目前气象要素预报算法的主要手段是数值预报。其实质就是通过利用高性能电脑对大气运动的偏微分方程进行计算,
本文以杏76区块扶余特低渗透油田为研究对象,通过岩性分析、铸体薄片、常规压汞、核磁共振、启动压力梯度、润湿性、渗吸水驱油实验等手段相结合,从定性分析到定量表征,从宏
现代科技的飞速发展对材料的属性提出了更高的要求,而某些属性在自然界中很少存在甚至超出了自然材料的范畴,研究和设计具有新的特殊性能的材料便成了学术界和工程领域的重要
磷烯是一种新兴的二维材料,是磷原子通过共价键形成的褶皱蜂窝状结构。磷烯具有可调的直接带隙和高度各向异性的能带结构,在光学和光电子学领域具有潜在的应用价值。本文基于
在大型火电厂中,单元机组协调控制系统在实现电网调度自动化、提高火电厂经济效益方面起着重要的作用。虽然近些年新能源发电已经广泛普及,但目前70%以上仍然为火力发电,因此
Zr41.25Ti13.75Ni10Cu12.5Be22.5(Vit 1)非晶合金因具有很高的玻璃形成能力及优异的力学性能而受到研究者的不断探索,并被广泛的应用到工程材料和结构材料。作为合金玻璃的一种
作为第四代固态照明光源,白光LED因具有发光效率高,节能环保,热稳定性好,寿命长等诸多优良特性而备受关注。目前实现白光LED的主流方案是蓝色芯片耦合黄色荧光粉。相比于荧光
从定量的角度评估中国各省份的营商环境,有利于降低市场运行成本,促进中国经济的高质量发展。世界银行等相关研究多基于可观测变量来构造指标体系,这可能会出现选择性偏差和
本文选取杏树岗油田特高含水后期天然岩心168块,通过常规压汞实验、扫描电镜实验、铸体薄片实验和X衍射实验,给出了高渗透层与薄差油层的孔隙结构差异,并对薄差油层划分三个
在全球变暖的背景下,青藏高原作为全球气候变化最为敏感和脆弱的地区之一,其植被-土地利用-气候之间的关系备受学术界和社会的关注。黄河源区处于青藏高原东北边缘,海拔较高