SNP选择的关键技术及精神分裂症诊断模型研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:allskyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单核苷酸多态性(Single nucleotide polymorphism,SNP)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP数据作为重要的基因变异数据适合复杂性状与疾病的遗传解剖等方面的研究,关于SNP数据的研究已经成为生物信息学领域中的重要课题之一。但SNP位点之间存在较多的冗余,因此,将SNP数据直接用于复杂疾病的诊断分类中,必须选择出具有代表性的SNP子集。随着机器学习技术的飞速发展,选择SNP子集问题可归类为特征选择问题,因此,本文将特征选择技术和分类模型应用到选择SNP子集和精神分裂症诊断中。首先,提出基于K-MIM的信息SNP子集选择方法;然后,设计基于Xgboost的精神分裂症的诊断模型。具体工作如下:(1)针对SNP位点之间存在强相关性问题,提出新的算法——K-MIM对SNP位点聚类分组。该算法在K-Means算法中引入互信息的概念,提出一种新的距离度量,利用互信息能够度量特征之间相关性的特性有效解决欧式距离不能挖掘出SNP位点之间内在联系的问题。此外,K-MIM算法针对K-Means的簇中心更新在新的距离度量下失效的问题,提出新的簇中心更新方式,根据样本点到均值点的距离与样本点到其他点距离之和呈近似的增函数特点,用n个与簇中其他SNP距离最小的SNPs作为簇中心体代替原来的簇均值向量。经实验验证,KMIM算法较K-Means算法和其他改进的K-Means算法,具有更好的非信息SNP重构度,且与MCMR、ReliefF等信息SNP选择方法相比,本文提出的信息SNP选择方法在两个数据集的分类准确率上平均提升了1.83%和3.33%。因此,本文提出的基于K-MIM算法的信息SNP选择方法在信息SNP子集选择中具有较大的优势。(2)针对原蚁群算法在计算信息素累加时默认越短的信息SNP子集具有更好的非信息SNP重构效果的问题,提出新的信息素累加机制,将信息SNP子集对非信息SNP子集的预测误差引入该机制,在考虑解的长度的同时考虑解的质量,完善原信息素的累加机制。同时,为了避免算法陷入局部最优提出一种新的信息素挥发机制,该机制利用信息SNP子集的冗余度对信息素进行自适应地挥发。经实验验证,改进的蚁群算法较原蚁群、粒子群算法和遗传算法,具有更好的非信息SNP重构度,且与MCMR、ReliefF等其他信息SNP选择方法相比,本文提出的信息SNP选择方法在两个数据集的分类准确率上平均提升了1.33%和1.11%。因此,改进的蚁群算法加强了基于K-MIM算法的信息SNP子集构造方法在SNP子集选择中的优势。(3)针对精神分裂症分类中,将患者诊断为健康人和将健康人诊断为患者的误诊断代价不同问题,提出代价敏感Xgboost算法。由于无法得知数据集的错分代价,该算法提出自适应的错分代价权重,兼顾分类模型准确率的同时,在Xgboost目标函数中,对将患者诊断为健康人的样本根据其预测误差和所有样本的误差均值自适应地修改误分代价权重,减少将患者诊断为健康人的可能性。同时,在目标函数的正则项中加入树的深度,防止算法过拟合。在分类效果实验中,代价敏感Xgboost算法与Xgboost、SVM和神经网络算法在分类准确率上基本持平,且在误分类次数统计实验中,较原Xgboost算法,在两个数据集上将患者诊断为健康人的误分类次数减少了7.5%和6.67%,减少了将患者诊断为健康人的可能性。
其他文献
本文通过结合岜碍隧道施工实例,对本隧前期支护工作从锚杆、钢拱架、混凝土喷射等施工工艺等方面展开论述,希望为同类工程初期支护施工积累经验。
在高中生物课程学习中,实验是必不可少的内容,而"观察植物细胞的质壁分离与复原"更是高中生学习生物时必须要掌握的实验内容之一,是学生第一次对探究性实验有所接触。在教学
采用两种共混工艺分别制备出以分散和包覆结构为主的PP/EVA/nano-CaCO3三元复合材料FCa3和BCa3,通过对三元复合材料力学性能的测试和热性能的表征,以及对微观形貌和冲击断面
从"中药指南"本草数据库中,查找出能够治疗皮肤疾病的皮类植物药材,进行系统整理和编目。并从临床使用、药理作用和研究开发3个方面,对皮类植物药的运用和研究现状进行分析。
民间美术是一种非常富有地方色彩的艺术类别,其表达形式与风格极具地方民俗文化特色,也是地域文化的一种重要载体。民间美术作为一种独特的艺术形式,在其历史的发展中不断地
MOOCs(Massive Open Online Courses,大规模开放在线课程)在我国已经逐渐成为了学习者求知的重要方式和途径。以往研究指出,MOOCs学习者自我调节学习的意识和能力普遍较低,导
随着环保的要求越来越严格,烧结烟气除了脱硫还需要脱硝,目前仅仅脱硫工艺已经不适用当前的环保要求。文章首先对燃煤电厂烟气与烧结烟气的特点进行分析,并对目前应用在烧结
食用油通常由甘油三酯和类脂物质组成,类脂物质中含有大量的脂溶性伴随物,比如生育酚(常见脂溶性伴随物)和芝麻酚(特殊脂溶性伴随物)等,这些伴随物通常具有很多健康功效。同时,脂溶性物质在人体中的消化、运输和吸收是一个复杂的过程,这导致一些常见体外模型(抗氧化模型、细胞模型)在脂质伴随物功能性评价上的局限性。常见的解决办法是使用完整性较好的生物模型,秀丽线虫作为完整的生命体,是研究脂质积累和体内抗氧化的
解读图书馆绿色信息服务的相关概念,总结当前国内图书馆绿色信息服务实践现状,指出存在的突出性问题,并以问题为导向,有的放矢地提出建议与对策,以期能够促进图书馆实现信息
泡沫控制是保证泡沫混凝土墙板产品强度和密度的关键技术,本文从理论和实践的角度,主要对泡径的大小、泡体的稳定性、泡体空间分布均匀性的影响因素进行探究实验和分析总结,