基于动态迭代谱聚类方法的生物数据特征选择算法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:gsoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗大数据信息化的发展与生物信息领域各种测基因序列技术的势头日益渐长,其发展实现了大规模基因表达数据的自动获取,使得健康医疗数据规模大幅度增加。但由于医疗数据中的疾病相关的基因表达谱数据的样本收集起来较困难,且病人数据良莠不齐,难以记录、收集。导致一般疾病的样本数量都较少,另一点由于,人体内具有基因约39000多个,并且人类的基因表达谱数据中往往包含着反映疾病产生原因的重要信息,并且特征中包含了大量与冗余的疾病特征。正是由于以上两点原因,本文中所使用的生物基因表达谱数据具有特征量非常大,但样本数往往远小于特征数的特点。所以对此类大P小N的生物基因数据进行分析的最重要的步骤即是特征选择。特征选择是从初始特征集合中选取具有强分类信息特征构成特征子集。我们使用特征选择筛选出与分类任务高度相关的最优特征子集,从而提高生物基因数据的分类准确率。而在基因表达谱数据中,与病变类似的基因与正常样本种的基因差别很大,因此可以使用机器学习的二分类,实现疾病基因的检测和预测。生物信息学领域认为,功能相似的基因往往协同进行工作,可以视为一个整体看待。生物标志物本身存在关联性,基因之间共同构成了多个功能子系统,功能子系统共同对生物体状态有重要影响,而在这其中的生物标志物起到了至关重要的作用。同时,这些基因在基因表达谱上在表型上较为相关,这些相似的基因便是生物标志物。而如果能够从人体疾病基因中挖掘和疾病相关的生物标志物,可以帮助医学更好的了解研究和治疗该病症,为广大患者带来福音。如何选取出有高分类能力的特征基因子集是处理生物医学数据的关键点。针对以上问题,本文基于生物信息学的基础,为了挖掘出生物标志物,提出基于动态迭代聚类和无监督学习的谱聚类的特征选择算法BioDynClu,为了提升预测精准度,减少基因特征有效信息的丢失。本文使用处理稀疏数据更加有效的谱聚类,在第一次聚类之后得到各个类别的聚类结果。并求得谱聚类数据各个类别簇内的质心。以聚类Calinski-Harabasz指标,对聚类的结果做出评估,重新筛选最优聚类,直到性能提升到稳定为止。再筛选出性能最优的特征子集。本文在16个基因表达数据集上进行实验测试,结果表明:与同类特征选择算法对比,本文提出的BioDynClu算法均在大部分数据集上有着更优的分类预测性能,并且有着更小的特征数量,同时与其他算法相比也有更优的稳定性。BioDynClu均能选择到更优的基因特征子集。其次,在结肠癌独立测试集上,也有着不错的表现。较为圆满的完成对生物基因表达谱数据的特征选择研究。最后,本文提出的在生物基因数据上的分类算法,未来可尝试在其他生物类型数据集上使用并不断改进,推进生物医学分类问题的发展。
其他文献
358高地金矿床位于黑龙江省完达山地区。该区大地构造位置上处于中亚造山带东段的兴蒙造山带东端,西以跃进山断裂为界与佳木斯地块相连,南以敦化-密山断裂为界与兴凯地块相接,东邻俄罗斯锡霍特阿林地体。本文在区域和矿区地质矿产资料收集分析基础上,通过野外地质调研、室内测试分析以及综合研究,查明了358高地金矿床的成矿地质条件、矿床地质特征、成矿物理化学条件和成矿流体特征;结合与吉黑东部典型热液矿床的对比分
本文对小兴安岭北部美丰林场地区的早白垩世美丰组和福民河组火山岩进行了岩石学、年代学以及主微量元素和全岩Sr-Nd同位素地球化学的研究。LA-ICP-MS锆石U-Pb定年结果显示,福民河组火山岩的形成时代为105±1 Ma,略晚于美丰组火山岩(105 Ma)。美丰组火山岩的岩石组合为玄武岩、玄武安山岩、安山岩、粗安岩和粗面岩,福民河组火山岩则以粗安岩和流纹岩为主。美丰组火山岩幔源玄武质岩石具有富集轻
断裂活动能够引起地震,诱发崩塌、滑坡和泥石流等多种地质灾害,破坏力巨大,影响时间较长。活动断层的快速错动移位诱发了构造地震,并影响着地质灾害的分布发育特征。断层泥是断层活动的直接产物,能够揭示断层活动的年代、性质和强度等断层演化历史的重要信息。研究断层的活动年代和活动方式等断层活动性特征,可以为研究区内重大工程的选址规划、地质灾害的成因类型和防治措施以及活动断层与地震的关系研究等问题提供地质依据。
近年来,脑科学成为各国前沿科学规划里的一大研究重点,而其中对于一系列脑相关的神经退行性疾病,如阿尔兹海默症(Alzheimer’s Disease,AD)的研究尤为活跃。这类疾病目前在临床上仍属于尚未具备有效治疗方案的不可逆过程,因此对于它们的早期诊断成为了关键。轻度认知障碍(Mild Cognitive Impairment,MCI)对患者的日常活动影响较小,有时会被视为正常衰老状态而忽略不计。
对巴基斯坦境内的喜马拉雅造山带印度河缝合带(Indus Suture Zone)沿线出露的Shangla蓝片岩进行了详细的岩石学研究,以阐明其构造-变质演化过程,并解释印度板块和Kohistan-Ladakh岛弧之间洋内俯冲的地球动力学背景。Shangla蓝片岩主要由角闪石类(蓝闪石、镁钠闪石、蓝透闪石、阳起石、透闪石和镁角闪石)、绿帘石、多硅白云母、钠长石和绿泥石组成,还有少量的钛铁矿、金红石、
本文以现代汉语中常用的“随+X”类词语作为研究对象,首先对“随+X”的组成部分进行较为详细的描写和概括,然后对该类词进行语法、语义上的分析,最后分析留学生在习得该类词过程中出现的常见偏误,并提出相应的教学建议。本文的主体分为四部分。第一部分是对“随+X”的组成部分进行分析。文章首先以“随”各义项的发展路径作为切入点考察常项“随”,发现“随+X”词语内部语素结合程度与“随”的语法化程度有着密切的联系
集安群变质岩系的变质作用及其成因研究对于探讨胶-辽-吉带的构造背景具有重要意义。本次研究以集安群大东岔岩组变泥质岩为研究对象,进行系统的岩相学、岩石地球化学、矿物化学和地质年代学研究。岩石类型包括石榴黑云母片岩、含石榴石黑云斜长片麻岩、石榴矽线(堇青)黑云二长片麻岩和紫苏尖晶堇青黑云二长片麻岩等,部分岩石中可见:石榴石核部含有细粒黑云母、长石、石英等矿物包裹体,基质中存在大量矽线石集合体、黑云母等
目的:观察温针灸对膝骨性关节炎(KOA)模型大鼠氧化损伤和炎性反应的影响,并从NADPH氧化酶2(NOX2)/活性氧(ROS)通路探讨其作用机制。方法:SD大鼠按随机数字表法分为对照组、模型组、针刺组、艾灸组和温针灸组,每组12只,采用膝关节注射碘乙酸钠制备KOA模型。针刺组、艾灸组和温针灸组于造模后3 d分别针刺、艾灸及针刺+艾灸“足三里”,15 min/次,1次/d,连续21 d。每隔3 d,
目前无线可充电传感器网络已成为国内外热门的研究方向,由于传感器所能携带的电量有限,并且可移动充电节点还存在能耗高、联合优化灵活性低等问题,所以,如何合理的设计无线可充电节点的充电部署优化方案是如今研究的关键。本文提出了一种基于无人机的无线可充电传感器网络充电性能联合优化方法,以此来提高无线可充电传感器网络(WRSN)的寿命。首先基于网络模型、无线充电模型、无人机能耗模型构建出一个无线可充电传感器网
断裂构造的研究一直是地学领域中的重点。作为地质过程的重要形式之一,断裂在成矿过程中有着不可替代的作用,对矿产资源的研究离不开对断裂构造的研究。目前,随着大数据时代的到来,将其引入地学领域,将有利于处理复杂的地学信息,从而有助于下一步相关的工作。在地学领域中,虽然深度学习的方法已经有了较多的应用,但在断裂预测方面的研究较少。本文基于深度学习的方法,在以下3个方面进行了探讨。1.本文基于生成式对抗网络