【摘 要】
:
生物信息学是集计算机科学、生物学、应用数学等学科为一体的综合学科,是随着人类基因组计划而产生的一门新学科。DNA微阵列技术是目前生物信息学研究的主要领域之一,它可以
论文部分内容阅读
生物信息学是集计算机科学、生物学、应用数学等学科为一体的综合学科,是随着人类基因组计划而产生的一门新学科。DNA微阵列技术是目前生物信息学研究的主要领域之一,它可以同时在一张微型的芯片上监测成千上万的基因在同一条件下的基因表达水平,为科学家从分子层次上对肿瘤等疾病进行诊断、分型的研究提供了可靠的科学依据。由DNA微阵列技术产生的基因表达数据通常具有高维小样本和高噪声的特性。而在高维数据中,数据往往变得稀疏,样本之间的距离差距不再明显,而且冗余特征也会随之增多,导致一般的聚类算法的有效性大大降低。通过对基因表达数据进行聚类分析以提高诊断肿瘤的准确度使之达到应用水平,成为了生物信息学和医学领域的热点研究。本文主要围绕肿瘤基因表达数据的谱聚类问题进行研究,具体研究工作包括:(1)基于稀疏表达的谱聚类算法(Sparse Representation based Spectral Clustering,SRSC)将每个高维样本映射到一个低维的系数向量子空间,并利用稀疏表达系数向量构造相似度矩阵从而进行谱聚类。由于基因表达数据中高噪声的存在,SRSC的聚类性能大大降低。针对这个问题,论文提出两种鲁棒的基于线性表达的谱聚类算法:基于6)近邻的稀疏表达谱聚类算法(KNN based SRSC,KNNSRSC)和基于局部约束的协同表达谱聚类算法(Locality-constrained Collaborative Representation based Spectral Clustering,LCRSC)。KNNSRSC算法在每个样本的稀疏表达系数向量中只保留6)个近邻样本对应的系数不变,而把其他系数设置成0,以提高对数据噪声的鲁棒性。LCRSC在计算每个样本的协同表达系数的时候,考虑了与之最相近的6)个样本的重构误差,使相似的样本得到的表达系数尽可能相似。然后利用这些表达系数为谱聚类构造相似度矩阵。实验表明KNNSRSC和LCRSC算法在基因表达数据上的聚类性能比SRSC更好。(2)对于SRSC算法,其系数向量的维数等于样本数目,当样本数目很大时,系数向量之间的距离差距也会不再明显,而且求解稀疏表达系数向量的过程非常耗时。针对该问题,提出一种基于非负矩阵分解的谱聚类算法(Nonnegative Matrix Factorization based Spectral Clustering,NMFSC)。NMFSC将每个样本表示成一组集合基因的线性组合,使每个样本都对应一个系数向量,系数向量的维数和样本个数无关而且远远低于样本的个数,然后根据系数向量构造相似度矩阵进行谱聚类。实验表明NMFSC的聚类性能比SRSC更高而且其运行速度比SRSC快得多,因而更适用于分析大规模的高维数据。
其他文献
在基础教育课程改革的当下,合作学习作为一种学习数学的重要方式,被广泛地应用到数学课堂教学中。在《义务教育数学课程标准(2011年版)》中也提出合作学习是数学重要的学习方式之一,是培养学生数学学科核心素养的有效途径。通过分析历年的相关研究,可以从中得出合作学习在数学课堂实践中的确发挥了有效作用,但是,真实的数学课堂应用效果并不理想,原因有多个方面,例如:教师对传统讲授式矫枉过正,指导方法欠缺,教学设
6×6轮式机器人作为特种车辆在物流、医疗、搜救以及运输等方面受到广泛应用。由于轮式机器人工作环境的复杂性,其平顺性在其工作过程中发挥着至关重要的作用。近年来,国家在
目的:脓毒症是炎症反应综合征(SIRS)和代偿性抗炎症反应综合征(CARS)失衡的结果,单核细胞作为重要的炎症细胞贯穿脓毒症病程始末,对脓毒症的发生发展起着重要作用,通过减少单核细胞释放炎症因子将有助于减轻脓毒症的炎症反应。研究证实,IL-33/ST2信号转导通路与脓毒症相关,阻断该通路可减轻机体的炎症反应,本课题旨在研究ST2受体在脓毒症小鼠单核细胞中的表达,IL-33/ST2信号转导通路与单核
情绪调节自我效能感(RESE)是一个人对自己能否有效调节情绪状态的自信心的反映。在个体面对压力时具有非常重要的作用,它能够疏导负性情绪,维护情绪的平稳,促进心理健康。赛前焦虑对运动成绩的影响十分显著,一直以来都是运动心理学领域一个重要的研究方向。合理情绪疗法是学校理性情绪教育的有效方法,能够帮助学生进行情绪管理,应对消极情绪。本论文对高中体育特长学生的情绪调节自我效能感与赛前焦虑的关系进行研究,对
离群点检测就是通过多种检测方法找出其行为不同于预期对象的数据点的过程。离群点检测技术已经成功的应用于金融系统的风险控制、医疗疾病的辅助诊断、森林灾害监控、网络攻击预警检测等领域。通过研究者的不断努力,已经有多种离群点检测算法,其中最为经典的离群点检测算法有基于距离、基于密度、基于聚类的离群点检测等方法。目前的这些离群点检测方法已经有效地使用了几十年,它们大都是基于离群点的某一特性进行检测,例如基于
工业生产中,工件表面的缺陷检测是质量控制的重要环节。现代机械制造工业中,常采用机器视觉的方式进行缺陷检测。对于大型构件表面细小缺陷检测时,受限于工业相机高分辨率时视野小的情况,常采用多组工业相机进行分区域的图像采集与缺陷检测。分区域缺陷检测有利于提高检测的精度,但缺陷检测的结果难以快速对应到工件表面,不利于生产过程中缺陷的快速定位以及后续缺陷产生原因的分析。在完成分区域的缺陷检测之后,通过图像拼接
γ-氨基丁酸(y-amino butyric acid,GABA)是一种重要的功能性因子,具有降低血压、营养神经等多种生理功能。目前国际上对GABA的研究正方兴未艾。发芽糙米和红曲菌均能积累丰
立体化交通设施可以理解为竖向层叠式的交通布局方式,本文以重庆观音桥商圈为例,从用地与交通相互协调的角度,讨论了立体化交通设施在城市商圈中的应用,分别阐述了它对于创造
目的:基于中医传承辅助平台系统V2.5,本研究对王树声教授治疗慢性前列腺炎的门诊医案进行收集整理并挖掘和总结王树声教授治疗慢性前列腺炎的诊疗经验,探究其核心经验方组成和辨证用药规律,深入理解和充分传承名中医的学术经验,为临床诊治提供合理的参考依据。方法:采用回顾性病例研究方法,利用中医传承辅助平台系统V2.5进行分析。1.收集整理2016年1月至2019年1月王树声教授诊治慢性前列腺炎的门诊病历,
金属面板Nomex蜂窝夹层结构作为一种轻质高强的材料,已经广泛应用于航空航天领域。虽然它具有显著的优越性,但也存在一些弱点:夹层板受到低能量冲击后在面板和夹心层之间产生