无监督特征选择算法及其在基因数据分析中的应用

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:fox542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症疾病作为困扰人类医学的难题长期无法取得实质性的突破,原因在于人类无法从成千上万的致病基因中找到罪魁祸首,在科技飞速发展与数据爆发式增长的时代背景下,利用DNA微阵列的技术手段来突破该瓶颈迎来的新的契机。虽然通过基因芯片实验采集的数据具有更加准确和全面的优良特性,但是相应地也带来了数据分析上的挑战,主要有以下两个方面的因素:一是与特定疾病无关或冗余的信息占了较高比例,为数据处理带来了较高的复杂度;二是由于某些疾病的有效样本的数量偏少,为数据分析带来了一定的障碍。基于基因表达谱数据具有的这些特性,本文应用特征选择算法对数据进行处理与分析,以最大程度地保证结果的准确性与可靠性。特征选择算法作为分类任务中预处理的重要方法成为了当前的热点领域之一,并被广泛地应用于医疗、图像和文本数据处理领域。特征选择算法有两个大的分类,分别是有监督型特征选择算法以及无监督型特征选择算法,区别于两者最大的标志是有监督型特征选择算法具有与类标信息的相关性,而无监督型特征选择算法则不具备这一特性。由于在实际问题中存在大量类标信息缺失的数据,本文将对无监督型特征选择算法展开如下研究:(1)将基于密度峰值的无监督特征选择算法应用于基因数据,首先对原始数据采用十折交叉验证划分数据集,然后针对基因数据的高维特性,在训练集上进行基因排序并选择,对预选择后的基因用该算法挑选代表基因构成被选基因子集,接着分别使用SVM和KNN分类器训练模型,在测试集上对所得基因子集进行质量评价。由实验结果表明,该算法对基因数据的处理具有良好的适用性。(2)由于被选基因子集的质量与距离度量的选取方式直接相关,本文将运用四种不同的距离度量标准来对第三章所提算法的基因代表性和区分度进行计算,并且提出了一种更注重基因代表性的基因重要性度量准则。通过在三个数据集上比较这四种不同的距离度量方法下所选取的基因子集的平均准确率、灵敏度、特异度等指标表明这种基因重要性度量准则是有效的。
其他文献
海洋环境下钢筋混凝土构筑物由于受到海水的长期浸泡,海水中的氯离子会渗透混凝土保护层到达钢筋表面,引起混凝土内部的钢筋发生不同程度的腐蚀。氯盐腐蚀不但降低了构筑物的
人类一直在寻求光明,光不仅驱走了黑暗而且带来了希望。我们一直在努力改善照明条件,提高生活品质。随着国家对能源环境的重视,人民的节能环保意识的日益增强,对照明的要求也
目的:制备糖尿病胃轻瘫(Diabetic gastroparalysis,DGP)大鼠模型,运用点灸、电针两种治疗手段,初步探讨点灸、电针对DGP治疗可能的中枢调节机制,为DGP的防治提供一种新的治疗
近十年,国内外强震动台网建设规模空前,且发生了大量破坏性地震,强震动记录数量剧增,为我国地震工程与工程地震的深入研究积累了大量的宝贵资料。然而,在获得高质量的强震动
BP学习算法作为一种经典的神经网络,存在着训练时间较长、过度拟合和极易陷入局部最优等问题。为了解决这些问题,2004年Huang提出了极限学习机(Extreme Learning Machine,ELM
身份泛指人的出生和地位。我们可以通过个体的鲜明特性、社群成员的资格以及人际关系的相互关联等方式获得自己的身份,而身份获得后我们会以角色扮演的方式塑造自己以使自己
国粹京剧至今已有两百多年的历史。它是中华文化的重要组成部分,也是世界各国人民了解中华文化的重要媒介。京剧的译介,不仅是加强中外文化交流、扩大中国文化影响的需要,也是中国文化“走出去”战略的重要组成部分。本论文将以翻译实践报告的形式进行撰写,以笔者翻译的《北京京剧百部经典》(部分)为语料,基于尤金·奈达的“功能对等”理论,结合笔者翻译当中的难点,探讨京剧外宣文本的翻译策略和技法。本报告主要包括五个方
学位
红外小目标检测已广泛应用在精确制导和远程的早期预警等多个领域。然而,由于红外小目标具有尺寸小、信号弱、背景复杂等特点,在红外成像制导系统中,小目标不仅容易受到图像
羟基磷灰石(Hydroxyapatite),简称HA,是人和动物的骨骼、牙齿以及一些结石的重要成分。不仅具有优越的生物相容性和生物活性,而且还能与多种有机物无机物发生复合、掺杂等作用,
中国古典诗词因诗歌自身的独特性及其负载的丰富文化内涵,向来被认为是中华文化和中国文学宝库的瑰宝。因此,对经典汉诗的英译一直都肩负着弘扬中华文化与促进文化交流的双重