基于启发式聚类的混合特征基因选择方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:xicai2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA微阵列技术是基因组信息学研究的主要支撑技术,它为癌症研究提供了最基本和最必要的信息及依据。然而由于基因芯片数据样本少、高维数高的特点,在基因芯片数据处理时面临了很多的困难与挑战。如何才能通过合理的算法来识别出对疾病有鉴别意义的基因集,已经成为了目前基因表达数据处理和分析的热点研究问题。所以本文研究和探索了特征基因选择算法,提出了两种基于启发式聚类的混合特征基因选择方法:1.基于最小生成树聚类的特征基因选择方法。由于传统的聚类方法,只适合处理球状数据,而最小生成树聚类算法对图形边界较复杂的数据也能得到较好的结果。因此,本文应用不同的距离度量方法于Prim最小生成树聚类中,动态选择特征基因集,并用支持向量机进行预测。然后,提出一种精选特征基因集的方法,进一步去除冗余基因。实验表明该方法有效的降低特征基因的维数并有很好的分类准确率。2.基于分步聚类的特征基因选择方法。基因表达谱数据具有高维度,非线性等特点。而Gsim能够较好的表达高维数据的相似性,流形距离能够很好的展示基因之间的复杂关系。本文利用Gsim和流形距离的优点,提出一种基于分步聚类的特征基因选择算法,有效的解决在高维,非线性数据空间中分辨率能力下降的问题。同时,提高分类评估方法的泛化能力,使选择出的特征基因具有更好的鲁棒性。
其他文献
随着信息技术的快速发展,越来越多的企业利用信息技术来对企业的业务流程进行管理和改进以提高企业的办公的效率,削减成本。然而,企业在实施ERP等管理系统时,必须首先实施业
三维可视化技术随着计算机日新月异的发展已经从电子游戏领域走向更多应用范畴,而众多的科研领域例如航天、军事、医疗等都有广泛的应用。作为三维可视化技术的核心问题之一
IP多媒体子系统(IMS),是建立在IP技术之上提供多媒体业务的通用网络平台,是固定网络和移动网络融合的演进方向。IMS以其业务、控制、承载完全分离的水平架构,集中的用户属性
在无线传感器网络(WSN)中,溯源数据(Provenance)是评估数据可信性的重要依据之一。Provenance记录了数据包从生成至被传送到基站(BS)过程中途经的所有节点以及在这些节点上对
随着无线电技术、通信网络的迅猛发展以及无线业务带宽需求量的增加,网络中的频谱资源变得越来越紧张。认知无线电(Cognitive Radio, CR)技术能够有效缓解网络中频谱资源紧张
随着信息技术、图像压缩技术和网络技术的发展,网络视频监控系统对数据采集的实时性、视频图像编码、有限网络带宽下传输实时性和视频质量等都有了更高的要求。本文针对基于D
计算机图形学技术不断发展并在影视和电子游戏等领域得到了深入的应用,三维模型的几何处理已成为重要的技术环节。随着因特网上三维模型急剧增加,从中快速找到所需的模型,并
交通标志识别作为智能交通系统的一个重要研究方面,在道路安全、信息指示等方面的作用越来越凸显。但是目前交通标志识别在数据量、识别率等方面都存在一些不足,而对交通标志
随着计算机硬件技术和图形处理技术的进一步发展,虚拟现实技术越来越广泛运用于人们的日常生活中,包括科幻影视、体感游戏、智能穿戴等。而虚拟植物建模研究作为计算机图形学
移动自组织网络以其特有的开放性和动态灵活性,在缺少固定基础设施的商用环境中,军事及紧急灾害场景中拥有广泛的应用前景,受到了学术界和工业界极大的关注。节点的相对独立