基因表达数据特征加权聚类分析算法研究

被引量 : 0次 | 上传用户:lanbingxingshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术在生物信息学领域的广泛应用产生了海量的基因表达数据,这为挖掘隐藏在基因表达数据中的基因模式、加深对功能性基因的理解提供了重要条件。同时,如何分析和处理这些数据,就成为后基因组时代生物信息学研究的热点。聚类方法在分析基因表达数据中起到了重要作用,在取得了一些成果的同时也出现了不少的问题。本文的工作就是设计并研究适用于基因表达数据的有效聚类分析算法。本文的主要工作分为以下三个部分。第一部分,本文提出了基因表达数据集聚类分析预处理算法,主要目的是解决FCM算法应用于基因表达数据分析时存在的初始值敏感性和参数依赖性问题。预处理算法分为两个处理阶段,第一阶段采用基于抽样的方法得到若干小簇。第二阶段,基于类间熵的物理意义,对这些小聚簇进行合并,寻找数据集的实际分类数目和代表点。用预处理算法处理实际的基因表达数据集,实验结果表明预处理算法可以有效的确定数据集的实际分类数目和代表点。第二部分,针对FCM算法不能区分基因表达数据不同属性对聚类贡献差异这个问题,本文提出基于预处理结果的属性特征加权来解决。重点阐述了基于预处理算法获取基因表达数据特征权重的详细步骤、引入特征权重后FCM算法新的聚类准则函数的形式、聚类中心和隶属度的计算方法和特征加权FCM算法的详细步骤。并且使用实际基因表达数据集验证了特征加权FCM算法在聚类精度上的相对优势。第三部分,从基因间相互关联性大小这一角度出发,采用了一种新的基因表达数据特征加权方法,目的是使聚类结果具备更好的生物学意义。重点阐述了基于互信息确定数据集属性权重的原理和步骤,提出基于互信息的特征加权FCM算法。实验部分选用实际基因表达数据集,测试了基于互信息的特征加权FCM算法在聚类结果生物学意义上的相对优势。
其他文献
以高分子粉末为基底材料的烧结件机械性能较差,质脆,其可作为原型测试件,但作为功能测试件则较难达到使用要求。本文在具体研究原型件性能差别的基础上,对其进行树脂增强后处
随着国民经济的快速发展和城市化进程的加快,高速公路工程建设量急剧增长。高速公路施工安全管理是构建社会主义和谐社会的重要内容之一。然而,我国高速公路施工安全管理并没
通过对服装裁剪系统裁剪原理的研究,结合具体使用工况,文中提出了一种服装裁剪机的设计方案,并对裁剪机的裁切部分和面料支撑部分进行了结构设计。所设计的服装裁剪机具有低
DDOS攻击(Distributed Denial of Service Attack),即分布式拒绝服务攻击,具有易于发起、难以防范、危害大的特点,一直以来都是互联网上难以治愈的顽疾。DDOS攻击除了传统的
<正>一、基本案情被告人甲被逮捕前是某派出所下属的保安公司工作人员,其在担任派出所所长期间,因工作上的关系,与某动拆迁公司总经理乙结识并形成所谓朋友关系,这种关系在甲
<正>一、绩效评估的内涵与外延从单纯语义学的角度看,"绩效"表示成绩,成效。"成绩"指工作或学习的收获,强调工作或学习结果的主观评价。"成效"指功效或效果,强调工作或学习所
近年来,732阳离子交换树脂作为酸性催化剂越来越受到人们的重视,广泛应用于化工生产中,代替了腐蚀性比较强的,副反应比较多的浓硫酸,更加符合了绿色化学的要求。在本试验以732阳离
土壤入渗过程是流域水文循环的重要组成部分,与土壤水分再分配、土壤侵蚀、养分随水分的迁移、农业面源污染等问题密切相关。紫色土是川中丘陵区主要的耕地资源,它是由紫色页
心脏性猝死(Sudden Cardiac Death,SCD)是一种严重危害人类健康的疾病,世界每年因此病猝死的患者约有1200万,其中SCD占75%。患者一旦出现症状,通常在一小时内死亡,倘若能及时
本刊讯2017年10月16日,《中国机构改革与管理》杂志社在北京召开2018年度共同办好杂志座谈会,内蒙古、浙江、山东、河南、广东、四川6个省(自治区)编办负责宣传工作的副主任