基因数据的动态聚类分析研究

来源 :上海大学 | 被引量 : 0次 | 上传用户：cdp850911

【摘要】

：

生物学和医学的迅速发展以及基因芯片的逐步实用化都使得同时比较和研究大量基因的特性成为可能，随之产生了海量的基因数据。通过分析这些数据可以获得对人类有益的有关生物结

【作者】

：

胡琴

【机构】

：

上海大学

【出处】

：

上海大学

【发表日期】

：

2007年期

【关键词】

：

基因数据聚类分析法医学工程计算机应用

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

生物学和医学的迅速发展以及基因芯片的逐步实用化都使得同时比较和研究大量基因的特性成为可能，随之产生了海量的基因数据。通过分析这些数据可以获得对人类有益的有关生物结构和功能的信息，对基因数据的分析研究己成为生命科学、数学科学与计算机科学等学科非常活跃的交叉课题之一。聚类分析是基因数据分析的一种重要手段，本文着重研究基因表达数据和基因序列数据中的聚类分析算法。针对目前常用的基因表达数据聚类分析算法中存在的参数依赖性强，并且在整个聚类过程中类的数目始终保持不变的缺点，本文引入动态调整聚类个数的思想；针对不能对空间中有部分重叠的点进行有效的分类从而不能得到全局最优的聚类结果，本文进一步引入伪F统计量，提出了一种基于多维伪F统计量的动态K-均值聚类算法。根据用户要求的聚类次数，每次开始于基因表达数据中两两基因间在多维表达水平下的相似度矩阵，动态地选取一定数目的基因作为初始聚类群，根据离差平方和法，不断精练初始聚类群，从而使得聚类个数不断地变化，且动态地向正确的聚类个数逐渐收敛。该算法能保证最终聚类结果类内散布矩阵之迹达到最小，把多维空间的数据点有效划分为具有特定数目的不同的类，给出最佳聚类个数。基于图BAG的聚类算法是基因序列数据分析中经典的聚类算法，但在该算法中相似分数阀值初始值和最长公共子串最小长度阀值如何确定没有明确给出，本文提出了一种基于比对相似度动态矩阵SZDM的聚类算法，利用动态矩阵来表示序列间的匹配关系，明确给出了确定相似度分数阀值和最长公共子串的最小长度阀值的方法，使得算法具有较好的聚类正确率。在分析常用的聚类分析算法的基础上，本文提出了一种新的聚类分析方法：基于交集的统计改进的组合聚类算法SCCA(statistical Mended Clustering Combination Algorithm Based on Intersection)。算法借鉴了统计学的思想，对边缘对象进行统计分类。给定同一数据集的不同聚类结果，此算法先求出不同聚类结果中每个分类的对应关系，然后计算这几个聚类结果对应分类的交集，对剩余的有争议对象进行统计，最后把统计后仍未确定归属的对象分配给最近对象所在的分类中，或者不经过统计直接将有争议的对象分配给最近对象所在的分类。本文对上述研究进行了验证和分析。实验结果表明，基于多维伪F统计量的动态K-均值聚类算法可以动态地调整聚类个数，给出了最佳聚类数目；基于比对相似度的动态矩阵的序列聚类算法可以获得比较好的聚类正确率；基于交集的统计改进的组合聚类算法聚类质量优于组合前的任意一个算法。

其他文献

面向Storm的数据流编程模型与优化方法研究

分布式计算框架利用廉价PC构建多核集群解决了大规模并行计算问题,但是在分布式计算框架上编程需要考虑程序子任务间的负载均衡和通信同步开销,编程难度大。数据流编程模型作

学位

数据流编程模型分布式计算框架StormCOStream

多维序列模式挖掘算法在广播收听率分析中的研究与应用

随着数据库和计算机网络的广泛应用,加上使用先进的自动数据生成和采集工具,人们所拥有的数据量急剧增大。数据挖掘技术正是目前解决“数据爆炸”但“信息贫乏”的一种有效方

学位

数据挖掘多维序列模式时态约束广播媒体数字化

约束组合有色时间Petri网应用研究

Petri网是一种适合于描述异步并发现象的系统模型，但是在使用基本Petri网来为复杂系统建模时会出现“节点爆炸”问题，本文提出约束组合弧克服该问题。约束组合弧不仅可以描述库

学位

有色Petri网时间Petri网约束组合弧带式输送机多范式建模

基于智能机顶盒的网络附连存储系统设计与实现

随着家庭智能网络的兴起,家庭用户的数据存储和共享变得越来越重要。现有的网络附连存储(NAS)产品主要是为企业用户设计的,它们存在能耗大、价格高、专业性操作强等不足。就

学位

家庭智能网络文件共享流媒体服务网络附连存储协议

通用试题库系统的研究与实现

试题库系统是指将大量的试题存储在计算机中，然后根据所需要试题的难度、题型等条件从试题库中随机抽题来满足考试要求的系统。试题库系统的开发不仅可以减轻教师繁重而又重复

学位

试题库系统经典测量理论组卷算法系统开发

基于角色概念的Ontology工程化方法及其应用研究

Ontology最早是一个哲学的范畴,后来随着人工智能的发展,被人工智能界赋予了新的定义。在语义Web中,Ontology具有非常重要的地位,是解决语义层次上Web信息共享和交换的基础。

学位

本体角色概念语境本体工程

基于IBE的内网安全机制研究与实现

随着全球信息化的发展,各个组织、政府、企业等机构的信息网络越来越复杂,对内网的安全需求也越来越高,研究机构内网的安全机制已成为日益紧迫的课题。密码技术是解决网络安

学位

基于身份加密体制双线性对内网安全邮件代理系统

基于遗传算法优化QoS路由算法的研究

随着不断增长的分布式多媒体应用的需求，以及Internet上商业化应用的飞速发展，对网络的服务质量(QoS：Quality of Service)提出了更高的要求，高效的QoS支持变的越来越重要，IETF提出

学位

QoS路由遗传算法组播组播路由树型编码

基于MPLS的无线城域网QoS机制研究

WiMAX和MPLS是当前网络通信领域的两大热点技术,也是国内外专家学者争相研究的对象。WiMAX作为当前优秀的宽带无线接入(BWA)技术之一,被IEEE标准化组织认定为无线城域网的主

学位

无线城域网WiMAXIEEE802.16服务质量多协议标签交换分类器调度器

基于多通道等待排队算法的高校选课系统的资源最优化分析

在学分制高校中，选课是学校教学管理的不可缺少的重要一环。选课的顺利实施，对于学校的决策者和管理者以及学生来说都至关重要，所以高校选课系统应该能够高效、顺利地解决学分制

学位

高等学校选课系统资源优化多通道等待排队算法

基因数据的动态聚类分析研究

其他学术论文