微阵列数据的聚类算法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:szzc2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的进展,对于基因的功能和基因组内各基因的研究逐步深入。研究基因在不同时间和条件下的表达情况,是认识基因功能的一个主要途径。cDNA微阵列技术可以同时测量全基因组的表达情况,是生物学家认识基因的重要工具。微阵列技术产生了大量基因表达数据,要从中提取有价值的信息,采用数据挖掘的技术是十分必要的。 功能相近的基因其表达模式相似,通过发现相似的表达模式可以预测未知基因的功能。数据挖掘中的聚类算法是按照数据的相似性进行划分,实现物以类聚的思想。采用聚类技术对基因表达数据进行处理,可以把表现模式相近的基因聚集到一起,这种划分有助于专业人员发现基因功能和遗传模式。 目前基因芯片邻域中的大多数聚类算法在实际应用中存在着一些不足之处,例如K-均值和自组织映射都需要预先输入簇的个数,而在对基因表达谱进行聚类时,簇的个数通常是未知的,改变这一参数往往会极大地影响聚类结果;传统的聚类算法对噪声数据非常敏感,对规模的可伸缩性差;传统聚类算法最早是起源自非生物相关的研究邻域,所以通常的聚类结果并不包含明确的生物学意义。本文针对以上不足,将K最近邻先吸收思想和已知基因的生物学知识引入了基于密度的聚类算法中,设计并实现了一种新的基于密度的K最近邻先吸收的聚类算法,在聚类过程中利用已知基因的生物学意义生成最初的簇集。最后将所提出的算法应用于酵母细胞有丝分裂下的基因芯片数据,对聚类的结果从簇结构的合理性和生物学上的意义两方面给出了明确的比较,从对比结果知本文所提出的算法无论从簇结构的合理性还是生物学意义上都明显高于K-均值聚类算法。
其他文献
传统的边界防火墙存在单点失效和性能瓶颈的局限性,而且依赖于网络的拓扑结构实施其安全策略。在网络高速发展的今天,传统防火墙的局限性越发显得明显。分布式防火墙正是在这样
随着无线局域网得到越来越广泛的应用,研究无线宽带接入互联网的基础理论与关键技术具有重大的科学和经济意义,提供高性能的无线互联网传输协议是实现无线宽带接入互联网要解
在存储系统中,CPU的处理速度远大于磁盘等I/O设备的读写速度,两者间的速度不匹配严重影响了系统整体性能。预取技术能够有效地弥补I/O设备与CPU之间的速度差异,因此被广泛应用。
网格技术将所有可用于共享的资源(例如,计算机、高性能设备、昂贵仪器、存储设备、科学数据、软件、数据库等)通过网络连接起来,并将它们转化成一种随处可得的、可靠的、标准
相对于传统的磁质机械硬盘,基于闪存的固态硬盘具有更高的读写速度、更低的能耗、更好的抗震性和更低的噪音。因此,固态硬盘正越来越多地被运用在计算机系统中。但是,因为固态硬
语音识别(speech recognition)是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的
应用系统对海量存储技术的要求越来越高,经典的基于块访问接口的SAN和基于文件访问接口的NAS系统已力不从心,而新出现的基于对象接口的网络存储技术以高性能、高可扩展性、易管
嵌入式设备能与用户亲密接触,最重要的因素就是它必须能提供非常友好的用户界面、图像界面和灵活的控制方式。这方面的要求使得嵌入式软件设计者要在图形界面的设计上多下功
随着数字化技术的飞速发展,数字视频信号的传输技术更是受到人们的关注。相比较其它类型的信息传输如文本和数据,视频通信需要占用更多的带宽资源,因此为了实现在带宽受限的条件
随着多核体系结构的崛起,多线程编程目前已经广泛使用到多个领域,如科学计算、桌面应用程序、网络服务器和移动设备。然而,多线程程序设计也给编程人员带来新的挑战和问题。数据