数据挖掘的建模及在生物信息学中的应用研究

被引量 : 14次 | 上传用户:datangkang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十几年,随着科学技术的飞速发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据。为了从如此大量的数据中发现有价值的知识及规律,人们结合统计学、数据库、机器学习等技术,提出数据挖掘技术来解决这一难题。聚类分析是数据挖掘研究中的重要内容,成为各学科研究中的重要工具。但在现实生活中,常常遇到高维数据集的处理且在大多数情况下,这些数据集对于各个聚类存在属性不平衡的现象。根据这一点,本文提出在核特征空间中的属性加权核聚类算法,实验表明新聚类算法能很好地反映各属性对于各个聚类的重要性,因而取得了比传统聚类算法更好的结果。传统聚类算法的应用对象往往局限于单一独立的数据集,但在很多情况下一个数据集要和其他数据集相互发生关联。基于信息理论,本文提出的合作聚类算法反映了数据集间的相互作用关系,结果表明聚类结果将受到其他数据集的影响。在人类世界中,人眼是最有效的获取知识的器官,也是最有效的聚类机制。因此模仿人眼的工作原理将为研究聚类分析提供一个非常好的平台。本文通过模拟人眼非均匀采样的特点,提出一新颖的视觉聚类分析算法,该算法对于解决聚类分析结果评价的有效性等有着重要的参考意义。随着生物科学技术在近几年的发展,产生了大量的生物数据。利用传统的生物实验方法将不能满足目前处理如此多生物数据的需要。在这种情况下,生物信息学应运而生。生物信息学是计算机科学与生物科学的交叉学科,成为目前研究的热点。诸多数据挖掘技术,如聚类分析、机器学习等,也成为生物信息研究中的重要内容。文章在分析了前人利用“无监督”模糊C均值聚类算法在预测分析蛋白质结构方面的缺陷的基础上,提出了一种“有监督”的聚类算法用来预测蛋白质结构。实验表明,利用了训练数据类别标号的“有监督”聚类算法的分类精度比“无监督”聚类算法有很大提高。通过这一点表明,在缺乏数据样本类别标号时,“无监督”聚类算法是一种优秀的分析工具,但如果先验知识预先知道训练样本的类别标号,采用“有监督”的学习算法将更加有效。在蛋白组学的研究中,一个重要的课题是如何离散化蛋白序列,从而能为计算机所识别处理。诸多实验表明,伪氨基酸离散模型比传统20-D氨基酸离散模型包含更多的序列顺序信息,因而大大地提高了各类算法在蛋白质属性上的预测分析精度。但如何确定伪氨基酸成分的维数一直是困扰各位研究人员的问题。本文提出了集成分类器框架方案,通过集成多个不同维数的伪氨基酸离散化模型,解决了维数选择问题,大量实验表明在大多数情况下,由于从不同角度抓住问题的核心,集成分类器比任何单一维数的分析精度都要高。随着生命科学、生命数据库的发展,近几年Gene Ontology(GO)数据库得到了长足的发展。GO数据库是一综合多种不同数据库的蛋白表达数据库。本文利用GO蛋白的离散模型预测分析蛋白亚细胞位置,由于GO离散模型更能反映蛋白亚细胞位置的特性,因此取得了比其他离散化模型更好的效果。另外,本文所建立的数据集覆盖了目前该领域研究中最多的亚细胞位置,大大扩大了该项研究的实际应用意义。为了更好地使广大生物学家应用本文生物信息学研究的成果,文章建立了多个在线生物信息预测分析网站,经不完全统计,已有来自美国、英国、荷兰、澳大利亚以及中国等世界各地的研究科学家通过互联网访问并使用所建立的在线生物信息服务网站,为科学研究的快速发展提供了强有力的支持。本文的创新性表现在:(1)提出高维核空间属性加权核聚类算法,并从理论上证明了收敛性;(2)讨论了合作聚类模型,该模型在研究实际社会中的关联模型上有重要意义;(3)通过模拟生物人眼非均匀采样的特点,提出一种新颖的视觉聚类算法;(4)提出基于“有监督”聚类算法的蛋白结构预测模型;(5)提出集成分类器框架模型,有效地解决了伪氨基酸蛋白离散模型的维数选择问题;通过在诸多应用对象、算法上的实验表明,该框架是切实可行的;(6)采用新型的GO蛋白离散模型分析预测蛋白亚细胞位置。该文所研究的细胞位置数目是目前该研究领域最多的,进一步加强了该研究的实际应用意义;另外,本文的研究涵盖了多个应用对象,如人类细胞、植物细胞、细菌细胞以及病毒等;(7)为了进一步加速研究成果的转化及应用,建立了多个在线生物服务网站。通过互联网,世界各地的科学家可以在线使用生物信息预测服务。
其他文献
自从20世纪50年代Modigliani和Miller提出了著名的MM理论后,在资本结构的理论方面,西方经济学界取得了长足的进步,并且随着西方各国资本市场的发展,现实中对资本结构理论的应
我国由于水源地污染而引起的社会问题相当突出,饮用水水源保护问题已成为关系国计民生的重大问题。为此,2006年国家环保总局会同有关部委开展《全国饮用水源地环境保护规划》
The jet obliquity compensation approach for cutting plane curve and space curve with abrasive water jet (AWJ) has been researched. The kerf width, kerf taper an
随着国际航运业的迅速发展,集装箱运输量持续快速增长,集装箱船舶不断大型化。集装箱码头为进一步提高其在国际集装箱运输中的竞争力,不得不采取措施提高集装箱码头的装卸效
政府投资建设项目跟踪审计是指由国家审计机关对政府投资的建设工程项目进行全过程跟踪审计,包括对建设项目投资活动中的建设项目决策、设计、招投标、施工、竣工验收及结算
风险管理成为企业存亡的关键,本文针对非金融企业,提出其在内部控制的基础上如何建立有效的全面风险管理体系。本文采用系统分析法、个案研究法、调查研究法、风险研究方法进
目的自1974年美国成立了世界上第一个医院伦理委员会以来,许多国家也相继建立了医院伦理委员会或医学伦理委员会。我国的医院伦理委员会自提出构想到现在履行职责已历经21年,
如今,大量电力电子装置以及其他非线性负荷得到了广泛应用,在提高生产力的同时也在电力系统中导致了严重的电能质量恶化。其中,并网逆变器的应用已经相当广泛,而并网逆变器作
在变电站自动化领域中,随着智能化电气相关应用技术的成熟与发展,特别是智能化断路器、基于光电技术的互感器等机电一体化设备技术的发展、IEC61850标准的颁布、以太网技术的
水煤浆技术是我国发展洁净煤技术的一项重要内容,以其环境污染小,资源利用率高,成本低廉,使用方便等特点而应用于煤气化、代油燃烧等领域。目前水煤浆制备中大多采用高阶煤,