基于特征关联关系的特征选择算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:snowshine1116131
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从海量生物数据中挖掘出反映疾病发生发展变化的重要信息,尤其是恶性肿瘤发生的关键特征,是生物信息学及其应用研究的一个热点问题。在生命机体中,分子间彼此相互关联、相互作用,共同完成各项复杂的生理功能。因此,疾病状态中发生扰动的不仅是一个分子,而是多个分子间的关联关系。关注疾病发生发展中分子间关联性的改变,获得有效地反映生命机体病变的重要特征,有助于提高疾病的临床诊断效果。本文从探究分子间的相互关系入手,研究基于特征间关联关系的数据分析新算法,将所研制的新方法应用在疾病组学数据中,从网络或组合标志物层面发现有助于疾病诊断的关键信息。本文工作主要包括:  (1)提出了一种新的特征对评价算法,不同于仅考察特征间水平比较关系的特征对评价算法,本算法同时分析特征间的水平和垂直比较关系在疾病发生发展过程中的变化,挖掘特征间具有判别能力的关联信息,并依据所选出特征对的比较关系构建相应的分类模型。在分析基因组学数据和代谢组学数据的实验中,该算法所构建的分类器表现出更好的分类性能和更强的鲁棒性,实验结果表明该算法从不同角度分析特征间的关联关系,可以发现更多的判别信息,促进临床诊断和疾病标志物的研究。  (2)提出了基于组合特征的分类模型构建算法,该算法通过探究特征间的水平比较关系,筛选具有判别能力的特征对,迭代地构造有效的组合特征,所生成的组合特征参与分类模型的构建。组合特征不局限于只考察两个特征间的关联性,而是根据迭代分析的结果确定,并且基于原始单特征和组合特征建立有效的分类模型。该算法在分析基因组学数据和代谢组学数据时,可以有效地区分数据集中不同类别的样本,实验结果说明挖掘特征间具有判别能力的关联关系、迭代地构建新的组合特征,有助于促进疾病的分型研究。  (3)提出了基于有效范围的非重叠率的代谢网络构建和动态网络分析新方法。该方法通过探究病变过程中通路反应的紊乱程度构建动态代谢网络,描绘复杂疾病发生发展过程中代谢轨迹的动态变化。根据该网络构建方式特点,提出了拓扑结构分析和动态浓度分析方法,以确定疾病恶化的关键时间节点、筛选具有预警作用的网络信息和重要代谢比值特征。将所研制的方法应用在大鼠肝癌队列数据中,确定了重要代谢比值特征LPC18∶1/FFA20∶5,该比值标志物不仅可以有效地区分动物模型中的肝癌样本,其表达值升高也可以预警肝癌的早期发生。  (4)提出了提取差异性网络子图的新方法,通过分析比值特征的相关性网络,发现节点间关联关系在不同生理、病理状态下的差异,提取反映机体病变的差异性子网;基于差异性子网的拓扑结构分析,确定与所研究问题相关的重要比值特征。该方法既可以分析静态数据以寻找疾病的判别信息,也可以分析时间序列数据以发现疾病的预警信号。将所研制的方法应用在静态的基因组学数据和动态的代谢组学数据上,实验结果表明提取比值特征的相关性差异子网可以为分析复杂的疾病组学数据提供新思路。  为探究特征间关联性在疾病发生、发展中的变化,发现可以反映机体病变的重要的关联关系,促进临床疾病的诊断研究和标志物筛选,本文以疾病组学数据为主要研究对象,以临床标志物筛选为研究目标,研制从网络和组合标志物层面分析复杂组学数据的新方法;并将开发的新方法用于疾病的分型和潜在生物标志物的研究,以获得有效地反映生物体病变的关键特征。本文所开发的数据处理方法可为疾病特征提取和标志物筛选提供有效的新工具。
其他文献
国际电信联盟(International Telecommunication Union,ITU)和国际标准化组织(ISO/IEC)制定了一系列视频编码标准最新的视频编码标准H.264,以此改善视频的压缩效率和增强视频
现存的序列模式挖掘算法多是基于瞬时事件的,然而在现实世界中很多事件都是发生在一段时间内,例如语言分析,网络检测等,时间间隔事件序列频繁模式挖掘在这些领域都有很重要的
僵尸网络是攻击者出于恶意目的,传播僵尸程序控制大量主机,并通过一对多的命令与控制信道所组成的网络。传统的僵尸网络主要是基于IRC、HTTP协议的集中式结构,但近年来,越来
智能交通系统(ITS)是智能视频监控系统在现代交通领域的重要应用,代表着未来交通管理的发展趋势。基于视频的车辆检测与定位技术作为ITS的关键技术,处于ITS的底层,是整个系统
随着DT(Data Technology)时代的到来,数据的价值在各行各业中越来越得到广泛重视。如何从纷繁复杂的数据中发掘去一些有价值的信息来指导和改善我们的工作和生活具有重要的意
随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。目前通用搜索引擎在搜索人物上的表现已经远远无法满
图像分割是由图像处理到图像分析的关键步骤,在实际中有着广泛的应用。将数学形态学的思想用于图像分割是近年来图像处理研究的热点之一。目前基于数学形态学图像分割方法的研
知识获取是知识工程中关键的一环,而从文本知识源中获取专业知识是一种重要而常用的途径。但从文本中获取知识并不简单,不管是手工获取还是机器获取,领域专家所使用的概念都
随着互联网的普及,计算机在各个领域的普遍应用给人们的工作和生活带来了很大的方便,人们在享用信息社会方便高效的同时,也面临着各种各样的安全风险。黑客的攻击,病毒和木马
随着网络技术、计算机技术和通信技术的迅速发展,医疗数字化渐成趋势,PACS(Picture Archiving and Communication Systems)医学图像的存档和通讯系统也逐步普及。由于PACS需