面向高维数据的概要分析方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:a83312259
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从知识发现概念的最初提出开始,数据挖掘理论和技术在短短十年左右的时间里得到了迅速发展。其中,数据概要分析(data summarization)是一类重要的描述性数据挖掘任务,它的目标在于通过发现数据的分布特征或典型模式概括性地描述数据,并以人们易于理解的方式展现,帮助人们深入了解数据的特征。对数据集进行概括性的描述是多个研究领域(如统计学,机器学习和数据挖掘)的一项重要研究内容。在实践中,数据概要分析有着广泛的应用背景。   由于高维数据的稀疏性和属性的多样性,现有方法往往不能有效地对高维数据进行概要分析。本研究以面向高维数据的概要分析问题为核心,研究了基于子空间聚类的概要分析方法,基于代表点的概要分析方法和异常点发现方法,并进一步讨论了概要分析方法在无线传感器网络数据上的应用。论文的主要研究内容和创新性成果总结如下:   1.研究了基于子空间聚类的概要分析问题,提出了子空间聚类的skyline和k代表子空间聚类的概念,设计了挖掘子空间聚类的skyline以及k代表子空间聚类的高效算法。   本研究首先以子空间聚类作为高维数据的概要,针对子空间聚类中存在大量冗余的问题,提出了子空间聚类的skyline的概念。子空间聚类的skyline是那些不被任何其他子空间聚类所支配的子空间聚类的集合。由于消除了子空间聚类结果中的冗余,使得子空间聚类的skyline远远小于原子空间聚类集合,因此能够有效概括高维数据的分布特征。针对于不同维度和规模的子空间聚类,本研究分别设计了SkyClu—IBC和SkyClu—CBC算法用于高效挖掘子空间聚类的skyline。   为了使分析人员能够进一步控制子空间聚类结果集的规模,本研究提出了k代表子空间聚类的概念。k代表子空间聚类是从子空间聚类结果集中抽取的最具有代表性的k个子空间聚类,并将其作为高维数据的概括性描述。为了高效发现k代表子空间聚类,本研究分别基于划分式和层次式的聚类方法设计了PCoC和HCoC算法。   2.研究了基于代表点的概要分析问题,提出了满足最小描述长度原则的最优概要以及低冗余top—k异常点的概念,设计了发现近似最优概要以及近似低冗余top—k异常点的高效算法。   为了对包含有各种类型属性的高维数据进行概要分析,本研究采用最有代表能力的对象子集作为高维数据的概要。通过应用最小描述长度原则,本研究提出了最优概要的概念。由于精确计算最优概要的复杂度过高,本研究设计了计算近似最优概要的启发式方法BIGFIRES算法。通过大量实际数据集上的实验表明,该算法不仅具有较高的效率,而且其概要结果能够有效帮助分析人员快速发现数据中的规律和模式。   对象代表能力的度量也可以有效地衡量对象的异常程度,用于发现高维数据中的异常点。为了更好地概括数据中的异常模式,本研究提出了低冗余的top—k异常点的概念。由于精确计算低冗余的top—k异常点是NP—hard问题,本研究设计了计算近似低冗余的top—k异常点的启发式方法k—AnomaliesHD算法。通过在真实与人工数据集上的实验,该算法不仅具有较高的效率,与不考虑冗余的异常点发现方法相比较,该方法能够更有效地概括高维数据中的异常模式。   3.研究了概要分析方法在传感器网络数据上的应用问题与解决策略。   本研究针对面向环境监测的传感器网络数据上的应用问题,总结出三类概要模式,即实时分布模式、代表模式及其演变规律。针对这三类概要模式,本研究分别采用网内持续聚类、抽取典型分布作为代表模式的方法将传感器网络采集的数据分步骤转化为不同层次的概要模式。通过应用这些方法,本研究介绍了一个基于这类应用的传感器网络概要模式查询与分析的原型系统。   总的来看,子空间聚类模型和代表点模型解决同一类问题,即高维数据集的概要分析问题。分开来看,基于这两种模型的方法分别具有不同的设计目标,针对包含不同类型的属性的数据集,各有不同的应用范围。通过实验,可以看出本研究所提出的方法是实用且高效的,与该研究领域的同类其它算法相比,具有明显的优势。
其他文献
由于具有良好的可扩展性、可用性、高性价比,机群结构已经成为高性能计算机的主流结构。使用机群系统进行复杂科学计算的需求日益增长。由于科学计算应用规模越来越大,复杂度越
随着互联网和信息技术的发展,网络上信息资源越来越丰富,信息的格式也多种多样,包括了文本、声音、图像、视频等媒介。信息的安全传输和展示成为一个需要解决的问题,信息的识别是
光照是影响成像的关键因素之一。当光照条件变化时,同一物体的不同成像之间的差异极大,有时甚至大于不同物体的成像之间的差异。在很多目标识别应用场景中,光照又常常不受人为控
数字化技术和网络的发展推动了海量数据的产生、共享与应用,使得科学与工程研究日益成为数据密集型的工作。包括大气科学在内的部分学科领域的数据密集型分析过程是由若干相关
学位
数据挖掘可以发现采用传统分析方法所无法发现的有用信息,因此具有重要的理论和应用价值。但是传统的数据挖掘算法的研究大多是在一些理想数据集基础上进行的。在现实世界中,数
随着超大规模集成电路的发展,处理器性能不断提高,访存系统的性能与处理器运算能力的差距越来越大。现代多核处理器设计成为主流,对内存访问带宽提出了更高的要求。为此,提高内存
随着网络带宽的快速增加和E-Science中对大量科学数据传输的需要,很多长距离高速网络相继出现,并在诸多领域发挥着重要的作用。但现有的TCP协议作为广泛使用的传输控制协议也面
学位
地理定位设备的普及和地理信息技术的发展使得地理标注服务日渐流行。另一方面,随着新媒体时代社交分享观念的不断渗透,用户们越来越乐于将所创作的图片、视频、文字等内容通过
化学杀虫剂在害虫防治中产生的负效应已经引起人们的广泛重视,生物控制在控制种群数量方面已成为研究的热点。其中“害虫—天敌”系统的研究是开展生物防治和害虫管理的理论基
计算机支持的协同工作(CSCW)在互联网时代取得了突飞猛进的发展,基于互联网的协同工作环境对于当代科学研究活动有着重要的意义和作用。如何在归纳科研活动共同特点和科研人员
学位