论文部分内容阅读
从知识发现概念的最初提出开始,数据挖掘理论和技术在短短十年左右的时间里得到了迅速发展。其中,数据概要分析(data summarization)是一类重要的描述性数据挖掘任务,它的目标在于通过发现数据的分布特征或典型模式概括性地描述数据,并以人们易于理解的方式展现,帮助人们深入了解数据的特征。对数据集进行概括性的描述是多个研究领域(如统计学,机器学习和数据挖掘)的一项重要研究内容。在实践中,数据概要分析有着广泛的应用背景。
由于高维数据的稀疏性和属性的多样性,现有方法往往不能有效地对高维数据进行概要分析。本研究以面向高维数据的概要分析问题为核心,研究了基于子空间聚类的概要分析方法,基于代表点的概要分析方法和异常点发现方法,并进一步讨论了概要分析方法在无线传感器网络数据上的应用。论文的主要研究内容和创新性成果总结如下:
1.研究了基于子空间聚类的概要分析问题,提出了子空间聚类的skyline和k代表子空间聚类的概念,设计了挖掘子空间聚类的skyline以及k代表子空间聚类的高效算法。
本研究首先以子空间聚类作为高维数据的概要,针对子空间聚类中存在大量冗余的问题,提出了子空间聚类的skyline的概念。子空间聚类的skyline是那些不被任何其他子空间聚类所支配的子空间聚类的集合。由于消除了子空间聚类结果中的冗余,使得子空间聚类的skyline远远小于原子空间聚类集合,因此能够有效概括高维数据的分布特征。针对于不同维度和规模的子空间聚类,本研究分别设计了SkyClu—IBC和SkyClu—CBC算法用于高效挖掘子空间聚类的skyline。
为了使分析人员能够进一步控制子空间聚类结果集的规模,本研究提出了k代表子空间聚类的概念。k代表子空间聚类是从子空间聚类结果集中抽取的最具有代表性的k个子空间聚类,并将其作为高维数据的概括性描述。为了高效发现k代表子空间聚类,本研究分别基于划分式和层次式的聚类方法设计了PCoC和HCoC算法。
2.研究了基于代表点的概要分析问题,提出了满足最小描述长度原则的最优概要以及低冗余top—k异常点的概念,设计了发现近似最优概要以及近似低冗余top—k异常点的高效算法。
为了对包含有各种类型属性的高维数据进行概要分析,本研究采用最有代表能力的对象子集作为高维数据的概要。通过应用最小描述长度原则,本研究提出了最优概要的概念。由于精确计算最优概要的复杂度过高,本研究设计了计算近似最优概要的启发式方法BIGFIRES算法。通过大量实际数据集上的实验表明,该算法不仅具有较高的效率,而且其概要结果能够有效帮助分析人员快速发现数据中的规律和模式。
对象代表能力的度量也可以有效地衡量对象的异常程度,用于发现高维数据中的异常点。为了更好地概括数据中的异常模式,本研究提出了低冗余的top—k异常点的概念。由于精确计算低冗余的top—k异常点是NP—hard问题,本研究设计了计算近似低冗余的top—k异常点的启发式方法k—AnomaliesHD算法。通过在真实与人工数据集上的实验,该算法不仅具有较高的效率,与不考虑冗余的异常点发现方法相比较,该方法能够更有效地概括高维数据中的异常模式。
3.研究了概要分析方法在传感器网络数据上的应用问题与解决策略。
本研究针对面向环境监测的传感器网络数据上的应用问题,总结出三类概要模式,即实时分布模式、代表模式及其演变规律。针对这三类概要模式,本研究分别采用网内持续聚类、抽取典型分布作为代表模式的方法将传感器网络采集的数据分步骤转化为不同层次的概要模式。通过应用这些方法,本研究介绍了一个基于这类应用的传感器网络概要模式查询与分析的原型系统。
总的来看,子空间聚类模型和代表点模型解决同一类问题,即高维数据集的概要分析问题。分开来看,基于这两种模型的方法分别具有不同的设计目标,针对包含不同类型的属性的数据集,各有不同的应用范围。通过实验,可以看出本研究所提出的方法是实用且高效的,与该研究领域的同类其它算法相比,具有明显的优势。