论文部分内容阅读
引言:作为一个新兴的研究领域,自从20世纪80年代开始以来,数据挖掘已经取得了显著进展并且涵盖了广泛的应用。今天,数据挖掘已经被应用到了众多的领域,同时出现了大量的商品话的数据挖掘系统和服务。然而,许多挑战依然存在。
一、挖掘复杂的数据类型
本文概述挖掘复杂数据类型的主要研究与进展。复杂数据类型汇总在图1中。本文介绍挖掘序列数据,如挖掘时间序列、符号、列和生物学序列。由于这些主题的广泛性,本文只给出一个高层概述,而不深入讨论。
图1 挖掘的复杂数据类型
时间序列数据集包含不同的时间点重复检测得到的数值序列。通常,这些值在相等时间间隔(例如,每分钟、每小时或每天)检测。时间序列数据库在许多应用都很普遍,如股票市场分析、经济和销售预测、预算分析、效用研究、库存研究、产出预测、工作量预测和过程与质量控制。对于研究自然现象(例如,大气、温度、风、地震)、科学与工程实验、医疗处置等也是有用的。
与一般的数据查询找出严格匹配查询的数据不同,相似性搜索找出稍微不同于给定查询序列的数据序列。许多时间序列的相似性查询都要求子序列匹配,即找出包含与给定查询序列相似的子序列的数据序列的集合。 对于相似性搜索,通常需要先对时间序列数据进行数据或维度规约和变换。典型的维归约技术包括:(1)离散傅里叶变换(DFT);(2)离散小波变换(DWT);(3)基于主成分分析(PCA)的奇异值分解(SVD)。在此不做详细讨论。使用这些技术,数据或信号被映射到变换后的空间。保留一小组“最强的”变换后的系数作为特征。
这些特征形成特征空间,它是变换后的空间的投影。可以在原数据或变换后的时间序列数据上构建索引,以加快搜索速度。对于基于查询的相似性搜索,技术包括规范化变换、原子匹配(即找出相似的、短的、无间隙窗口对)、窗口缝合(即缝合相似的窗口,形成大的相似序列,允许原子匹配之间有间隙),以及子序列排序(即对子序列匹配线性排序,确定是否存在足够相似的片段)。关于时间序列数据的相似性搜索,存在大量软件包。
最近,研究人员提出把时间序列数据变换成逐段聚集近似,使得时间序列数据可以看做符号表示的序列。然后,相似性搜索问题变换成在符号序列数据中匹配子序列的相似性搜索。我们可以识别基本模式,并为基于这种基本模式的有效搜索构建索引和散列机制。
大部分分类方法都基于特征向量构建模型。然而序列没有明显的特征。即便使用复杂的特征选择技术,可能的特征的维度也非常高,并且序列特征的性质也很难捕获。这使得序列分类成为一项具有挑战性的任务。
序列分类方法可以分为三类:(1)基于特征的分类,它们把序列转换成特征向量,然后使用传统的分类方法;(2)基于序列距离的分类,其中度量序列之间相似性的距离函数决定分类的质量;(3)基于模型的分类,如使用隐马尔科夫模型或其他统计学模型来对序列分类。
对于时间序列或其他数值数据,用于符号序列的特征选择技术不能用于非离散化的时间序列数据。然而,离散化可能导致信息损失。最近提出的时间序列shapelets方法用最能表示类的时间序列为特征,取得了高质量的分类结果。
生物学序列通常是指核苷酸或氨基酸序列。生物学序列分析比较、对比、索引和分析生物学序列,因而在生物信息学和现代生物学中起着至关重要的作用。
序列对比基于如下事实:所有活着的生物体都是进化相关的。这意味这进化中相近物种的核苷酸和蛋白质序列应该表现出更多的相似性。比对是对序列以便获得最大程度的一致性,它也表示序列之间的相似度。两个序列是同源的可能性是很有用的。这样对比也有助于确定多个物种在进化树中的行对位置,这种进化树称为种系发生树
三、总结
挖掘复杂的数据类型在数据挖掘发展中具有重要的作用,它能有效的提高可伸缩性、交互性和基于约束的挖掘方法,对序列数据、其他类型的数据都能有效的整理。
参考文献
[1](美)陈封能,范明 等译,数据挖掘导论(完整版)[M],人民邮电出版社,2011.
(作者单位:江西现代技师学院)
一、挖掘复杂的数据类型
本文概述挖掘复杂数据类型的主要研究与进展。复杂数据类型汇总在图1中。本文介绍挖掘序列数据,如挖掘时间序列、符号、列和生物学序列。由于这些主题的广泛性,本文只给出一个高层概述,而不深入讨论。
图1 挖掘的复杂数据类型
二、挖掘序列数据:时间序列、符号序列和生物学序列
序列事件的有序列表。根据事件的特征,序列数据可以分成三类:(1)时间序列数据;(2)符号序列数据;(3)生物学序列。让我们考虑每种类型。
在时间序列数据中,序列数据有相等的时间间隔(例如,每分钟、每小时或每天)记录的数值数据的长序列组成。时间序列数据可以被许多自然或经济过程产生,如股票市场、科学、医学或自然观测。
符号序列数据有时间或标称数据的长序列组成,通常不是相等的时间间隔观测。对于许多这样的序列,间隙(即,记录的事件之间的时间间隔)无关紧要。例子包括顾客购物序列、web点击流,以及科学和工程、自然和社会发展的事件序列。
生物学序列包括DNA序列和蛋白质序列。这种序列通常很长,携带重要的、复杂的、隐藏的语义。这里,间隙通常是重要的。
让我们考虑这些序列数据的挖掘。
- 时间序列数据的相似性搜索
时间序列数据集包含不同的时间点重复检测得到的数值序列。通常,这些值在相等时间间隔(例如,每分钟、每小时或每天)检测。时间序列数据库在许多应用都很普遍,如股票市场分析、经济和销售预测、预算分析、效用研究、库存研究、产出预测、工作量预测和过程与质量控制。对于研究自然现象(例如,大气、温度、风、地震)、科学与工程实验、医疗处置等也是有用的。
与一般的数据查询找出严格匹配查询的数据不同,相似性搜索找出稍微不同于给定查询序列的数据序列。许多时间序列的相似性查询都要求子序列匹配,即找出包含与给定查询序列相似的子序列的数据序列的集合。 对于相似性搜索,通常需要先对时间序列数据进行数据或维度规约和变换。典型的维归约技术包括:(1)离散傅里叶变换(DFT);(2)离散小波变换(DWT);(3)基于主成分分析(PCA)的奇异值分解(SVD)。在此不做详细讨论。使用这些技术,数据或信号被映射到变换后的空间。保留一小组“最强的”变换后的系数作为特征。
这些特征形成特征空间,它是变换后的空间的投影。可以在原数据或变换后的时间序列数据上构建索引,以加快搜索速度。对于基于查询的相似性搜索,技术包括规范化变换、原子匹配(即找出相似的、短的、无间隙窗口对)、窗口缝合(即缝合相似的窗口,形成大的相似序列,允许原子匹配之间有间隙),以及子序列排序(即对子序列匹配线性排序,确定是否存在足够相似的片段)。关于时间序列数据的相似性搜索,存在大量软件包。
最近,研究人员提出把时间序列数据变换成逐段聚集近似,使得时间序列数据可以看做符号表示的序列。然后,相似性搜索问题变换成在符号序列数据中匹配子序列的相似性搜索。我们可以识别基本模式,并为基于这种基本模式的有效搜索构建索引和散列机制。
- 序列分类
大部分分类方法都基于特征向量构建模型。然而序列没有明显的特征。即便使用复杂的特征选择技术,可能的特征的维度也非常高,并且序列特征的性质也很难捕获。这使得序列分类成为一项具有挑战性的任务。
序列分类方法可以分为三类:(1)基于特征的分类,它们把序列转换成特征向量,然后使用传统的分类方法;(2)基于序列距离的分类,其中度量序列之间相似性的距离函数决定分类的质量;(3)基于模型的分类,如使用隐马尔科夫模型或其他统计学模型来对序列分类。
对于时间序列或其他数值数据,用于符号序列的特征选择技术不能用于非离散化的时间序列数据。然而,离散化可能导致信息损失。最近提出的时间序列shapelets方法用最能表示类的时间序列为特征,取得了高质量的分类结果。
- 生物学序列对比
生物学序列通常是指核苷酸或氨基酸序列。生物学序列分析比较、对比、索引和分析生物学序列,因而在生物信息学和现代生物学中起着至关重要的作用。
序列对比基于如下事实:所有活着的生物体都是进化相关的。这意味这进化中相近物种的核苷酸和蛋白质序列应该表现出更多的相似性。比对是对序列以便获得最大程度的一致性,它也表示序列之间的相似度。两个序列是同源的可能性是很有用的。这样对比也有助于确定多个物种在进化树中的行对位置,这种进化树称为种系发生树
三、总结
挖掘复杂的数据类型在数据挖掘发展中具有重要的作用,它能有效的提高可伸缩性、交互性和基于约束的挖掘方法,对序列数据、其他类型的数据都能有效的整理。
参考文献
[1](美)陈封能,范明 等译,数据挖掘导论(完整版)[M],人民邮电出版社,2011.
(作者单位:江西现代技师学院)