论文部分内容阅读
数据挖掘是指使用一定的机器学习算法从获取到的大规模数据中发现有用信息的过程,是人工智能领域中一个重要的研究方向。目前,随着网络技术与database技术的日渐成熟,各行各业中获得到的信息正呈现着指数级的增长态势,尤其在大数据背景下,数据集的规模和高维度为传统的数据挖掘技术带来了前所未有的挑战,探索高效可行的数据挖掘技术已成为一个亟待解决的关键问题。特征选择是数据挖掘中一种常用的数据预处理技术,探索面向大规模数据集的更为高效的特征选择处理技巧,也已经成为特征选择研究中一个研究热点和难点。为此,本文以粗糙集理论为背景,针对面向大规模数据集的高效特征选择进行了分析和研究,并取得了以下的研究成果:1、通过借鉴粗糙集理论中的部分核心概念,基于信息熵理论,提出了一种面向数据集中数据取值动态更新的特征选择算法,可一次处理一组取值发生变化的数据.该算法中通过分析并证明互补信息熵随数据取值动态更新的变化机理,并借鉴了粗糙集理论中属性约简的求解策略,设计了一种基于互补熵的高效特征选择算法。实验分析和结果进一步验证了该算法的有效性。2、面向数据挖掘中“少量标记问题”,借助于半监督学习的思想,提出了一种基于聚类假设的半监督特征选择算法.算法利用有标记数据作为种子,采用聚类算法对未标记数据进行聚类并赋标签,选取每一类无标签数据中的部分数据作为无标签数据代表与原有标记数据组成新的数据集,以信息熵作为特征重要度的度量,给出了基于聚类假设的半监督粗糙特征选择算法.实验结果进一步验证了新算法的可行性和高效性.本文通过分析大数据背景下,现有特征选择技巧处理大规模高维数据集的局限性,以粗糙集理论为背景,提出了一种面向动态数据集的高效特征选择算法和一种面向少量标记数据集的半监督特征选择算法。相关的理论证明和实验结果分析也都表明了本文中新算法的可行性和高效性。因此,本文的主要研究内容和成果为面向大规模数据集的降维技术提供了可以借鉴的处理技巧和新思路。