论文部分内容阅读
随着2015年召开的五中全会确定了大数据战略上升为国家战略,近年来“大数据开启智能时代”成为时代发展的潮流。大数据时代缔造者就是互联网,互联网的急速发展使数据量呈现爆炸式增加。在如此大的数据量面前,既给人们带来千载难逢的机遇又给人们带来了极大的挑战。很多有价值的信息被大量的无用数据淹没,使人们很难获得自己需要而且又有价值的信息,因此如何从大量数据中挖掘出人们需要的信息成为研究的重点方向。文本分类在数据挖掘领域是一项极为关键的技术,可以说是数据挖掘的核心部分,而特征选择方法在文本分类中扮演着不可缺少的角色,所以研究特征选择方法非常有必要。新疆是一个多民族发展的地区,维吾尔语在新疆使用非常普遍,互联网的发展同样也给维吾尔语发展带来了机遇和挑战。维吾尔文文本分类技术符合时代发展的潮流,这样维吾尔文分类技术就显得极其重要,所以本文主要对维吾尔文文本分类中特征选择方法进行研究。本文研究的主要内容和成果如下:(1)在深入研究分析传统信息增益的不足以及维吾尔语自身语种复杂特点的基础上,提出了一种改进信息增益的维吾尔文特征选择(WCIR-IG)方法。该方法从四个方面对传统信息增益进行了修正,首先结合类词频和特征分布系数以及倒逆文档频率,对传统信息增益进行修正;然后引入一个备选特征分布系数来平衡类间选取的特征数。实验表明,改进的信息增益算法有效性,选择的特征在每个类分布相对均匀,且特征项区分度明显,有效的克服传统信息增益的缺点。(2)针对传统的信息增益和卡方的优点和不足之处,提出了一种混合改进的维吾尔文特征选择(SIC)方法。该方法首先以类别为单位对特征项进行评估;其次对评估值进行归一化处理,避免了评估值过大或过小,便于分析;然后结合类词频弥补了两种算法都未考虑的词频缺陷;最后引入了两个调节因子,便于调节两种算法不同比重,使其实用性更强。在维吾尔语数据集上进行实验,实验结果证明混合特征选择(SIC)方法不仅提高了分类的准确率,而且该方法的鲁棒性强。(3)基于特征优化的特征选择方法,研究了经典粒子群算法,根据维吾尔语语种特点及分类的流程,改进了传统粒子群算法,并且把该算法运用到维吾尔文特征选择中。首先在第三章研究的基础上,利用传统信息增益进行特征粗选,降低了特征维度;其次把二次函数思想引入到惯性权重的变化中,使其在粒子搜索的过程具有不同的权重,开发能力和探索能力得到了充分体现;然后把特征选择的个数引入到适应度函数中,有利于降低特征的维度;最后在维吾尔文数据集上对改进粒子算法进行对比实验分析。结果表明,经过IG粗选和改进PSO精选后的特征子集类别的区分度明显,在一定程度上提高了维吾尔文文本分类性能。