论文部分内容阅读
随着科技的进步,计算机信息技术也在快速向前发展,人们需要处理的文本信息资源也越来越多,要想快速、有效地从这些大量的文本信息资源中,挖掘出有价值的知识和信息,需要有效的数据挖掘技术。因此,数据挖掘技术随之诞生,文本分类是数据挖掘的一个重要研究内容,而文本特征选择又是文本分类的关键技术和核心问题。国内外的研究者们提出了多种文本特征选择方法,大体有几个方面:基于评估函数的文本特征选择方法,如文档频数、词频、信息增益、期望交叉熵、互信息、儿率比和文本证据权等等;基于语义理解的特征选择方法,基于相关特征性的特征选择方法,基于遗传算法的特征选择方法。以上这些方法都是通过计算词条在文本中的相关参数值,提取出参数值较高的词条。但是,有些参数值低的词条可能带有更多的有用信息,直接忽视参数值低的词条对于更全面地进行文本特征选择存在一定的局限性。针对文本特征选择中存在的问题,为了更全面地对文本进行特征选择,提高文本特征选择的准确率,本文提出一种基于野草算法的文本特征选择方法,此方法使用野草算法的原理,认为不可行解可能会比可行解带有更重要的信息,给予不可行解一定的生存机会,虽然这种机会较少;让子代个体按正态分布的方式分布于父代个体周围,在进化过程中,通过动态地调整子代个体正态分布标准差的方式,使基于野草算法的文本特征选择方法在早期与中期充分保持特征词条种群的多样性,比较全面地对文本进行特征选择。在基于野草算法的文本特征选择方法的后期,则加强对优秀个体周围的局部进行特征选择,保证基于野草算法的文本特征选择方法能够比较稳健地收敛到最优解,提高文本特征选择的准确率。本文的研究工作主要包括以下几个方面:第一、构建基于野草算法的文本特征选择模型;野草算法是一种新型的数值优化计算方法,能为非线性问题的求解提供有利的条件,我们将野草算法初步应用于文本特征选择。第二、文本的预处理:文本的分维、分词操作,各维词条在所处维的权重值计算,词条的同义词转换和全文权重值的计算;我们研究了文本的分维算法、分词算法。同时,也研究了词条的全文权重值计算算法。第三、特征词条种群的初始化和繁殖问题。在野草算法的执行过程中,繁殖操作是种群进化的重要环节,而种群的适应性决定着种群的繁殖,因此,需要进行词条适应性的计算,确保特征词条种群繁殖。我们研究了特征词条种群的初始化问题和繁殖的适应性计算问题。本文中,我们使用了三种不同的实验方案来验证基于野草算法的文本特征选择的可行性和有效性。实验结果表明,基于野草算法的文本特征选择方法可以给予权重值低的词条进行特征选择的机会,并且保证权重值高的特征词条选择优势,更全面地对本文进行特征选择,从而提高文本特征选择的全面性和准确率。