论文部分内容阅读
随着互联网新技术的不断发展,互联网与人们的生活息息相关。目前,新疆的维稳工作是十分艰巨的,维吾尔文网页的发展也变得越来越多元化。如何有效加强信息管控,将维吾尔文网页内容进行有效分类,营造一个安全的网络环境,从而促进新疆的信息交流与稳定发展已成为当务之急。特征选择是维吾尔文文本分类过程中不可或缺的步骤,其主要作用是根据某种评价方法将能够有效表达文档内容的特征挑选出来。 本文主要针对维吾尔文文本分类过程中的特征选择方法进行研究,将维吾尔文字特点与特征选择方法进行无缝结合。分别研究了基于评价准则和基于搜索策略的维吾尔文文本特征选择方法,设计并搭建了维吾尔文文本分类特征选择演示系统。本文研究的主要内容和成果如下: (1)基于评价准则的特征选择方法:针对传统卡方统计特征选择方法忽略特征词频和特征在数据集各类别中分布不均衡的缺陷,提出了一种改进的卡方统计特征选择方法。本文使用均值TFIDF进行文本表示,引入一个调整公式来平衡类间选取的特征项数,并结合余弦相似度进一步消除噪声文本。实验表明,改进的卡方统计方法不仅保留了传统卡方统计方法的稳定性,并且有效克服了传统卡方统计方法在选择较少特征数目时分类性能过低的问题。 (2)基于搜索策略的特征选择方法:首先研究鸟群的飞行、觅食以及警惕这三个基本行为。对原数据集采用传统卡方统计方法进行预选择,将已选择的特征进行编码。再根据鸟群的三个基本行为在特征空间搜索最优子集,其中适应度函数设计为分类准确率。实验表明,该方法使维吾尔文文本分类获得较高的准确率。 (3)在分类性能评估方面,首先将优选择的特征保存为weka默认读取的arff文件格式,再调用weka平台的Na?ve Bayes分类器和SVM分类器对生成的特征文件进行分类评估。