维吾尔文文本分类中特征选择方法的研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:wangtan2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网新技术的不断发展,互联网与人们的生活息息相关。目前,新疆的维稳工作是十分艰巨的,维吾尔文网页的发展也变得越来越多元化。如何有效加强信息管控,将维吾尔文网页内容进行有效分类,营造一个安全的网络环境,从而促进新疆的信息交流与稳定发展已成为当务之急。特征选择是维吾尔文文本分类过程中不可或缺的步骤,其主要作用是根据某种评价方法将能够有效表达文档内容的特征挑选出来。  本文主要针对维吾尔文文本分类过程中的特征选择方法进行研究,将维吾尔文字特点与特征选择方法进行无缝结合。分别研究了基于评价准则和基于搜索策略的维吾尔文文本特征选择方法,设计并搭建了维吾尔文文本分类特征选择演示系统。本文研究的主要内容和成果如下:  (1)基于评价准则的特征选择方法:针对传统卡方统计特征选择方法忽略特征词频和特征在数据集各类别中分布不均衡的缺陷,提出了一种改进的卡方统计特征选择方法。本文使用均值TFIDF进行文本表示,引入一个调整公式来平衡类间选取的特征项数,并结合余弦相似度进一步消除噪声文本。实验表明,改进的卡方统计方法不仅保留了传统卡方统计方法的稳定性,并且有效克服了传统卡方统计方法在选择较少特征数目时分类性能过低的问题。  (2)基于搜索策略的特征选择方法:首先研究鸟群的飞行、觅食以及警惕这三个基本行为。对原数据集采用传统卡方统计方法进行预选择,将已选择的特征进行编码。再根据鸟群的三个基本行为在特征空间搜索最优子集,其中适应度函数设计为分类准确率。实验表明,该方法使维吾尔文文本分类获得较高的准确率。  (3)在分类性能评估方面,首先将优选择的特征保存为weka默认读取的arff文件格式,再调用weka平台的Na?ve Bayes分类器和SVM分类器对生成的特征文件进行分类评估。
其他文献
液压系统是采煤机重要的组成部分,担负着调高和制动的作用。近几年,随着工况自动化水平的不断提高,煤矿生产的机电一体化装备也越来越高,与此同时,采煤机液压系统的故障发生
高效视频编码(HEVC)标准和H.264/AVC标准是由国际标准化组织IOS下属的运动图像专家组MPEG和国际电信联盟电信标准化组织ITU-T下属的视频编码专家组 VCEG联合制定的视频压缩编码
随着工业自动化技术的迅速发展,越来越多的智能化设备应用于现场总线控制系统,PROFIBUS-PA作为PROFIBUS现场总线的一员,在过程控制领域具有很大的优越性。本文在对PROFIBUS-PA技
当今社会看病难已经是一个显而易见的社会问题,异地看病对于普通百姓来说更难上加难,而且心电图信息没有通用性,使得医院之间无法交流病患信息。1980年美国麻省理工学院提出了心