基于χ~2统计的文本分类特征选择方法的研究

来源 :计算机应用 | 被引量 : 103次 | 上传用户:game00vergoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。在研究文本分类特征提取方法的基础上,分析了χ2统计的不足,并提出将频度、集中度、分散度应用到χ2统计方法上,对χ2统计进行改进,并通过实验对比改进前后的方法对文本分类效果的影响。在实验中,改进方法的分类效果要好于传统方法,从而验证了改进方法的有效性和可行性。
其他文献
数据结构的设计对DNA计算机的具体实现有重要研究价值。提出了DNA计算机中基于顺序存储方式的二叉树数据结构的设计方法,该方法利用DNA分子和限制性内切酶的生物特性,完成二叉树的顺序存储结构和基本操作。其中用到的生物技术在实验室中都能实现。为了验证方法的可行性,给出了一个二叉树的DNA编码及仿真实例,仿真结果表明该二叉树设计方法在DNA计算机中切实可行。
边缘特征是图像最有用的高频信息,因此,在图像去噪的同时,应尽量保留图像的边缘特征。为实现这一想法,提出了一种基于图像边缘检测的小波阈值去噪新方法。该方法在去噪前,先用定位精度高的小尺度LOG算子检测图像的边缘,对检测出的边缘进行均值平滑滤波,以减少边缘图像中的孤立点噪声;进而再对图像边缘和含噪图像分别进行小波分解,根据分解后的小波系数以确定图像的边缘特征和非边缘特征;最后,再对图像边缘对应的小波分
作为国内首例船舶采用混合对转桨推进系统,目前已通过完工船海试试验。通过对试验采集的数据进行分析,得出该种节能技术完全达到设计预期,为后续船舶的节能减排设计开阔了新
2017年又到年末,又是盘点一年农机市场的时候。由于补贴政策、农产品价格下降、国二国三产品切换等多种因素的作用,2017年农机市场出现了深度的调整。用几组数据来说明今年的农