中文文本分类特征选择方法的研究与实现

被引量 : 0次 | 上传用户:lyx2597758
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的迅猛发展与互联网的快速普及引发了信息的爆炸性增长。文本作为计算机存储信息的重要载体,其增长的速度同样迅速。庞大的文本库中往往存在着许多对人们重要的信息,为了从文本库中快速、有效的获取到这些信息,需要有科学、高效的方法。基于机器学习的文本自动分类技术可以为人们解决庞大的文本库信息混乱的现象,帮助人们将众多的文本进行自动归类提高工作效率。因此,对文本自动分类技术的研究有着重大的实用意义。在文本自动分类过程中,特征选择是其核心环节。高效的文本分类分类器要求组成其向量空间的特征应该带有较强的分类信息,同时向量空间能很好的兼顾各个类别里的文本的信息。本文详细分析了传统特征选择方法包括文档频率(DF)、信息增益(IG)、互信息(MI)、卡方统计(CHI)、期望交叉熵(CE)的优点和不足,并通过比较发现它们都是基于特征词某个方面的重要度进行衡量来决定是否选择特征词,缺乏对特征词重要性的综合衡量。鉴于上述缺陷,本文提出一种基于对特征词重要性进行综合衡量的特征选择方法,新的特征选择方法从特征词的词频、文档频、类内均匀度、特征词全局类别区分度方面对特征词进行综合考虑,其中特征词全局类别区分度是基于互信息的二类信息差值提出的,并引入特征词样本均方差因子来改进其互信息倾向于低频词问题。本文同时还设计并实现了中文文本分类系统,来验证新特征选择方法的有效性,分类系统采用模块化的设计,并实现了KNN分类算法和贝叶斯分类算法,在此系统上进行验证实验。通过对传统的特征选择方法MI、DF、CHI和本文提出的新特征选择方法进行对比实验,利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果标明新的特征选择方法能够有效的降低特征空间维度,在分类中表现出良好的特征提取效果,反映了类别间的差异度。
其他文献
<正>岁末年初,省农业厅邀请来自农业部门、科研院校的专家学者和涉农企业的大佬们齐聚一堂,梳理盘点过去——从希望田野的全面实践,到理论框架的基本形成,走过2年的高原特色
随着我国经济的快速发展,企业员工工资薪金所得不断增加,越来越多的员工开始缴纳个人所得税。为此,探讨如何在不增加企业费用的前提下,通过提高企业员工的福利待遇以及采取收
临夏州水资源短缺且时空分布不均,随着经济发展和城市化进程的加快,缺水范围不断扩大,缺水程度也日趋严重。文章针对水价不合理、水污染严重等突出问题,提出了加强水资源统一
本文根据近八千人听力检查资料统计分析。提出在不影响工人工作、学习和语言交谈前提下,制定企业内部噪声性耳聋诊断试行标准,即0.5、1、2KHz三个频率听力均值>40dB为耳聋界
目的:探讨二维自尊量表(SLCSR)中文版在大学生中的适用性。方法:720名大学生完成SLCSR中本版,其中249名同时完成自尊量表(SES),471名同时完成SCL90,72名间隔2周后进行重测。
<正>特色农业在线绽放近日,全国500家大型农产品批发市场企业及省外50个大型农产品经销商,与我省110家农业龙头企业进行了一次集体"相亲",零距离的现场产销对接引爆火热气氛
介绍了一种适用于中国南海的海洋深水高产气田地层测试技术,在南海特殊环境气候以及存在出砂和形成水合物等难题状况下,通过地质解剖、工艺选择并采取有针对性措施,利用地质
过去几年中,基于ADI公司TigerSHARC系列高性能处理器的雷达信号处理系统得到了广泛的应用。随着雷达信号处理技术的快速发展,雷达信号处理系统对数字信号处理器的实时性能提
本文对厚度为0.28mm的不锈钢膜盒焊缝进行了系列管电压和不同焦点的探伤研究,结果表明,管电压对探伤灵敏度有一定的影响,而不同焦点尺寸对探伤灵敏度的影响不大。使用一般的X
近年来,河道污染问题日益严重,各种水质净化技术越来越引起人们的关注。水质原位净化技术凭借其经济、高效等优势应用日趋广泛。首先对河道原位修复技术在国内外的研究应用进