基于机器学习的文本分类算法研究

来源 :成都信息工程大学 | 被引量 : 0次 | 上传用户:judas8023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,文本数据被数以万计的特征充实。而面对如此海量的文本资源,想要高效地从这些文本中获取有价值的信息,仅仅依靠传统的人工文本分类方法已经无法应对。近年来,随着机器学习技术的不断成熟,利用机器学习算法对文本进行自动分类,成为了当今学术界研究的热点和难点。文本分类技术作为数据挖掘技术的主要分支,可以有效地满足大数据发展下,文本自动分类的需求。然而在大量的数据中,将文本进行高效准确地分类并不像想象中的那么简单。一般需要经过文本预处理、特征选择、特征加权、分类算法的选择等步骤来实现。而这些步骤中,每一个环节所使用的相关算法,仍然存在着许多的不足。其中,特征选择算法和文本分类算法是文本分类过程最为关键的两个部分,直接影响着分类器最终的分类性能。因此本文分别针对这两个部分进行了研究,主要工作如下:1、本文对文本分类的整个流程进行了深入研究,由于特征提取在整个分类过程中尤其重要,所以本文针对常用的四种特征选择算法的优缺点做了详细的总结和分析。并且在英文数据集20NewsGroup和Reuters上使用不同的分类器进行实验验证,实验结果表明卡方校验算法特征提取效果最好,所以本文最后使用卡方校验特征选择算法用做特征提取。2、针对传统的TF-IDF算法未考虑特征文档在类别中信息增益问题,将特征项文本对于类别的信息增益引入到TF-IDF算法中,设计了一种基于TF-IDF~*IGD加权的朴素贝叶斯分类算法。首先计算出各个类别的信息熵,然后计算各特征文档在每个类别中的条件信息熵,利用两者的差值计算出单词在各个类别中的信息增益,把该信息增益反映在权重中,从而提升分类性能。在英文数据集20NewsGroup和Reuters上进行相关的仿真实验。实验结果表明改进算法的宏F1值更优,总体分类性能评价指标提升了2%。3、针对TF-IDF~*IGD算法特征权重不能准确表征其贡献度大小的缺陷,从特征二维信息增益入手,结合特征文本信息增益和特征类别信息增益,精准的衡量权重大小,设计了一种基于IGDC加权的朴素贝叶斯分类算法。首先计算特征类别信息增益,然后计算包含特征的文本类别信息增益,最后把二者相乘并进行归一化处理。在英文数据集20NewsGroup和Reuters上进行相关的仿真实验。实验结果表明改进算法的宏F1值更优,总体分类性能评价指标提升了5%。
其他文献
EOC(反式-β-罗勒烯)可以引起指示基因PR1、PDF1.2的表达,EOC途径可以减弱SA、JA途径之间的拮抗作用。为了研究EOC(反式-β-罗勒烯)作用机理,本实验从植物防御途径中转录因子
本文主要探讨明末意大利来华耶稣会士罗明坚(Michele Ruggieri,1543-1607)《天主圣教实录》书中“天神亚当”一章的天使观。作为明末第一部天主教护教文献以及西方人最早用汉
电子证据在形成过程中的特点表明电子取证具有强烈的基本权利干预特性,需要在程序构造上加以重视。而现行电子取证规范体系存在着突破法律保留原则、违反比例原则以及缺少非
一、农村信用社财务管理中存在的问题(一)财务管理权力严重分散,责、权、利不统一信用社没有独立的财产和主体资格,开展重大财务活动必须由上级授权。财务工作者权力和责任的不
20世纪末以来电子商务在全球范围内兴起并且蓬勃发展,零售品电商在中国经过五年平稳发展期之后依旧没有放慢增长的步伐。但类似于传统企业,电商平台上为数不少的企业依然面临
教学情境就是以直观方式再现书本知识所表征的实际事物或者实际事物的相关背景,从而能更好地解决学生认识过程中的形象与抽象、实际与理论、感性与理性以及旧知与新知的关系和
口腔癌是口腔颌面部最常见的恶性肿瘤,淋巴道转移则是口腔癌最常见的转移途径,故颈淋巴结根治性切除术广泛应用于头颈部肿瘤已经发生或可能发生颈淋巴结转移的患者。但对于临
目的 探讨奥曲肽联合奥美拉唑对肉瘤S180生长的影响.方法 建立小鼠S180肉瘤模型,随机分为阴性对照组、顺铂组、单用药组和联合用药组,给药后测量肿瘤抑制率和微血管密度的变
目的:探讨子宫颈鳞状细胞癌中P53、P21WAF1/CIP1、MDM2表达与HPV16感染的关系。方法:免疫组化Envision二步法检测P53、P21WAF1/CIP1及MDM2在43例子宫颈鳞状细胞癌、20例CIN、15例
卡宾是一类易参与反应的催化剂,在当今化工生产中占据着重要的地位。和一般类型的卡宾结构特点相类似,氮杂环卡宾(NHC)也是一种电中性的化合物,因其结构多样性而被广泛使用于