基于SVM的中文文本分类相关算法的研究与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:linxuekai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是按照文本内容、结构等方面来组织信息,帮助人们从中挑选出所需要的内容。支持向量机是机器学习和模式识别领域研究的热点,近年来在文本分类方面广泛应用。本文以支持向量机为基础,对文本分类的相关算法进行了深入的研究,用这些算法设计并实现了一个中文文本分类系统,该系统主要包括以下几个模块:(1)预处理。实现了正向最大匹配分词算法和逆向最大匹配分词算法,提出并实现了一种改进的分词算法。该算法改进了传统的纯文本词表,使用首字索引的二级哈希词典结构;分词算法改进的匹配规则还可以同时有效地处理歧义词和未登录词问题;然后将编码策略结合到停用词表的匹配过程中进行停用词处理;(2)特征处理。实现了互信息、文档频率、信息增益和X~2(CHI)四种特征选择算法,用公式表示了特征词制约分类精度的三大因素,然后与互信息结合提出了改进的互信息特征选择算法,该算法在保留原有互信息计算简单的优点的同时还有利于强关联词的选择;(3)构造分类器。将标准支持向量机扩展到多类分类器以适应多个类别情况下的分类;针对样本的动态增加提出了一种支持向量机的增量学习方法;提出了一种改进的基于组合学习方法AdaBoost的支持向量机分类器的构造算法,这种方法采用规则抽样,有利于解决样本分布不平衡情况下的分类问题。另外,通过实验对本文系统中各个模块实现的算法进行了评测和比较。
其他文献
随着国家和各地医改政策的全面实施,公立医院改革正在积极探索中向前推进,各级公立医院肩负着政府公益职能的同时,从事着繁忙的日常医疗工作。如何在医改的新形势下做好医院
我国经济的快速发展为民航业提供了广阔的发展空间,特别是东部沿海地区,机场分布密度大,航线密集,且随着航空业务量的增加,越来越多的机场正面临着繁重的改、扩建任务。东部
对几种常见功率MOSFET的元胞结构、工艺流程和电学参数特点进行了介绍和分析,指出了各类元胞结构的优缺点和工艺实现上的难点,给出了对不同的电压范围应采用的元胞结构的意见
IPO首日超额收益是困扰学术界多年的金融异象之一,对于它的解释可以分成两种角度:一种是一级市场发行时定价过低,另一种是二级市场上首日收盘价虚高。在我国IPO研究领域内,基
如何检测电机初发故障目前已成为工程领域的研究热点课题之一,而电机故障检测中最棘手的问题是特征提取,它在电机故障检测中具有重要意义和实用价值。本文研究基于信号特征提
工作记忆不仅与一般液体智力有着十分密切的关系,而且与长时记忆之间也存在密切的联系。长时工作记忆和工作记忆多成分模型的提出就是对两者关系的探索性研究,所得结论目前已
《秀拉》是第一位获得诺贝尔文学奖的非裔美国作家托尼·莫里森?(1931~)的第二部小说。以描写两个黑人女孩的生活和友谊为中心,莫里森建构了一个黑白颠倒、是非混淆的虚拟世
<正>神话动物是汉画像石中常见和表现最多的对象之一,主要有龙、朱雀(凤凰)、玄武、麒麟、獬豸、穷奇、阳乌、开明兽、飞廉、九尾狐等,由于他们的表现内容不同,组合形式不同,
随着中国加入WTO,在异常激烈和残酷的竞争形势下,我国工程咨询企业要想生存和发展,必须从企业自身的特点出发,进一步建立和完善企业内部治理,从而提高企业的竞争力。然而,我
农民工是中国社会转型时期出现的一个特殊群体,为城市的发展做出了许多贡献,然而他们在城市生活的各个方面却处于边缘状态。在此背景下,研究在城农民工对自身生活的评价将有