中文文本分类方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zhushuangwu1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及和发展、在线信息资源的日益增多,人们已经从信息资源匮乏的时代过渡到了信息资源极为丰富的数字化时代。面对海量的在线信息资源,人们很难迅速有效的找到真正所需要的信息。因此,如何合理地和有效地组织和管理这些信息,已经逐渐成为信息处理领域中一个十分重要的研究课题。传统地,我们是依靠人工的方法对网页进行分类的,即专业人员在分析网页的内容后,将它分到一个或若干个比较合适的类别中。很明显,随着网页信息容量的快速增长,仍然依靠人工的方式来进行网页分类将会耗费大量的人力和物力,这是非常不现实的。由于文本分类是组织和管理信息的有力手段,它可以在较大程度上解决目前网上信息杂乱无章的现象,使得用户更容易更准确地定位所需要的信息。因此,对文本的分类是必要的,也是必需的。这就使得对文本自动分类的研究成为了一个日益重要的研究领域,并且它还逐步与搜索引擎、信息过滤等技术相结合,成为解决人们网上信息获取的重要手段。本文首先介绍了中文文本分类的关键技术。文本预处理是影响文本分类精度的关键因素之一。为此,在这一部分我们首先介绍了中文文本的预处理技术,其中包括中文分词技术和停用词处理;然后介绍了文本的表示方法,即向量空间模型;最后,对各种特征选择算法进行了分析对比。然后,本文针对文本分类的核心部分——分类算法,进行研究。我们选择近几年发展起来的新型的通用机器学习方法——支持向量机,来进行分类。在这部分,首先给出了支持向量机的基本原理,包括线性可分、非线性可分、支持向量机的实现思想和常用的核函数。此外,给出了支持向量机的训练算法,并分析了支持向量机的多类分类问题。本文的创新点主要体现在:提出了基于离散粒子群优化算法和决策树的SVM多类分类方法。传统DAG-SVM和DT-SVM方法的优点是决策速度比“一对一”和“一对多”快,提高了训练和分类的效率。但共同的缺点是只要类别数固定,其决策树结构就是固定的,不能根据具体的分类问题作出自适应的调整。各个两分类SVM在决策树中的位置不同,其分类性能往往也会不同,越接近根节点的位置出现错分,其“误差积累”现象越严重。传统的DAG-SVM和DT-SVM方法均没有考虑如何最优地安排各个两分类SVM的位置问题,即没有考虑每个决策节点上的决策优化问题。因此,我们提出了基于离散粒子群优化算法和决策树的SVM多类分类方法。引入离散PSO优化,以类间分类间隔最大为准则,在每个决策节点上将多类训练样本划分为两类进行训练,使两个子类间的可分性尽可能强,以构造合理的树结构,最终生成最优或近优的决策树。通过实验表明,改进的分类算法提高了文本的分类精度。
其他文献
振动筛是近二十年来得到迅速发展的一种新型机械,已广泛应用于采矿、冶金、石化、建筑等工业部门。直线振动筛具有脱水、脱介、脱泥和筛分效果好等优点,是应用最为广泛的筛分
随着经济全球化的日益发展,知识经济时代的到来也带来了对知识型人才的关注。高等教育的发展顺应知识经济的发展也得到了迅速的提升。从二十世纪90年代以来,我国高等教育呈现
"意识形态终结论"是以"普世价值"为核心的一种西方至上的理论,它是西方国家对社会主义国家施行"和平演变"的思想武器。随着信息技术的飞速发展,该理论正在逐渐侵蚀我国大学生
本文以佳木斯地区(史称三江地区)在抗日战争中共产党人以救国救民为己任建立党的地方组织,壮大党的武装队伍,开展抗日游击战争的史实,揭示了在佳木斯地区抗日斗争中共产党独
随着航运业的快速发展,作为海洋大国,我国自然也面临着更多船舶油污损害所带来的威胁。对此,除了加强相应的防范措施以外,对船舶油污损害进行赔偿也是有效保护受害人利益及海
历史文化遗产是我们民族的瑰宝,世界遗产是历史文化遗产的杰出代表,它们为旅游业的发展提供了珍贵的资源。随着世界经济与科学文化的发展,文化遗产的有效保护与旅游的项目开
互联网时代,公共服务与电子政务的契合,不仅为公共服务开辟了不受时空限制的无限可能,而且使公共管理创新的动力互动化。在中国,构建面向公共服务的电子政务体系,不仅可以丰
针对黄土地区高速公路填方路基病害问题,结合某高速公路路基病害发生情况,分析了压实黄土路基病害的发生过程,并对影响黄土填方路基质量的主要因素提出了防治措施。
周恩来是我国的第一位外交部长,其外交思想包括政治、经济、文化各个方面,周恩来的经济外交思想也是值得我们深入研究的,是我们宝贵的外交财富。周恩来的经济外交思想主要表
公共服务领域需要政府与非营利组织合作,以应对公共服务的挑战。已有的很多研究涉及政府与非营利组织合作的模式问题,但对双方的合作模式存在理解上的分歧,为此需要提出一个