基于分词的中文文本自动分类研究与实现

被引量 : 0次 | 上传用户:oa001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,特别是Internet应用的普及,网上信息成指数级增长,如何自动处理这些海量的信息,以有效地保留大的文本集合就成为了目前重要的研究课题。对文本进行有效管理的方法之一,就是将它们进行系统地分类,即文本自动分类问题。文本自动分类是一项重要的智能信息处理技术,是文本检索技术的基础,在新闻自动分类、电子会议、电子邮件自动分类和信息过滤等方面极具应用价值。 本文详细分析了中文文本分类的模型构造及对应的分类算法,对常用的文本分类算法进行了评价(主要有SVM方法、Boosting方法、Na(?)ve Bayes方法、KNN法、基于向量空间模型方法等)。文本分类算法是一种监督式的学习方法,在对文本进行自动分类时,需要解决以下几个问题,如:获取训练文档集、建立文档表示模型、文档属性选择、选择分类算法和性能评估模型等。 本文对中文文本分类的分词技术进行了着重讨论。对于基于信息过滤的自动分类问题,使用字典分词并不是一个必须的过程,因而本文提出了基于2元语法短语标引的分词方法,它将设立切分标志法与基于词频统计的方法相结合,可以识别基于词典方法处理不了的词汇,如:人名、地名、专业术语等。由于这种方法获取信息简单,用此进行分类可使文档分类系统摆脱对复杂切词处理程序和庞大词典的依赖,因此可以替代基于字典的机械分词方法。 在第三章分词的基础之上,结合KNN,Na(?)ve Bayes和简单向量距离分类算法,建立了一个基于分词的自动分类系统。它运用基于2元语法短语标引的自动分词方法来抽取向量空间模型需要的特征词来表征文档的内容,并表示成向量。其中:分词模块由分词预处理与分词两部分所组成;然后,对向量的维数加以缩减,以降低系统的复杂度,同时提高分类的精度;最后结合新闻语料库(文章采用网上下载的新闻语料库500篇,所有的新闻稿都由领域专家事先进行了分类,按照中图法分成政治、经济、军事等共十大类)进行验证。实验结果表明了分词算法的有效性。
其他文献
张爱玲是中国现代文学史上一位独特的女作家。她在四十年代的上海文坛大红大紫,新中国成立后悄然离去,在中国的大陆长期寂寞无闻,在海外华文世界享有盛誉,八十年代后重新成为国内
本文合成了4-N, N-二苯氨基-二硫代苯甲酸苄酯(4-diphenylamino-dithiobenzoic acid benzyl ester , DDABE ) , S, S’-二(1-萘甲基)-三硫代碳酸酯( S, S’-bis (1-naphthylm
在中学化学中,介绍了几种常见的化学电源及其工作原理,其中电极反应式的书写是教学中的一个难点。在教学中书写电极反应的基本方法一般是根据化学电源反应原理或者牢牢抓住总
酸枣仁汤(SZRT)源于《金匮要略》,主治肝血不足、虚热内扰所致之虚烦证。现代临证除治疗失眠症外,还用于包括焦虑症在内的以情绪或神志障碍为主要表现的精神系统疾病。本文在前期
<正>议论文是用来阐明观点的,为了更有效地突出中心,事实论证是一种必不可少的论证方法。事实论证就是举例论证,这种论证方式运用频率最高。本文要谈的就是议论文中事实材料
电化学发光免疫分析(ECLIA)方法作为一种新型的标记免疫学方法,具有灵敏度高、选择性好的优点,已经越来越受到人们的关注。国外有几个研究组在从事这种方法的开发和应用,并有公司
海上货物包运作为实践中被广为应用的运输方式,立法中并未对其作明确规定,而诸多海商法学论著也未对其进行系统、详细的论述,所以对于包运合同的理解一直存在争议。鉴于此,本文将
<正>一、家长助教产生的背景"家长助教"这种形式在幼儿园里越来越受欢迎,因为幼儿教育需要幼儿园、家长、社区的全方位参与,《纲要》也对此明确提出要求。家长参与幼儿园教育
财务管理作为现代企业经营管理的核心内容之一,一直以来是理论界和实务界关注的重点。其理论体系的建立经历了一个长期的过程,如今已经逐渐发展成一门多分支、多流派的成熟学科
本文全面系统地论述了船舶优先权的历史起源与发展、概念、法律特征与属性,用比较法学的方法论述了船舶优先权是一种法定的担保物权。之后,本文分别论述了船舶优先权的主体、客