基于语义概念的中文文本分类研究

被引量 : 0次 | 上传用户:tingchao12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位。本文首先对当前文本分类领域几个关键问题的常用方法进行了研究,同时阐述了典型文本分类系统的核心技术和系统结构,对文本分类的应用范围进行了描述。然后着重介绍了本文提出的一个基于语义概念的中文文本分类系统,重点阐述了文本预处理、特征提取、特征语义概念降维和排歧、特征的向量空间表示和分类器的训练等技术的实现方法。在基于语义概念的中文文本分类系统中,第一步是对文档进行预处理,包括分词标注,去停用词,从文本中抽出特征词并且统计各特征词的词频。系统的重点是特征的语义概念降维和排歧,语义概念分析方法可以看作是一种扩展的向量空间模型方法,通过结合Hownet对词所表示的概念进行排歧和降维,尽量达到词与词之间的正交性,将文本的关键词用更小的语义空间进行表示,使得在新的生成的语义空间中的相关文本更为接近。系统使用SVM分类器对文本进行分类。SVM是目前较为流行的,快速分类方法。在文本训练的时候,利用标记好的训练文本集进行训练,得到固定的分类知识存储。而在文本分类的时候,输入待分类文档的特征向量,运行固定的分类存储知识,得到分类结果。最后对基于语义概念的中文文本分类系统进行了封闭性的测试,实验表明该方法具有较高的精确率和召回率。
其他文献
为给违规添加甘氨酸掺杂造假含乳饮料的判定提供科学依据.测定了纯牛奶和含乳饮料中游离甘氨酸、谷氨酸的质量浓度和蛋白质的质量比,并对其相互比例关系进行研究。含乳饮料中的
流域水文模型的参数率定和模拟结果实时校正是洪水预报中非常重要和困难的工作,它们直接关系到提高预报的精确度和洪水的预见期,对于保护人类生命和财产安全具有重大意义。本
跳绳作为促进学生协调能力的重要体育项目,其不但能够有效提高学生们的协调力,还能对学生们的耐力素质有着很强的启发。因此,本文便针对中考1min跳绳项目中如何能够取得好成
外滩地区的历史老大楼既是近代上海走向繁荣的见证,它们破败的现状也是制约所在街段进一步发展的原因。本文从历史变迁、现状问题、保护与再生的对策三个方面入手对慈安里大
(一)政党先进性、马克思主义政党先进性是一个新问题,是一个新课题。目前开始被关注,但尚未得到系统深入的研究。 马克思主义政党虽然很早提出了先进性问题,并把先进性作为自
随着管理信息系统在各行各业的广泛应用,各种业务数据不断地被存储到数据库中。人们希望从这些数据中发现潜在的、有助于管理决策的知识。正是这种需求推动了数据挖掘兴起和
民国时期上海各种传染病的流行曾给上海带来巨大的经济损失和社会危害。究其缘由与上海的人口、环境、习俗、战乱、社会经济变动等因素密切相关。这一时期租界当局按照西方应
那达慕是蒙古族传统的体育盛会,是草原文化的重要内容。随着时代的变迁,社会的进步,这个以表现草原民族民俗文化为特征的综合性草原盛会,被当代社会赋予了新的时代内涵。那达慕不
我们的时代是一个科技大进步和信息大爆炸的时代。处于当今复杂多变的商业环境中的企业,在欣喜于科技进步和信息爆炸所带来的种种便利和商机的同时,也不得不面临更多的挑战:
证券市场虚假陈述是指证券发行和交易过程中的相关单位及个人对证券发行的事实、前景等事项作出虚假、严重误导或者重大遗漏的任何形式的陈述,从而使广大投资者在不明真相的