面向文本分类的中文文本挖掘技术研究及实现

被引量 : 0次 | 上传用户:tonymin111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着信息技术的快速发展,特别是网络的普及,以文本形式表示的信息越来越多,如何在纷繁芜杂的信息海洋中找到自己需要的有用信息,具有广泛的应用背景和实用价值。文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术,已经成为近年来的研究热点,许多研究人员对文本挖掘技术进行了大量的研究,但这些研究大部分是在英文环境下进行的,对中文的研究却很少。本文对中文文本挖掘技术进行了研究,在此基础上实现了一个文本分类系统。 对中文文本进行分析的一个前提条件是对中文文本进行分词处理,中文分词也是进行中文信息处理的一个难点。针对这一现状,本文在陈桂林博士的分词方法基础上,设计和实现了一种快速分词算法。该方法将常用静态词典分为停用词和非停用词两类词,在建立词典时,将是否停用词作为词的一个特性。分词词典建立首字Hash表和词索引表二级索引,使得在加载词典时将词索引加入内存,可以采用二分法对文本进行最大匹配分词,并在分词的同时根据词的类别将对分类没有意义的停用词去掉,大大降低了特征维数。这种分词算法将分词和特征集缩减结合在一起,从而减少了特征缩减过程而使时间复杂度大大降低。这种分词算法在实验中证明实用性强,效果好。 文本分类是文本数据挖掘领域的一个重要研究方面,采用支持向量机对文本进行分类是当前的一个研究热点。本文设计和实现了一个基于支持向量机的实用文本分类系统,介绍了系统实现中的一些主要技术问题。文本表示采用向量空间模型,文本的评价方法采用了查准率和查全率,文本的特征抽取采用了一种互信息方法。分类算法是文本分类的关键,介绍了线性支持向量机和非线性支持向量机,从结构风险最小化原则得到了支持向量机优于其它方法的结论。在实现上,采用串并行相结合的学习方法对支持向量机参数进行调整,利用工作集和缓存技术提高学习算法效率。最后采用支持向量机对文本进行分类,实验结果表明该系统查准率和查全率都较高。
其他文献
从倾听失聪的表现、原因分析入手,阐明教师应掌握的倾听技巧,即教师应倾听什么和如何倾听。
旧城改建高容积率住宅项目目前如雨后春笋般出现在我国各地,由于这些项目功能和所处地域的复杂性,所面临的挑战日益艰巨,其中日照问题尤为突出。在此背景下,本文通过对两个代表性
新疆棉花的生产发展对新疆经济有着巨大影响,对全国的棉花市场稳定也有重要地位。由于国际棉花市场的严峻形势,必须建立新疆棉花遥感监测系统,以全面、快速、客观地监测棉花种植
<正>当下,网络直播已经成为人们娱乐生活中不可或缺的一部分,它的出现对传统直播行业造成了极大的冲击,在网络直播产业不断成熟的同时,相关的直播设备发展势头也十分迅猛。不
就植物生长必需的水分、养分、空气和温度四大肥力因素 ,详细地阐述了纺织材料基质无土栽培的可行性 ,并用非织造布做栽培基进行了蔬菜和花卉的实物栽培 ,取得了良好的效果。
随着我国经济体制改革的不断深化,中国注册会计师职业得到了长足的发展,截止到2001年底,我国共有会计师事务所总所数4287家,分所数237家,注册会计师总人数55898人。初具规模的注册
目的:即刻种植和早期种植分别应用于前牙关学区种植患者,分析手术对其种植体周边软组织的影响。方法:选取2016年6月-2017年9月,在笔者医院接受牙齿种植修复的患者272例,按照种植方
目的:探讨软组织韧带样纤维瘤(Desoid-type filbromatosis,DF)的MRI表现及其诊断价值。方法:搜集16例经病理证实的DF病例,术前5例行MRI平扫,11例行MR平扫和增强扫描,分析其MRI各种征
所谓诚信,是指诚实不欺,言行一致,恪守信用。诚信作为一种基本道德规范和德行,已得到不同社会和不同民族的普遍认同。千百年来,中华民族视诚信为立身、兴业、执政之本,诚信在推动经