论文部分内容阅读
目前,随着信息技术的快速发展,特别是网络的普及,以文本形式表示的信息越来越多,如何在纷繁芜杂的信息海洋中找到自己需要的有用信息,具有广泛的应用背景和实用价值。文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术,已经成为近年来的研究热点,许多研究人员对文本挖掘技术进行了大量的研究,但这些研究大部分是在英文环境下进行的,对中文的研究却很少。本文对中文文本挖掘技术进行了研究,在此基础上实现了一个文本分类系统。 对中文文本进行分析的一个前提条件是对中文文本进行分词处理,中文分词也是进行中文信息处理的一个难点。针对这一现状,本文在陈桂林博士的分词方法基础上,设计和实现了一种快速分词算法。该方法将常用静态词典分为停用词和非停用词两类词,在建立词典时,将是否停用词作为词的一个特性。分词词典建立首字Hash表和词索引表二级索引,使得在加载词典时将词索引加入内存,可以采用二分法对文本进行最大匹配分词,并在分词的同时根据词的类别将对分类没有意义的停用词去掉,大大降低了特征维数。这种分词算法将分词和特征集缩减结合在一起,从而减少了特征缩减过程而使时间复杂度大大降低。这种分词算法在实验中证明实用性强,效果好。 文本分类是文本数据挖掘领域的一个重要研究方面,采用支持向量机对文本进行分类是当前的一个研究热点。本文设计和实现了一个基于支持向量机的实用文本分类系统,介绍了系统实现中的一些主要技术问题。文本表示采用向量空间模型,文本的评价方法采用了查准率和查全率,文本的特征抽取采用了一种互信息方法。分类算法是文本分类的关键,介绍了线性支持向量机和非线性支持向量机,从结构风险最小化原则得到了支持向量机优于其它方法的结论。在实现上,采用串并行相结合的学习方法对支持向量机参数进行调整,利用工作集和缓存技术提高学习算法效率。最后采用支持向量机对文本进行分类,实验结果表明该系统查准率和查全率都较高。