论文部分内容阅读
随着通信技术和计算机技术,尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。数据挖掘的任务是从大量的数据中挖掘出有用的信息,文本信息存储和传输技术相对比较简单,易于上传和下载,大部分信息以文本形式存在,因此文本挖掘就成为数据挖掘中日益流行而重要的研究课题。
文本分类是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。本文分析了文本分类的相关理论和技术,以贝叶斯分类方法为基础,探讨了特征选择算法对于文本分类的影响。具体做了以下几方面的工作:
1、首先介绍了文本分类的定义及其主要过程、国内外研究现状及存在的问题,对文本的表示方法进行粗略的叙述。介绍了文本数据预处理的主要内容,特别是介绍了几种经典的中文分词算法。
2、当前,文本分类主要采用的是基于统计的向量空间模型。其中,特征选择方法是基于向量空间模型的文本分类中一个重要问题。本文分析比较了几种常用的特征选择算法。特别是对经典特征选择算法TF-IDF的原理、特点及性能进行了细致的分析,结合实例指出了该算法的缺点。
3、介绍了信息论的起源及其应用情况,引入了信息论中熵的概念,熵是随机变量不确定性的度量,而特征项在类间及类内的分布可以看成是一个事件,针对特征选择算法TF-IDF的缺点提出了改进算法TF-IDF-DE,该算法考虑到特征在类间和类内分布的熵。实验表明,该算法在绝大部分情况下要优于传统TF-IDF算法。
4、分析了几种经典文本分类算法的原理、特点及性能。
5、贝叶斯分类模型是基于贝叶斯定理的分类算法,它非常适合应用于高维属性的分类,尽管其思想简单,但其分类效果却比较理想。本文研究了贝叶斯模型的特点,比较了几种常见的贝叶斯模型,考虑到文本数据的特征高维性,选用朴素贝叶斯分类算法,并给出了朴素贝叶斯分类算法用于文本分类的具体步骤。