论文部分内容阅读
随着Internet技术的不断发展和成熟,各种数字化的信息越来越多并且还在不断增长,面对海量信息,人们已经不能简单地靠人工来处理所有的信息,况且手工分类已经对此无能为力,如何从巨量的信息中挖掘出用户感兴趣的信息已经成为当今研究的重要课题。而文本自动分类能够较好的解决大量文档信息归类的问题,并成为解决该问题的一项关键技术。目前对文本自动分类技术的研究主要集中在文本的表示、特征的选择和分类算法的改进这三个主要的研究方向。最大熵模型实际上是一个带约束的最优化问题。20世纪50年代E.T.Jaynes开创性的将最大熵原理作为一种原则或者方法应用于各个科技领域,也使信息熵的概念和原理走出了热力学的领域。而且最大熵模型是一个比较普遍的统计建模技术,自然语言处理中很多问题都可以归结为统计分类问题,很多机器学习方法在这里都能找到应用。最大熵具有较强的知识表达能力,它在数学上是一个十分完美的模型,被应用到自然语言处理领域后也取得了较好的成绩,因此被研究者们广泛的使用。本课题主要针对在中文文本分类任务中涉及到的特征生成(文本分词)和特征的选择算法进行了分析和研究。具体来说,论文首先阐述了中文文本的分词技术和分词算法,特征选择算法和几种经典的文本分类算法,接下来主要研究分析了统计语言模型,最大熵模型及相关的平滑技术和迭代算法,然后详细讨论了最大熵应用于文本分类任务中存在的问题,在深入研究最大熵理论的基础上,引入了不等式最大熵模型,将其应用于文本分类,并分析了现有特征选择方法生成特征数目过多而造成分类时间和精度不高等缺点,提出将信息增益、互信息及卡方统计这几种方法合理的结合起来进行特征选择的改进算法;实验也证明,这种基于不等式最大熵的特征选择算法是有效地,并具有较强的推广能力。最后阐述了中文文本原始特征集合的生成方法,即研究了如何通过基于无词典机制的中文自动分词方法,并结合汉语自身独有的特点,得到初始的特征集合,最后提出了基于无词典分词机制的中文自动分词算法。并通过实验验证了分词算法的高效性。最后,对本论文的内容进行了总结,并对中文文本分类涉及的特征选择方法,分词技术以及最大熵模型将来的应用和发展进行了展望。