论文部分内容阅读
随着数字化信息资源的日益增长,大量的文本数据不断涌现,为了有效的管理和使用这些文本数据,人们提出了文本自动分类技术,它可以处理和组织庞大的非结构化的文本数据,提高文本数据的检索效率。通常的文本分类多采用平面分类方法,当文本数量和类别数量较多时,平面分类方法的分类性能急剧下降,尤其表现在分类时间上。层次分类被用在文本的多类分类任务中,在保证分类准确率基本不受影响的前提下,文本层次分类的分类速度更快。为了进一步提高文本层次分类的准确率,在文本层次结构构建方面,本文提出了基于松弛策略的层次结构构建算法,并且针对层次结构的特点提出了基于松弛策略层次结构的软决策分类算法。另外,本文尝试了将不同的文本特征提取方法应用在层次分类任务中。本文的主要工作包括:(1)层次分类中“阻滞”问题的解决——松弛策略文本层次分类中普遍存在“阻滞”问题,为了进一步提高准确性,缓解“阻滞”问题引起的性能下降问题,本文对文本层次结构构建方法进行研究和改进,提出了基于松弛策略的层次结构构建方法,并在该层次结构上进行文本层次分类。(2)提高层次分类性能——软决策方法利用文本层次方法得到的最终的分类结果并不一定是全局最优的,再加上“阻滞”问题的存在,使得文本层次分类的准确率普遍较低。对此,本文在松弛策略层次结构中使用软决策方法进行文本层次分类,并且针对松弛策略层次结构自身的特点,对层次分类算法进行改进,从而进一步提高了文本层次分类性能。(3)特征选择与特征计算方法的有效运用——最小信息熵理论(LIT)本文对不同的文本特征提取方法进行了尝试,引入了最小信息熵模型LIT(Least Information Theory),考查不同的特征提取方法对文本层次分类算法的适用性。在特征选择方面,引入了最少信息增益LIG(Least Information Gain)进行实验;在特征计算方面,本文引入了最少信息熵理论中的LIB(Least Information Binary)、LIF(Least Information Frequency)、LIB*LIF方法进行实验。实验结果表明,使用本文提出的方法构建出来的文本层次结构更加合理,在该结构上使用软决策方法进行层次分类算法改进后,分类准确性逐步提升,性能优于传统的分类算法。同时,LIT特征选择和特征计算方法的引入能够大幅度提升分类性能。