论文部分内容阅读
随着因特网技术的迅速发展与日益普及,电子文本信息越来越丰富,同时人们在这些海量的信息面前又感到无从下手。因此,有效的组织和管理这些信息,并快速准确的从中找到用户所需要的信息是当前信息技术领域面临的一大挑战。文本分类技术作为处理和组织大量文本数据的关键技术,可以有效的实现信息分流、解决信息杂乱问题,从而方便用户快速做出决策。本文主要对文本分类及其相关技术做了研究,并就如何将文本分类技术更好的用于辅助决策做了研究,具体包括以下四个方面:(1)文本分类特征权重计算方法的研究本文首先阐述了传统的权重计算方法应用在文本分类任务中的不足之处,并验证了采用特征选择评估函数对词频加权的权重计算方法的有效性。(2)基于反馈的类中心向量分类模型类中心向量分类算法是一种效率较高的分类算法,本文在其基础上,提出了改进的基于反馈的类中心向量分类算法。该算法的主要思想是利用错分的训练集样本不断的修正与其相关的类别的中心向量,使其更好的贴近训练集数据的真实分布,从而使其在测试集上的性能得到明显提升。实验证明该算法是有效的。(3)基于支持向量机的领域文本分类本文提出了基于支持向量机的领域文本分类模型,该模型讨论了文档的标题在文本分类中的作用。文档的标题一般处在这篇文档的最前边的位置,体现了文档的中心思想,因此本文提出用文档的标题来代替文本正文内容执行分类任务。实验证明,可以获得最大程度的分类精度与分类效率的折中。(4)文本分类技术在辅助决策中的应用研究本文实现了面向特定领域的文本多层分类系统。领域相关的信息是用户想要关心的,系统通过二元分类将原始的文本集合分为领域相关和领域无关,可以有效节省用户的决策时间;系统通过领域分类这一模块将领域相关的信息再分类,可以使用户快速的定位到想要关注的具体类别;针对某些特定问题,系统利用分类技术给予浅层的分析为人们的决策提供辅助作用。