论文部分内容阅读
文本文件是目前各种计算机应用过程产生的输出结果中最为广泛的形式之一,因此在文本文件中蕴含了很多信息。但是当文本文件数目巨大时,尤其是网络的普及,使得通过网络更易产生和获得文件时,人们从文件中获得信息变得更加困难。文本分类可以使得人们无需逐个浏览文本文件来确认是否是自己所需文本,自动的将文本划分到人们事先指定好的类别域中的正确类别,同时在分类过程中得到的分类模式及其它数据亦可应用于进一步的文本挖掘、智能搜索引擎、个性化软件助理等领域。
本文在分析了文本分类系统的一般开发过程的基础上,增加了对分类模式的改进,改进了整个文本分类系统的开发过程。在特征建立阶段提出了文本摘要结构,引入了词条在文本不同位置时对文本分类结果的影响。在学习与知识模式提取阶段提出了候选机制,得到候选分类类别列表,使得系统除了提供了最佳分类类别外,还可以提供相似主题类别,即进行模糊分类。同时,还提出了分类模式调整机制,利用了候选分类类别列表中的结果,采取调整算法对分类模式进行循环调整,最终达到分类模式的不断改进。在得出最终分类结果时,还应用了多参数评分机制、验证分类结果方案。其中多参数评分机制通过计算文本之间的相似度值,并结合候选类别、候选名次可以得到一个加权后的最终分类排名,以此确定最后分类类别。而验证分类结果方案,则依据候选分类类别列表,随机从训练文本集中抽取一定数目的文本来验证该列表,使得本系统得出的分类结果并不完全依赖于分类模式。
本文详细论述了上述新概念、新技术,并在此基础上实现了一个文本分类系统,最后还给出了对这些新概念和新技术的实验结果。实验证明,上述新概念、新技术确实对文本分类起到了一定的积极作用。