论文部分内容阅读
文本自动分类是信息处理领域的一个研究热点,它是指在给定的分类体系下,根据文本内容自动确定文本所属类别。文本自动分类技术是文本挖掘的核心,是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理的研究基础,并被广泛应用于信息处理领域。因此文本自动分类的研究具有广泛的商业前景和现实意义。本文对现有文本自动分类领域的关键技术:中文分词、特征选择、权重计算、分类算法做了深入的研究分析,并在此基础上,对该课题进行进一步的探讨,设计实现了一个基于神经网络的文本自动分类系统。该系统采用模块化的设计,关键算法和功能均封装在模块中,使系统具有良好的扩展性。本文设计的文本自动分类系统的核心模块是预处理模块、文本表示模块和分类器模块。在预处理模块中首先调用中科院分词算法ICTCLAS对语料进行分词,接着进行特征词的提取即剔除文档中的对文本自动分类贡献不大甚至影响分类效果的虚词、标点等部分。在目前的文本自动分类系统中,一般通过手工建立停用词表来实现特征词的提取,但这种方式的效果在实际应用中并不理想,本文开发的系统则采用根据单词词性和停用实词表相结合的方式来实现剔除停用词,较大的提高了系统的预处理速度。文本表示模块中采用不同的特征评估函数和权重计算方法选取出相应的特征项并根据用户的选择确定特征向量的维数,构建文本向量空间。分类器模块中,分类算法的选择是设计和实现模块功能的关键。在详细研究了各种分类算法的基础上,本模块选择神经网络作为系统的分类算法。并在分类器模块中,根据需求的不同选择不同的方式调用神经网络分类器。本文遵循软件工程的思想,采用VC++作为开发平台,设计和开发出一个基于神经网络的文本自动分类系统。在论文的核心模块开发部分给出了实现这些核心模块所需的数据结构和算法。本系统的核心功能和算法都采用标准C++进行开发,使得系统有较高的处理效率且易于移植到其他平台环境。同时,在系统中加入了异常处理机制,保证了系统的稳定性和健壮性。