论文部分内容阅读
互联网时代的来临,使得各种电子文本数据急速增加,如何快速、有效的使用与管理这些数据,已经成为信息系统学科迫切需要解决的问题。而文本分类技术是信息处理技术的重要研究方向,它是对大量的自然语言文本按照一定的主题类别进行自动分类。传统的文本分类算法(传统的模式识别方法)都是基于最佳划分的,而仿生模式识别(Biomimetic Pattern Recognition,BPR)是基于“认识”事物,而不是“区分”事物,更符合人类认识事物的本质,因此,本文将仿生模式识别的理论及思想应用在文本分类中,在应用过程中,通过分析互信息公式的不足,提出了一种改进的互信息公式。仿生模式识别是一种不同于传统模式识别的理论方法,它的理论基点是同类样本在特征空间中的连续性理论。它通过对同类样本在高维空间中的最佳覆盖来达到认识样本的目的。本文对仿生模式识别的理论基础、数学模型和实现方式进行了深入的研究与学习,在超香肠神经元网络的基础上,实现了基于文本相似度的神经元生成算法。在基于文本相似度的神经元生成算法的基础上,本文又提出了两种改进方法:通过分析算法生成的训练模型,提出了基于文本相似度与距离相结合的神经元生成算法;通过对仿生模式识别在文本分类预测过程中的研究,提出了基于类别特征属性的改进方法。实验证明,基于文本相似度的神经元生成算法取得了令人满意的结果,提出的两种改进方法在分类性能与分类效率上也都比未改进之前有所提高。