论文部分内容阅读
近些年信息网络技术飞快发展,特别是网络使用率的大幅提升,用文本形式表示的信息已经越来越多,人们早已经不能单纯依靠人工劳力达到高效率地获取到海量信息中的关键内容。为了解决这个问题,基于机器学习的文本分类方法开始为人们所知道并逐渐呈现热门趋势。本文主要的研究内容如下:1.本文提出了一种能有效降低空间维度的概念索引及主成分分析算法。该算法通过计算分类的原型向量,通过原始文本向量和原型向量做内积,将原始文本投影到子空间,从而将原始空间的维度大大降低。然后,分别计算每个内部文档分类的协方差矩阵,进而得到其特征值与特征向量,将每一个向量被转移到新的子空间。通过两种技术的结合来实现在不影响分类精确度的情况下达到维数降低的目标。2.本文提出了一种基于语境的文本学习算法。该算法的核心分为分类训练集与语境学习分类。分类训练集主要根据关键词词频分类,并给每个类一个相应的指数,计算每个分类中所有的文档里的特征词权重,通过反复迭代从而给出特征词的评分。语境学习分类先通过关联规则挖掘算法得到特征词,再将特征词构成语境特征词矩阵,所有矩阵的值都是用于评分的参考值,并且都是通过训练所有语境的数据而获得的,评分的参考值强调了该特征词对于语境的重要性,对每一个特征词而言,求出所有语境评分参考值的和,那么具有最高评分参考值的语境就被设置为输入文本的语境。该算法结合传统统计分析和语境分析,能够一次性地学习一个文档内的所有分类。3.本文对提出的算法进行了详细的实验并给出了相应的分析与结果。本文采用了5个经典的数据集作为实验对象,每个数据集都超过上千条数据。在不同的数据集上,本文提出的算法与经典高效的算法进行了详细比较,评价算法性能。实验表明:两种算法都能够高效地分类文本,且具备较强的实用性。本文提出的两种学习算法从不同角度处理训练集,前者通过降维,而后者通过评分排序,但都可以降低学习成本,提高分类准确度。通过仿真实验可以清晰地看出,该算法在各类数据集,尤其是复杂度很高的数据集上,优于现有的很多高效算法。最后对本文所提出的两种算法的研究与实现进行总结,并提出其中的不足和需要改进的地方。