论文部分内容阅读
随着电子期刊的不断增加,电子期刊论文的数量在与日俱增,电子期刊论文的合理分类成为了一个亟待解决的问题。传统的人工分类在大数据环境下已经显得力不从心,在期刊论文分类方面人工分类也存在这个问题,将自动分类的方法应用于期刊论文分类方面能有效解决这个问题。机器学习理念的出现让自动分类快速发展起来,本文将机器学习的思想运用到期刊论文的自动分类领域,选用中国知网的期刊论文数据作为实验样本,对样本进行预处理后分为训练样本和测试样本,采用机器学习中的监督学习“先学习,后测试”的理念,先对训练样本进行学习,然后利用学习到的分类器对测试样本进行分类,对比真实的类别和测试实验给出的类别,分析机器学习在期刊论文自动分类方面的可行性。本文的自动分类实验选用的分类算法是支持向量机算法和BP神经网络算法,通过对这两个算法在正确率、训练量和实验时间方面进行比较实验,选择出相对更加适合本文研究对象的机器学习算法——支持向量机算法,同时通过对比实验选择出适合本文研究对象的支持向量机算法参数,为机器学习实验提供了最佳环境。在良好的机器学习环境下,本文的实验样本来源于中国知网的电子期刊论文数据,包括论文的题名、关键词和摘要等主要信息,通过对比分析知道综合这三种特征来源更加能够提高期刊论文自动分类的实验效果,并且通过对比实验找到了一组相对合适的加权比重。期刊论文的传统分类方法是中国图书馆分类法,简称中图法,但是中图法存在分类繁杂、类目较多的特点,这显然不是自动分类的体系,本文利用层次分类法的理念将中图法转化为一个三层的分类体系,分别进行分类实验,从第一层到第三层的实验正确率分别达到了95.05%、92.89%和89.02%,三层的综合正确率也接近80%,这是一个比较可观的实验结果,证明了机器学习在期刊论文的自动分类方面的可行性,为期刊论文的分类问题提出了新的思路。