论文部分内容阅读
近年来,科技水平飞速增长,科技论文发表量迅速增长,科技论文作为科技资源的重要构成部分,决定着科学研究的进展,如何利用好科技论文进行科研工作至关重要。通过对科技论文进行高质量的分类,可以帮助研究者从海量的科技资源中快速找到自己所需的资源内容,科技论文的分类工作将有效帮助研究者过滤冗余信息、快速精准的得出搜索结果、提高搜索质量,是进行科技资源管理的重要前提。本文将针对如何对科技论文有效分类展开研究,在保留科技论文主题性的情况下对其分类。本文通过对目前相关领域国内外研究现状的调查,了解了目前帮助用户有效利用科技论文的工具、目前科技论文分类情况和科技论文分类的常用方法。目前各个期刊和搜索引擎会对其包含的科技论文数据集进行分类,现有一些工具可以帮助用户更有效的阅读和学习科技文献,例如基于共引分析的Histcite、CiteSpace等工具。大部分期刊自我定义科技论文的分类标准,例如Bioinformatics期刊按照其自己定义的栏目分类。对科技论文进行分类的实质工作是对非结构化文本进行分类,Luhn最早于1958年提出了通过提取摘要进行分类的词频统计法;在其基础上,贝叶斯算法等逐渐被应用,随后人工构建分类器占主导地位;近年来支持向量机等机器学习方法在文本分类中得到了广泛应用。若以这些传统的文本分类方法对科技论文进行分类,则忽略了科技论文是含有语义特征的文本,忽略了主题与文档,词与主题之间的关系,显然运用主题模型对科技论文进行分类是一种更科学的方法。传统的主题模型在进行训练学习过程中,需要不断的迭代过程,耗费大量时间和计算成本,并且容易产生组件崩溃问题,因此如何减弱主题模型的这些缺点至关重要。本文采用了由Rezende等于2014年提出自编码变分贝叶斯方法,将自编码变分贝叶斯应用于主题模型中,解决以上问题。本文将隐含狄利克雷分布(LDA)方法与自编码变分贝叶斯(AEVB)结合,使用LDA替代原有的解码器,连接主题向量和判别器,将原本为无监督算法的LDA转变为半监督算法。并以web of science中大量文章摘要为有标签实验数据进行分类实验,通过评估模型、与传统分类方法进行比较得出实验结果并进行分析。本文的主要贡献为:提出了一种基于变分自编码的主题模型,用来进行科技论文分类工作;该方法在对科技论文分类时注重论文自身主题性;该方法解决了将变分自编码运用在主题模型时产生的再参数化和组建崩溃问题;该方法在对科技论文分类时该方法对比其他方法精确率有显著提高并缩短训练时间。