基于主题概率模型的科技论文分类算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:solar_cbc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,科技水平飞速增长,科技论文发表量迅速增长,科技论文作为科技资源的重要构成部分,决定着科学研究的进展,如何利用好科技论文进行科研工作至关重要。通过对科技论文进行高质量的分类,可以帮助研究者从海量的科技资源中快速找到自己所需的资源内容,科技论文的分类工作将有效帮助研究者过滤冗余信息、快速精准的得出搜索结果、提高搜索质量,是进行科技资源管理的重要前提。本文将针对如何对科技论文有效分类展开研究,在保留科技论文主题性的情况下对其分类。本文通过对目前相关领域国内外研究现状的调查,了解了目前帮助用户有效利用科技论文的工具、目前科技论文分类情况和科技论文分类的常用方法。目前各个期刊和搜索引擎会对其包含的科技论文数据集进行分类,现有一些工具可以帮助用户更有效的阅读和学习科技文献,例如基于共引分析的Histcite、CiteSpace等工具。大部分期刊自我定义科技论文的分类标准,例如Bioinformatics期刊按照其自己定义的栏目分类。对科技论文进行分类的实质工作是对非结构化文本进行分类,Luhn最早于1958年提出了通过提取摘要进行分类的词频统计法;在其基础上,贝叶斯算法等逐渐被应用,随后人工构建分类器占主导地位;近年来支持向量机等机器学习方法在文本分类中得到了广泛应用。若以这些传统的文本分类方法对科技论文进行分类,则忽略了科技论文是含有语义特征的文本,忽略了主题与文档,词与主题之间的关系,显然运用主题模型对科技论文进行分类是一种更科学的方法。传统的主题模型在进行训练学习过程中,需要不断的迭代过程,耗费大量时间和计算成本,并且容易产生组件崩溃问题,因此如何减弱主题模型的这些缺点至关重要。本文采用了由Rezende等于2014年提出自编码变分贝叶斯方法,将自编码变分贝叶斯应用于主题模型中,解决以上问题。本文将隐含狄利克雷分布(LDA)方法与自编码变分贝叶斯(AEVB)结合,使用LDA替代原有的解码器,连接主题向量和判别器,将原本为无监督算法的LDA转变为半监督算法。并以web of science中大量文章摘要为有标签实验数据进行分类实验,通过评估模型、与传统分类方法进行比较得出实验结果并进行分析。本文的主要贡献为:提出了一种基于变分自编码的主题模型,用来进行科技论文分类工作;该方法在对科技论文分类时注重论文自身主题性;该方法解决了将变分自编码运用在主题模型时产生的再参数化和组建崩溃问题;该方法在对科技论文分类时该方法对比其他方法精确率有显著提高并缩短训练时间。
其他文献
在新课不断深入的背景下,传统的教学理念已经不适应当下社会发展的要求。体育教学在学生学习课程中发挥着重要的作用,因此在新课改的推动下要不断改进当下体育教学中的德育教
从中小企业用户需求分析的基础上,提出中小企业办公自动化系统的基本目标,并阐述系统的结构设计和功能设计,给出了一个结合C/S和Web技术的中小企业办公自动化系统实例;对中小
梅毒是一种常见的传播疾病,由梅毒螺旋体感染人体而发生,可累及全身各个器官且临床表现多样,具有极强的侵袭能力,严重危害到人类身体健康,是最为重要的性传播疾病之一[1]。梅
武警部队比其他领域、其他行业具有更大的风险性和艰苦性,尤其是基层军官和士兵往往承担着更多的牺牲和更重的责任,其对于维护国家稳定和安全具有重要的作用。但是目前军队中
目的 探讨过敏性哮喘的发病机制及患儿在早期治疗中的临床意义。方法 参照《实用儿科学》第八版作为过敏性哮喘诊断标准。收集2016年6月至2017年6月贵州遵义地区入住我院儿科
<正>一、揭示课题,了解"词"的特点1.同学们,这节课我们学习宋代著名的词人辛弃疾写的一首词《清平乐村居》。(板书:清平乐村居宋辛弃疾)2.让学生齐读课题,观察、比较
目前大白菜施肥存在的主要问题是:盲目偏施氮肥现象严重,一次性施肥量过大,导致氮肥损失,钙素吸收受阻。其施肥原则应依据土壤肥力条件,优化氮、磷、钾肥料数量,以基肥为主,基
《玛丽·巴顿》关于蝎子和鸦片的叙事具有政治讽喻意味,蝎子的惊惧场景表现出盖斯凯尔对英国殖民事业的警醒,而关于鸦片的论述则显示出她在阶级问题上存在着道德与情感两个维
利用反相高效液相色谱法对东洞庭湖区野生水芹茎及叶中氨基酸成分进行分析,水芹茎及叶经过烘干后用6 mol/L盐酸消解,利用邻苯二甲醛进行衍生,荧光法测定。结果表明,水芹茎及
音乐教学对于学生的艺术鉴赏能力、审美能力以及艺术创造力都有着十分重要的作用。目前职业院校音乐教学方法单调枯燥,使得学生对于学习音乐丧失了兴趣与激情,音乐课的目的也