【摘 要】
:
本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训
【机 构】
:
武汉大学信息管理学院,武汉大学信息资源研究中心
【基金项目】
:
社会科学基金项目“多种类型文本数字资源自动分类研究”(项目编号:15BTQ066)的研究成果之一
论文部分内容阅读
本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的待分类文本中,最后用SVM算法进行分类。实验结果表明,在训练集与测试集仅为题名的情况下,当训练集为每类200篇时,提升效果最好,达到3.1%,但提升效果随训练集文本数的增加而下降;在训练集为题名加摘要,测试集为题名时,本文提出的分类算法在复旦语料和自建的期刊语料上的MacroF1分别平均提高
其他文献
在"大众创业,万众创新"的推动下,尽管众多大学生投身于自主创业,但创业成功率却不尽理想,创业层次和创业绩效也较低。本文对全国21所高校的1857名大学生进行了调研,发现创业
深化素质教育是时代发展的要求,是教育发展的必然趋势。近些年来,素质教育的实施取得了很好的成绩,但还有一些不足之处,特别是很多理工科大学生在综合素质方面还有待提高。如
该文从图书馆搜索系统用户需求的变化出发,在对图书馆搜索系统所依赖的搜索技术、数据资源等影响因素进行深入分析的基础上,探讨了未来图书馆搜索系统的发展趋势,希望对我国
对《中图法》中内容极为相似的两个类别,开展基于机器学习的自动分类(两类分类)研究。以《中图法》中E271和E712.51两个类别的书目信息作为两类分类的对象,对涉及的CHI、IG和MI
PCC的标准记录到BIBFRAME的映射是在原标准记录到RDA映射的基础上,增加了到BIBFRAME的映射,因此反映了RDA到BIBFRAME的映射情况,其映射报告对映射情况进行了总结并提出了16个问
科研工作者在知识利用过程中面临着内部动机和外部资源的匹配问题,基于利用情境的差异,其知识利用行为会发生相应的变化。基于自我决定理论,探究了科研工作者知识利用行为的
数据分析和测度方法是信息分析和信息计量领域的基础议题之一。本文尝试给出多维h分布及相关的广义h测度。“多维”是指结果并非单一数值,而是一组相互直接或间接关联的变量
为调研"00后"大学生的阅读行为习惯及对于阅读引导活动的偏好,以提出针对性的阅读引导策略,论文面向全国多个省市地区的高校展开问卷调查,对调查结果进行统计分析,并将之与前
文章基于西文授权影印版图书与原版图书的MARC21书目记录比较,归纳RDA规则下西文授权影印版图书的著录要点。依据影印版图书题名页形式的多样,重点梳理题名与责任说明项的著
对于汉语“图书馆”一词的产生,图书馆学界众说纷纭,通过对相关文献的查阅考证,可以得出结论,现代意义的汉语“图书馆”一词,最早出现在傅云龙所著《游历日本图经余记》一书中。