论文部分内容阅读
随着科学文献数量的爆炸式增长,用户阅读和引用文献的时间成本越来越大。为提高用户阅读和引用文献的效率,研究者们在检索文献的过程中提出了多种检索结果多样化算法和文献推荐系统,以缩小用户需要阅读的文献集合。但读者阅读和引用一篇文献的效率很少被关注。同时,文献的作者仅能从学术数据库中获得被引数量和来源出版物的影响因子两个指标了解其文献质量,具体的评价信息不得而知。笔者从电商网站的购物行为中获得启发:文献的引文上下文可以作为评论信息,为读者的阅读和引用决策提供支持,为作者对其成果的了解提供更全面的信息。现有的CiteSeer数据库将文献的引文上下文看作一个非必需展示的字段,其评论价值没有被关注和有效利用。按照被引量、引用时间进行排序的列表在内容上仍存在冗余,不能满足用户多样化的需求。本文通过用户调研的方式,整理出三个用户阅读文献的需求场景。并从读者、作者两个视角出发,完成引文上下文多样化的推荐任务,结果是在每个场景下为用户推荐10条具有多样化性质的引文上下文列表。本文的研究数据来自CiteSeer数据库,笔者从中筛选出被引次数在50至100之间的、来源出版物属于CCF推荐的国际学术会议和期刊目录的文献及其引文上下文。并将CCF推荐的类别(CCF-A类、CCF-B类、CCF-C类和Other)作为引文来源出版物的分类依据。在内容多样化的策略制定中,笔者借鉴了检索结果多样化任务的方案,从3种常用的语义距离算法与3种隐式多样化算法的组合出的9种算法中筛选出效果最好的一种。3种语义距离算法分别是WordNet、ESA和word2vec,隐式多样化重排序算法分别是MMR、Score Difference和ILP。经过用户对这9种策略的评价,本文选取“word2vec+ILP”作为内容多样化的策略。笔者还从实验数据集中随机选取一千条引文上下文文本,进行引用情感的标注,将引文上下文分为Negative、Neutral和Positive三类。在读者视角中,笔者首先从内容多样化角度选取10条引文上下文,再结合引文来源出版物的类别、引用时间进行重排序来完成推荐。在作者视角中,笔者先将引文上下文按照引用情感、引文来源出版物类别进行分类,再从每个类别下推荐几条引文上下文组成10条推荐给用户。实验评价采用问卷调法,笔者通过计算用户对推荐列表“可读性”、“多样性”、“有用性”和“展示合理性”四个指标下问题的打分,得到每种情景下引文上下文列表的推荐效果。对比CiteSeer中提供的按照文献引用次数排序的引文上下文列表,本研究推荐的多样化列表均取得了更好的用户评价结果。