论文部分内容阅读
科学研究领域中信息检索的主要任务是按照用户对科研文献相关信息的需要对信息来源进行甄选排序,从浩如烟海的科研文献中精确地发现相关信息。本文跳脱传统检索系统的窠臼,提出了一种适用于科研文献检索场景的信息制图法,将检索结果以信息地图的形式进行展示。这种信息地图除了能够传达传统上信息检索的结果之外,还特别强调检索结果之间信息传递的情况。本文中设计的信息制图法主要分为科研文献的表示学习、信息网络生成和信息网络优化三个部分。为了使多种丰富的信息资源统筹组合,将多种异质信息融合到同一个表示向量空间中,本文采纳了基于Skip-gram模型的段向量文本表示算法和DeepWalk网络表示学习算法,并提出了两种将以上模型合二为一的综合信息表示学习方案:基于语义链接的综合向量表示(Mixed Vector Representation with Semantic Link,MVRSL)和基于预训练嵌入的综合向量表示方案(Mixed Vector Representation with Pre-trained Embedding,MVRPE)。本文以实验数据验证了以上方案的有效性和高效性,在文本分类、链接预测等任务上均得到了高于对照算法5%-10%的准确率。从目标文档出发生成信息网络的过程中,本文基于综合信息的文档表示,以及一个链接预测器,迭代地纳入相关性最高的文档并记录下文档间的链接关系。随后,为了优化生成网络的可读性,本文提出了基于结点度数的关键链路发现方法(Degree Centrality-based Link Importance Metrics,DLIM)。利用这种度量方式,可以保障在网络连通度衰减5%以内的情况下,得到信息网络的核心成分。最后,本文设计了一个实验性的信息地图检索系统,该系统部署了本文提出的信息制图法方案,并且能够将得到的信息网络绘制成信息地图进行展示。