论文部分内容阅读
由于缺乏对大规模多关系型数据的处理能力,传统文献分析工具往往局限于对数据进行局部分析,忽视了数据间的联系。近年来,随着复杂网络研究的兴起,网络分析方法逐步被应用到包括文献分析在内的多个领域。利用网络分析文献数据,可以借助网络的可视化特点结合机器的特长与人的优势,帮助分析人员发现数据的隐藏特征。这也使得结合网络分析的文献可视化分析工具成为当前文献分析工具的主流。本文主要对文献分析做以下几方面的探讨:(1)文献网络的实体解析。文献数据中经常存在实体表述不准确的现象。实体解析的主要任务就是在实体和实体的表述间建立正确的映射关系以解决一物多名和多物同名的问题。当前流行的分析工具以判断实体属性相似度的方法消除不一致数据,在很大程度上提高了数据清理的自动化程度。但基于属性相似度的清理方法需要用户设定相似度阈值和各项属性的相似度权值,需要用户了解更多的背景知识。另外这种清理方法对由属性缺失引起的实体重名处理效果较差。本文尝试在使用属性匹配的基础上,通过分析和比对实体间的关系,使用链接分析、协同分析、社团划分等方法,提高实体解析的准确度。(2) GraphOLAP。使用网络展示文献数据可以直观的反映相关实体的多维特性,如果能进一步对网络作多维分析,有利于分析人员深入理解各类实体间的关系。联机分析处理(Online Analytical Processing)系统常用来分析多维数据,以数据立方体的形式提供数据的多维视图,并通过上卷和下钻操作提供数据的多层次视图。但传统的联机分析处理系统并不支持图结构,现有的主流分析工具也都不支持对图进行OLAP操作。近来,Chen Chen、Xifeng Yan和Jiawei Han等提出了支持图结构的OLAP框架GraphOLAP。但该框架到目前为止还没有实现,也不支持对异质图进行OLAP操作,本文将扩展GraphOLAP的概念以支持对异质图的分析,并实现该框架。(3)本文将上述研究应用于国家科技支撑计划项目《科技文献信息服务系统关键技术研究及应用示范》,开发了一个文献可视分析系统,通过工具证明了上述研究的可行性。