论文部分内容阅读
数字图书馆越来越成为图书馆对外服务的重要窗口和学术资源整合的重要平台,对平台内数字资源的科学组织与利用已成为我国数字图书馆发展的重要研究方向。针对目前图书馆数字资源的异构性与用户需求的多元性,如何在语义环境下,开发基于用户兴趣与用户需求的资源聚合系统,提高异构资源的集成、共享与互联能力,是数字图书馆资源整合的关键问题之一。
本文针对图书馆数字资源所缺乏的用户行为感知与反馈能力、异构资源聚合能力,提出了在用户行为挖掘方法的基础上对信息资源进行深度链接与有组织的聚合,具体包括:
(1)采用用户行为分析的思想来建立用户行为特征库;
(2)采用词表、词词关联矩阵、模糊集合、本体等思想来规范用户行为特征;
(3)采用语义网框架内的本体方法来构建(以用户为中心的)资源聚合体系;
(4)采用概念分类、概念聚合的思想来构建用户行为特征库内的概念体系;
(5)采用主题图技术为概念体系进行可视化与主题导航;
为最终为以实现有用户行为反馈机制与资源聚合机制的的语义检索提供有效数据支持。
在行文思路上,本文采用理论研究与应用研究相结合的基本思路,以情报学、计算机科学、信息分析、心理学的相关理论方法为指导,结合数字图书馆资源整合技术与用户行为分析手段,提出基于用户行为的图书馆数字资源语义聚合理论方法,并在此基础上设计了一个实证与三个实验,用以充分的数据和实证来支撑本文的方法体系和行文脉络。
全文共分为八章,每章的主要内容简述如下:
第一章绪论。绪论部分首先阐述选题背景与意义,接着对国内外关于数字资源整合、用户行为、语义检索的研究进展作了陈述,在陈述的基础上提出本文的研究题目,研究目的与研究方案,并提出了本文研究的创新点。
第二章理论框架。理论框架部分,对用户行为与语义聚合做出了理论层次上的研究框架。首先,阐述了国内外学者对用户行为的不同认识,给出了笔者自己对用户行为的理解,阐述了用户行为研究方法与整体研究框架;与此并列,也对语义聚合研究的理论研究进行了阐述,从聚合的定义、聚合的理论范式深入到聚合的层次框架。随后,给出了笔者自己对数字资源语义聚合的理解。创造性的提出通过用户行为数据分析来构建用户行为特征库的的方法,对图书馆数字资源进行以用户为中心的语义聚合。
第三章全文的出发点。深入对如何构建用户行为特征库进行了研究。首先从构建用户行为特征库的外部系统环境入手,对分布式异构环境环境下的用户数据行为获取、大数据环境下的用户行为挖掘进行了宏观研究,并依据Map-Reduce思想,对用户数据分组与集成做了理论分析。接着,从数据库的层次结构、用户信任、资源有效获取等角度对构建用户行为特征库的可行性做了可行性分析。接着,开始本章的重点----用户行为特征库的创建:从数据预处理、数据采集、数据抽取,到数据格式标准化几个环节对创建流程进行了详细论述,并在构建特征库的基础上对特征库的层次结构进行了描述。在本章实验部分,笔者依照特征库创建流程,依次用java开发了三个用户行为特征采集与标准化工具。
第四章基于用户行为特征库内的词语集合,创建用户行为词表,研究词词关联和词表聚合。首先,利用成熟的词表技术将用户行为特征库中的词汇进行序化,并根据词频、词语权重等多种因素提取出能代表用户特征的中心词汇,然后讨论了模糊集合理论中词词关系的数据处理问题,在此基础上进行词表中词词关联值的探讨,并通过关联矩阵进行词间语义关系的实证研究。最后根据词间的语义关系进行词表向语义描述的重要工具——本体进行转化,阐述了如何利用词表创建用户行为的本体过程。
第五章主要在第三、四章的技术基础上构建用户行为本体库,并以用户为中心进行本体聚合。首先从用户需求、用户体验、用户兴趣三者为用户行为本体构建的出发点,在本体创建总方向上对用户行为本体构建做出规范。接着,进行了用户本体的存储于操作的相关内容,包括本体存储、本体映射、本体匹配、本体相似性计算、本体开发工具的选择以及本体构建的一般方法,在这些理论与方法的基础上阐述了用户行为本体的构建流程,包括语义标注、语义描述以及特殊本体(用户行为本体)的语义描述方法。紧接着,从本文关键问题之一——本体异构问题入手,提出以用户行为特征为中心的异质本体聚合与融合的解决方案。最后,为了验证本章内容,我们以湖北省图书馆在某一段时间内的部分用户行为数据为数据源,设计了”基于学科概念的用户行为本体聚合”实验,实验将从用户行为特征库中抽取出来的语义信息进行学科分类,同时创建用户行为本体,最后以用户兴趣词为中心,进行本体概念的聚合。
第六章基于已有学科概念分类,创造性的提出对用户行为主题概念的分类与聚合。用户行为概念与学科概念分类类似,都是粒度比较大的义源。因此,概念聚合对于可视化导航尤为重要。接着,讨论了如何将聚合状态的主题概念体系以主题图(Topic Map)的形式呈现出来。最后,在实验部分,通过对图书情报领域的个人博客为数据源,提出了利用主题图技术对以用户查询关键词为中心的,图书馆博客相关概念的链接与聚合方案,并将概念聚合形态进行了可视化呈现。
第七章主要探讨了用户数据挖掘和语义聚合对语义检索的支持。从数字图书馆所处的时代大的环境---语义网开始,逐步讨论了用户行为本体对现有本体库的丰富、用户行为反馈机制对语义检索的作用、语义聚合在语义聚合中所扮演的角色。最后,系统性的归纳了本文的落脚点——面向语义聚合的数字图书馆语义检索实现机制。从内容、形式、服务等方面对数字图书馆的语义检索发展趋势做出了展望。
第八章结语。在所有研究内容与研究思路的基础上总结了研究中存在的难点,并提出了将来作者需要着重研究的方向。