论文部分内容阅读
在社会化媒体成为最受欢迎的信息传播和网络互动方式的今天,UGC信息也如洪水般泛滥。UGC的信息爆炸与价值利用间的矛盾已经成为了社会化媒体亟待解决的问题。UGC信息源中知识的管理和利用,既是情报学发展的机遇,亦是对情报学的挑战,因此对UGC信息源中知识的高效组织就显得尤为重要。本体作为知识组织的方法和技术,不但可以有效的实现对UGC信息源中知识的组织,更能为社会化媒体的语义检索提供基础支持。传统的领域本体是针对学科领域知识进行构建的,因而无法良好的支持基于用户知识的社会化媒体;与此同时,由于UGC信息的独特性质,传统的本体构建方法也无法直接的应用到对UGC信息源中知识的组织,因此需要利用UGC信息源进行主题知识的应用本体构建,以满足社会化媒体语义检索的需要。本文在对现有本体构建方法比较分析的基础上,针对UGC信息源的分类和特征,对部分本体构建方法进行了改进和扩展,提出了一套结合UGC信息源中半结构化的维基百科信息和UGC信息源中非结构化的文本资源信息为基础的本体构建方法体系并实现其原型系统,不仅为构建支持社会化媒体语义检索的应用本体一般方法提供了一定的参考价值,而且对后来的本体研究者具有一定的指导意义。本论文的基本思路是围绕UGC信息源的特点,找到适合进行应用本体构建的UGC信息源,通过对多种本体构建方法在UGC信息源中的应用进行比较,找到适合于UGC信息源的应用本体构建方法,并对部分方法进行改进,来实现基于UGC信息源的应用本体构建。关键内容包括UGC信息源的特征分析与选择、基于UGC信息源的本体概念获取方法、基于UGC信息源的本体关系获取方法、基于UGC信息源的本体维护方法等。文中附有图56副,表33个。全文约16万字,共分为7个部分,主要内容如下:第1部分探讨本体及本体构建的相关理论基础。首先对信息科学领域中的本体论进行了讨论,描述和界定了本体的概念,阐述了本体在知识描述、知识共享方面具备的特征,介绍本体的类型以及本体的基本元素;详细论述了XML、RDF和OWL三种本体描述语言的规范;讨论了本体构建的原则、方法和工具。然后针对本体的构建方法,阐述了在本体构建中概念抽取、关系抽取和本体维护方法中所涉及的语言学、逻辑学和耗散结构理论的基础知识。第2部分主要讨论了UGC信息源的概念和界定,分析了UGC信息源的内容形式和发布形式,然后从传播学和心理学对其进行了分类,通过找到不同UGC信息源中概念的信息分布特征,选择适宜进行应用本体构建的UGC信息源。第3部分共分为两个小节,首先探讨了基于维基百科的本体概念获取方法,包括对维基百科中实体概念模型的分析和本体概念的抽取。接着探讨了基于UGC信息源文本的本体概念获取方法。在基于UGC信息源文本的本体概念获取方法中,首先从宏观上阐述了本文基于中文UGC信息源的本体概念获取模型,分别讨论了UGC语料库的获取与预处理和本文选用的中文分词方法;运用维基百科抽取的本体概念与UGC文本的词性规则组合建立词性组合规则库,并对UGC信息源文本中的本体概念进行抽取;利用基于互信息和左右信息熵的概念过滤方法对本体概念的独立性和完整性进行过滤,并针对过滤方法的不足,实施基于中心词的概念补充方法对获取的本体概念进行补充,最后运用领域相关度和一致度的筛选方法得到本体概念中的核心概念。第4部分共分为两个小节,首先分析了维基百科中的分类关系,并采用中心词匹配、共标引和目录表的方法对维基百科中的分类关系进行抽取;接着通过对UGC信息源文本中分类关系获取方法的分析,采用基于包含原理、基于模板匹配和基于层次聚类的方法对UGC信息源文本中存在的分类关系进行抽取。然后针对UGC信息源中存在的非分类关系,抽取维基百科抽取中出现的可能存在关系的概念对,利用关联规则的方法提取UGC信息源文本中出现的可能存在关系的概念对,并抽取概念对之间的动词,利用CVF*IVF方法对这些动词进行过滤,找到合适的动词作为概念对的谓词,最后利用对数似然比的方法找到合适的本体三元组模型。第5部分在基于前文研究内容的基础上,将本体概念和本体关系形式化后,依照本体维护的一般过程,提出了基于中文UGC信息源的本体变化捕捉框架,通过对本体维护操作方法和本体维护的一致性约束的分析,提出了基于UGC信息源的本体维护成本算法,并对UGC信息源中的维护需求进行了应用举例和分析。第6部分构建了基于中文UGC信息源的应用本体构建原型系统,提出了系统在分词、概念获取、关系获取方面的具体需求,并对系统进行了总体设计以及功能和界面的展示,本文把原型系统分为三大块以及十小块功能模块并对每一功能模块的系统界面和功能进行了详细的阐述。最后对全文进行了总结,指出了研究中存在的不足之处,并对接下来的研究进行了展望,引出作者进一步研究的基础和方向。