基于中文UGC信息源的半自动应用本体构建研究

来源 :武汉大学 | 被引量 : 11次 | 上传用户:weiziqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在社会化媒体成为最受欢迎的信息传播和网络互动方式的今天,UGC信息也如洪水般泛滥。UGC的信息爆炸与价值利用间的矛盾已经成为了社会化媒体亟待解决的问题。UGC信息源中知识的管理和利用,既是情报学发展的机遇,亦是对情报学的挑战,因此对UGC信息源中知识的高效组织就显得尤为重要。本体作为知识组织的方法和技术,不但可以有效的实现对UGC信息源中知识的组织,更能为社会化媒体的语义检索提供基础支持。传统的领域本体是针对学科领域知识进行构建的,因而无法良好的支持基于用户知识的社会化媒体;与此同时,由于UGC信息的独特性质,传统的本体构建方法也无法直接的应用到对UGC信息源中知识的组织,因此需要利用UGC信息源进行主题知识的应用本体构建,以满足社会化媒体语义检索的需要。本文在对现有本体构建方法比较分析的基础上,针对UGC信息源的分类和特征,对部分本体构建方法进行了改进和扩展,提出了一套结合UGC信息源中半结构化的维基百科信息和UGC信息源中非结构化的文本资源信息为基础的本体构建方法体系并实现其原型系统,不仅为构建支持社会化媒体语义检索的应用本体一般方法提供了一定的参考价值,而且对后来的本体研究者具有一定的指导意义。本论文的基本思路是围绕UGC信息源的特点,找到适合进行应用本体构建的UGC信息源,通过对多种本体构建方法在UGC信息源中的应用进行比较,找到适合于UGC信息源的应用本体构建方法,并对部分方法进行改进,来实现基于UGC信息源的应用本体构建。关键内容包括UGC信息源的特征分析与选择、基于UGC信息源的本体概念获取方法、基于UGC信息源的本体关系获取方法、基于UGC信息源的本体维护方法等。文中附有图56副,表33个。全文约16万字,共分为7个部分,主要内容如下:第1部分探讨本体及本体构建的相关理论基础。首先对信息科学领域中的本体论进行了讨论,描述和界定了本体的概念,阐述了本体在知识描述、知识共享方面具备的特征,介绍本体的类型以及本体的基本元素;详细论述了XML、RDF和OWL三种本体描述语言的规范;讨论了本体构建的原则、方法和工具。然后针对本体的构建方法,阐述了在本体构建中概念抽取、关系抽取和本体维护方法中所涉及的语言学、逻辑学和耗散结构理论的基础知识。第2部分主要讨论了UGC信息源的概念和界定,分析了UGC信息源的内容形式和发布形式,然后从传播学和心理学对其进行了分类,通过找到不同UGC信息源中概念的信息分布特征,选择适宜进行应用本体构建的UGC信息源。第3部分共分为两个小节,首先探讨了基于维基百科的本体概念获取方法,包括对维基百科中实体概念模型的分析和本体概念的抽取。接着探讨了基于UGC信息源文本的本体概念获取方法。在基于UGC信息源文本的本体概念获取方法中,首先从宏观上阐述了本文基于中文UGC信息源的本体概念获取模型,分别讨论了UGC语料库的获取与预处理和本文选用的中文分词方法;运用维基百科抽取的本体概念与UGC文本的词性规则组合建立词性组合规则库,并对UGC信息源文本中的本体概念进行抽取;利用基于互信息和左右信息熵的概念过滤方法对本体概念的独立性和完整性进行过滤,并针对过滤方法的不足,实施基于中心词的概念补充方法对获取的本体概念进行补充,最后运用领域相关度和一致度的筛选方法得到本体概念中的核心概念。第4部分共分为两个小节,首先分析了维基百科中的分类关系,并采用中心词匹配、共标引和目录表的方法对维基百科中的分类关系进行抽取;接着通过对UGC信息源文本中分类关系获取方法的分析,采用基于包含原理、基于模板匹配和基于层次聚类的方法对UGC信息源文本中存在的分类关系进行抽取。然后针对UGC信息源中存在的非分类关系,抽取维基百科抽取中出现的可能存在关系的概念对,利用关联规则的方法提取UGC信息源文本中出现的可能存在关系的概念对,并抽取概念对之间的动词,利用CVF*IVF方法对这些动词进行过滤,找到合适的动词作为概念对的谓词,最后利用对数似然比的方法找到合适的本体三元组模型。第5部分在基于前文研究内容的基础上,将本体概念和本体关系形式化后,依照本体维护的一般过程,提出了基于中文UGC信息源的本体变化捕捉框架,通过对本体维护操作方法和本体维护的一致性约束的分析,提出了基于UGC信息源的本体维护成本算法,并对UGC信息源中的维护需求进行了应用举例和分析。第6部分构建了基于中文UGC信息源的应用本体构建原型系统,提出了系统在分词、概念获取、关系获取方面的具体需求,并对系统进行了总体设计以及功能和界面的展示,本文把原型系统分为三大块以及十小块功能模块并对每一功能模块的系统界面和功能进行了详细的阐述。最后对全文进行了总结,指出了研究中存在的不足之处,并对接下来的研究进行了展望,引出作者进一步研究的基础和方向。
其他文献
早在3000多年前,图书馆已开始产生,数千年以来,图书馆的工作主要围绕竹简、纸质文献等进行人工服务,效率比较低下。而近30年来,以PC和Internet为特征的信息技术快速发展,为新
在我国教育不断发展完善的过程中,高中政治教学取得了明显的课改成绩,但是在目前的高中政治课堂教学中仍然有许多问题没有得到有效的解决,教育工作者还需要不断重视高中政治
我国现行的刑事赔偿程序存在着程序不公正、赔偿义务机关多元化、刑事赔偿委员会设置不合理等严重缺陷,从而不利于赔偿请求人请求赔偿,难以实现实体的公正。本文拟就刑事赔偿
目的:研究非酒精性单纯性脂肪肝中医证型与肝脏超声分级、血清同型半胱氨酸及1,25-二羟基维生素D_3的关系,分析探讨不同证型间指标的变化规律,深化对非酒精性单纯性脂肪肝中医辨证的客观认识。方法:选取2018年2月-2019年2月福建中医药大学附属第二人民医院消化科门诊及健康管理中心就诊,经超声检查为脂肪肝患者,符合本研究纳入标准200例,同期选取健康管理中心体检患者40例作为对照组。记录患者临床资
“学习力(Learning Power)”是国外教育界近年新出现的一套关于“学会学习”的新理念,它源于对在学校教育,尤其是学科教学上如何培养终身学习者的思考~([1])。英国布里斯托大
【正】 十多年来,语文刊物不断刊载评析广告用语的文章,这些文章对于国家制订《广告法》起了积极的作用。第一部广告法颁布以后,虚假不实的广告明显减少,一些经常出现于电视
目的:分析和研究奥瑞姆自我护理模式在脑瘤术后患者临床护理中应用效果。方法我们选取2011年11月~2013年12月脑瘤手术患者84例,将其随机分为观察组与对照组,每组各42例患者。
一个世纪前的巴黎和会是近代中国首次参加的大型国际外交会议,和会的外交失败是“五四运动”爆发的重要原因。牢记当年的“弱国无外交”的历史启示,有助于我们深刻理解当下“
大庆精神展现了哲学理性和批判精神的魅力,并体现为大庆精神所具有的求真务实精神、探索开拓精神和哲学批判精神。这些精神内核给了大庆精神以意义维度,给了大庆人以精神关怀
伴随着社会经济的快速发展,我国城市化进程不断加快,园林企业也应运而生。当前,随着园林企业竞争日益激烈,园林企业要想在市场竞争中具备自身竞争力,加强成本管理是关键。本文对当