论文部分内容阅读
随着互联网技术的快速发展,网络上的信息数量呈指数级增长。人们迫切需要将这些信息集成为一个本体,在本体的基础上进行语义检索,以提高信息检索的查全率和查准率。然而,信息的表现形式各异,包含的内容涉及到人类生活的各个领域,且不同领域的数据在结构和语义上都存在一定程度的差异,这些特征在多媒体信息中表现得尤为突出。一个具有统一标准结构的常识本体不仅能够在描述信息的底层特征的同时,表达其内容的高层语义,而且可以解决数据集成的异构问题,同时对本体间的集成和映射具有重要的作用。面对海量的常识性知识,本文将基于字典和基于自由文本的两种本体半自动构建技术相结合,提出了一种中文常识本体半自动构建方法。该方法首先将字典给出的分类知识自动地转换为常识本体的核心,然后半自动地将字典中的其它信息添加到核心本体中,接着运用基于自由文本的动态扩展机制,从互联网上的在线新华字典中抓取本体中概念的解释,通过分词技术和句法分析技术抽取其对象属性。实验结果表明,该方法能够在解决自动化构建和动态扩展两个问题的基础上,半自动地创建一个中文常识本体,并从结构化、描述粒度和成熟度这三个指标对中文常识本体进行评估分析。为了体现中文常识本体的应用价值,本文设计了一个中文常识本体应用系统。该系统实现了中文常识本体的查询功能、领域本体的“基本体”提取功能以及多媒体信息语义检索功能。“基本体”的提取使得各领域本体都建立在中文常识本体之上,较好地解决了本体之间的集成与映射问题。多媒体信息语义检索系统能够在计算机理解语义信息的基础上,快速准确地检索到用户所需要的多媒体信息。同时,本文在该应用系统的基础上,提出了一个医疗保健产品语义发布系统的设计构思。论文最后对中文常识本体半自动构建与应用的研究工作进行了总结,并阐释了工作中存在的问题以及对未来工作的展望。