论文部分内容阅读
随着旅游业的发展,个性化旅游促使了旅游内容的日益多元化,节庆旅游以崭新的形式成为了第三产业的重要支柱,促进了当地民族文化的发展。广西壮族自治区少数民族众多,民族节庆活动丰富多彩,以民族服饰、歌舞、民俗等烘托主体,吸引了越来越多的旅游者前去亲身体验,成功塑造了广西壮族自治区旅游胜地的品牌形象。另一方面,现如今大数据时代的到来,网络成为了人们获取信息的重要渠道,由于传统的搜索引擎往往返回大量的网页及冗余的信息,并不能满足用户真正的需求。很多语义资源如xml、本体文件等随着语义Web技术的发展而涌现在网络上,为语义搜索提供了基础。当前语义搜索研究的主要对象为实体搜索,但在现实的生活中,有时我们关注的并不是实体本身,而是实体与实体之间的语义关联关系。事实上,这种语义关联关系是很多领域研究的重点,如国家安全部门、社交网络等,希望通过语义关联关系的研究来回答“对象a和对象b之间是否存在某种语义关联”等此类问题,从而挖掘出实体之间潜在的有价值的语义信息。为了能够对广西少数民族节庆活动信息进行整合,建立一个丰富、完善的民族节庆系统体系,并使用户对传统的民族节庆有更加便捷、全面、系统、深入地了解。本文主要研究民族节庆事件的语义路径,首先研究了民族节庆活动的特点,并提出了一种基于语义句模匹配的民族节庆事件信息抽取算法,其次构建了民族节庆事件本体模型并对其进行了扩充。为了能够有效地分析节庆活动之间的语义关联路径,本文采用图数据库(Neo4j)存储、查询民族节庆事件本体。实现了节庆活动之间的语义路径查询,并对查询结果进行了优化,该方法可有效检索各节庆活动之间存在的语义关系。本文研究的主要内容如下:(1)搜集广西壮族自治区民族节庆信息,提取节庆信息事件要素,提出了基于语义句模匹配的信息抽取算法。从文本中自动提取出了节庆活动的节庆名称、举办地点、举办民族等主要的节庆要素信息,并对算法的性能做了详细的分析。(2)根据抽取出的节庆要素信息,分析了节庆事件蕴涵的概念和概念之间的关系。利用本体可视化工具protege构建了民族节庆事件本体模型,并把抽取到的节庆活动信息填充到本体模型中。(3)通过分析关系数据库存储领域本体的弊端,考虑到本体中语义数据的结构,采用非关系数据库即图数据库Neo4j的方法。把本体中的类和实例映射为Neo4j中的节点,把属性映射为节点与节点之间的边,为语义路径的研究奠定了基础。(4)结合图论的算法思想,实现了语义路径的检索,并对检索出的语义路径进行了定义与分类。由于节庆事件之间的复杂关联关系,并不是所有的语义路径都是用户所关心的。基于此提出了比较有效的排序计算方法,使能够满足用户真实信息挖掘需求的语义路径排在搜索结果的首位。