基于旅游知识图谱的知识问答方法的研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:wangx315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,知识图谱(Knowledge Graph)已经成为大数据时代的重要工具,被广泛应用于下一代搜索引擎、智能问答和推荐等领域。基于知识图谱的问答一直是自然语言处理领域讨论的热门话题,由于自然语言处理技术日趋成熟和高质量通用领域知识图谱的相继出现,针对通用知识图谱的知识问答研究较多,且研究成果丰硕。目前,旅游领域已经出现了部分构建旅游知识图谱研究论文,甚至已经有公开的旅游知识图谱可供查阅。然而,论文和已公开的旅游知识图谱大多仅考虑旅游景点信息,没有考虑旅游过程中可能存在的吃住购等消费信息,同时已公开的旅游知识图谱的数据量较少,进行知识问答研究的效果不佳,无法满足游客对于旅游问答的需求。因此,构建一个可同时满足游客旅游需求的知识图谱,并基于此知识图谱服务于游客已经成为旅游研究的一个热点问题。针对以上问题,本文给出了解决思路,主要的研究内容如下:(1)旅游知识图谱构建。当前旅游知识图谱大多仅关注景点信息而忽略了旅游领域“吃住行游购娱”的需要,为了更好的满足游客需求,本文对已有的景点旅游知识图谱进行了知识扩充,添加了餐厅、酒店、购物中心等信息。同时,本文使用BERT模型和Ratio Distance算法结合的方法将本文构建的旅游知识图谱和已有的线路知识图谱进行融合,通过添加线路信息进一步扩充旅游知识图谱。(2)基于BiLSTM+CRF+TERA进行问句旅游实体识别研究。BiLSTM+CRF模型被用来进行命名实体识别研究,然而该模型被应用于旅游领域时无法准确识别部分旅游领域实体。基于上述问题,本文提出旅游实体识别算法(Tourism Entity Recognition Algorithm,TERA)。该算法沿用了最大匹配算法的思想,以旅游领域实体大多为名词或由名词组成这一特点来设计。整个旅游实体识别研究使用BiLSTM计算各词被标注成各标签的概率,使用CRF模型获取最优标签组合,最后将模型无法准确识别的实体使用TERA进行识别。实验表明,在BiLSTM+CRF模型的基础上添加TERA可以更好的提高旅游实体识别的准确率。(3)基于融合注意力机制的Siamese LSTM进行问句属性链接研究。使用Siamese LSTM提取问句和知识图谱中存储的三元组中的候选属性集的语义特征,引入注意力机制突出句中的关键信息,最后计算提取的问句和属性的语义特征的相似度,选择候选属性集中与问句相似度最高的属性。实验表明,使用融合注意力机制的Siamese LSTM比单纯使用Siamese LSTM进行属性链接的准确率高。综上,本文构建了多源融合的旅游知识图谱,并使用BERT模型和Ratio Distance算法结合的方法融合线路知识图谱得到包含旅游线路信息、旅游景点信息、餐厅信息、酒店信息和购物中心信息的一个完整的小型旅游知识图谱;本文使用(2)(3)中提到的模型算法进行问答方法的研究,最终结合两种方法实现基于旅游知识图谱的知识问答。实验证明,本文提出的研究方法模型在训练效率上有一定的提高,且可服务于旅游领域。
其他文献
陕西靖边位于陕北黄土高原和毛乌素沙地南缘交界处,靖边东南方向22公里处分布有波浪谷丹霞地貌区,处于正—负地貌过渡段,交错层理发育,序列完整、纹理明显。近年来,专家学者对于陕北丹霞的研究主要在旅游资源开发、地貌特征、景观学分析等方面,而关于靖边丹霞红色砂岩理化性质及沉积环境特征、古气候意义等方面缺乏系统性的研究,红色砂岩中蕴含了大量古气候与环境信息,对其理化性质进行分析,有助于进一步了解靖边红色砂岩
学位
<正>《3-6岁儿童学习与发展指南》(以下简称《指南》)中指出:"幼儿科学学习的核心是激发探究兴趣,体验探究过程,发展初步的探究能力。成人要善于发现和保护幼儿的好奇心,充分利用自然和实际生活机会,引导幼儿通过观察、比较、操作、实验等方法学会发现问题、分析问题和解决问题。"相比刚上幼儿园的时候,大班幼儿的求知欲和好奇心更为强烈,对身边事物的探究兴趣更为浓厚,也更乐于亲自去探索某些现象背后的科学原理。
期刊
量子信息处理是量子力学、数学、信息论等学科相结合的研究领域,其发展丰富了信息论等相关领域的研究内容.量子态的分辨和量子假设检验是量子信息处理中许多领域的基础.在量子假设检验中会产生两类误差概率,对称假设检验和非对称假设检验是处理这两类误差概率常用的方法.对称假设检验是对两类误差概率的加权平均和取最小;而非对称假设检验是对一类误差概率加以限制最小化另一类误差概率,相关的研究在其它领域也得到了很好的应
学位
粮食是人体的主要能量来源之一,它的储量和质量都关系着国家的发展和社会的稳定。粮食在储藏过程中常常因为霉菌、害虫等因素影响受到损害,会导致储粮的质量下降。粮食受损不仅会导致全球饥饿率的上升,而且长期食用被霉菌、害虫侵害的粮食会导致人类营养不良甚至诱发疾病。及时的检测和分离出受损粮食,不但可以减少储粮的损失,还可以避免人类产生疾病。因此,粮食质量检测工作是至关重要且刻不容缓的。本文的研究对象为发霉粒小
学位
量子资源理论对非经典的资源(比如:量子纠缠、量子相干、量子非马尔可夫等)提供了一个有效的理论框架.在量子信息处理中,纯态有非常好的应用,比如:量子隐形传态、超密编码、Shor算法以及HHL算法等.自然地,纯态可以看作是量子资源.量子纯度度量主要刻画量子态与完全混合态之间的偏差程度,定量量化纯度是量子信息理论中一个基本的问题.2003年Horodecki等人首次提出了纯度的概念,随后纯度得到了较为深
学位
兴趣点推荐系统在基于位置的服务中起着重要作用,旨在通过分析用户的历史或结合其他信息,在社交平台上向用户推荐其可能感兴趣的地点。但是,签到数据被暴露给不可信的推荐系统是一种隐私威胁,攻击者可能会根据签到数据推测出用户的一些个人信息,例如工作场所、宗教信仰和行为习惯等。因此,研究一种既能保护用户数据隐私,又能保证较高可用性的兴趣点推荐方法具有重要意义。基于扰动思想的差分隐私技术,能够提供防止隐私泄露的
学位
气候变化是全球变化最重要的表现之一,当前已涉及到人类的生存与发展。通过重建古气候变化,进而预测未来的气候变化规律一直是国内外研究的热点。中国第四纪黄土是研究古气候变化的良好载体,它记录了第四纪以来的气候冷暖交替,对于重建第四纪古气候变化具有重要意义。汉江上游位于秦岭南侧,大巴山以北,北亚热带季风气候边缘,对于气候变化异常敏感。区内峡谷盆地相间分布,受新构造运动和气候变化的影响,流域内分布不对称的四
学位
书法艺术是我国传统文化中的十大国粹之一,拥有极高的美学价值和文化意义。受书法作品保存条件限制和对书法学习的需求,将传统书法作品利用现代化技术进行数字化生成具有重要研究价值和研究意义。传统的字体生成方法大多基于人力进行手工绘制,过程复杂且受人为因素影响。随着深度学习的迅速发展和图像生成技术的不断改进,基于深度学习的字体生成方法受到广泛关注,并取得了一定的成果。但是现有方法多基于硬笔手写字体的生成,存
学位
随着全球经济发展与人类活动影响,大量新兴环境污染物(Contaminants of Emerging Concerns,CECs)经多种途径进入污水处理系统,其中药物与个人护理品(Pharmaceuticals and Personal Care Products,PPCPs)是最典型的 CECs 代表物,由于其较强的环境持久性和生物累积性,传统的污废水处理工艺很难将其去除,对自然环境和人类健康造
学位
计算机图形学算法通常被用在计算机上模拟三维的虚拟场景,为了模拟较好的三维场景,实现真实的光线效果,通常使用全局光照模型计算场景光照。全局光照算法作为计算机图形学的一个重要领域,多年来备受研究学者的关注。与传统的局部光照算法不同,全局光照算法除了计算场景中直接光线贡献的光强外,还考虑了由折射或反射产生的间接光线贡献的光强,所以全局光照会产生远高于局部光照的渲染绘制结果。光线跟踪是全局光照算法中最具代
学位