【摘 要】
:
近些年来,旅游行业发展势如破竹,线上旅游社交平台层出不穷,游记文本数量大幅度增长。通过对游记文本进行挖掘,可以更快速、便捷地帮助游客获取所需信息,并为出行者提供参考。然而,游记文本中涉及主题范围广泛,游客主观评价纷繁复杂,情感信息真实客观。如何有效地挖掘游记文本中包含的丰富信息,协助旅游相关部门进行决策,为游客出行提供参考价值逐渐成为线上智能旅游的研究热点。本文首先对游记文本进行多主题分类,在此基
论文部分内容阅读
近些年来,旅游行业发展势如破竹,线上旅游社交平台层出不穷,游记文本数量大幅度增长。通过对游记文本进行挖掘,可以更快速、便捷地帮助游客获取所需信息,并为出行者提供参考。然而,游记文本中涉及主题范围广泛,游客主观评价纷繁复杂,情感信息真实客观。如何有效地挖掘游记文本中包含的丰富信息,协助旅游相关部门进行决策,为游客出行提供参考价值逐渐成为线上智能旅游的研究热点。本文首先对游记文本进行多主题分类,在此基础上,对游记进行压缩,生成包含情感信息的摘要文本。主要研究工作如下:(1)游记多主题分类方法。游记文本主要包括出行者在旅游过程中的真实感受,导游服务、出行方式规划以及情感评价信息等等,涵盖主题涉及范围广泛。由于游记中涉及的主题类别标签信息不完善,本文提出了补全主题类别信息的方法(Bert-Topic Complement)用于游记文本的多主题分类。该模型将主题标签数目小于2的游记文本通过矩阵线性变换进行主题标签补全,同时使用Bert预处理语言模型对游记与主题标签进行语义表示,通过注意力机制生成包含主题信息的游记文本,最后进行多主题分类。通过与其他基线实验进行对比,取得了较好的实验结果,说明本文提出的Bert-Topic Complement方法有助于提高游记文本的多主题分类效果。(2)情感摘要生成方法。游记文本蕴含着丰富的情感信息,这些情感知识对于游客来说是最有价值的。因此,需要在对游记文本主题进行分类的基础上生成情感摘要。本文融合情感特征信息,提出了一个多文档情感摘要模型(Senti-PG-MMR),该模型结合指针生成网络(Pointer-generator)和最大边界相关算法(MMR),通过调整解码器端生成的注意力机制,既保留了句子的重要部分,又降低了句子的冗余程度。最后与其他的基线方法进行对比。实验结果表明,本文提出的Senti-PG-MMR模型能够生成包含丰富情感信息且简洁流畅的游记文本摘要。(3)山西旅游攻略系统的设计与实现。为了便于游客获取不同主题旅游信息,为其出行提供参考价值。本文利用补全主题类别信息的多主题分类模型(Bert-Topic Complement)以及融合情感信息的情感摘要生成模型(Senti-PG-MMR),设计了具有游记多主题分类与情感摘要生成功能的旅游攻略系统。该系统界面友好,使用方便,能够完成游客用户对游记攻略的基本需求。
其他文献
图像在传输、存储等过程中不可避免地会发生图像质量下降的问题,这对于后续的图像处理带来了巨大的挑战。通过自动判定图像质量,避免将低质量的图像引入图像处理系统中,将在很大程度上缓解或避免上述问题。因此,图像质量评价算法作为图像工程的关键环节具有重要的研究意义和应用价值。全参考图像质量评价(Full-Reference Image Quality Assessment,FR-IQA)方法作为图像质量评价
随着信息化时代的飞速发展,海量数据的有效收集和获取成为关键。数据挖掘作为当今信息时代快速发展的一个重要领域,它逐渐普及应用到各个行业。聚类分析则是处理数据挖掘问题的有效手段之一,通过对海量数据的划分,使数据样本之间潜在的联系表现出来。在聚类分析中,矩阵分解通过数据降维,将高维矩阵的问题分析转换成几个低秩矩阵的问题分析,有效的提升了聚类的效果。本文我们主要根据概念分解的相关知识,增加了函数的对偶性和
框架语义分析是基于框架语义学理论,识别目标词所属框架,并标注框架所包含的语义角色,通过刻画文本内部丰富的结构信息和语义信息,达到文本语义分析的目的。框架识别作为其核心任务之一,是给定可激起框架的目标词,根据上下文语境,选取最符合该目标词语境的语义框架。提高框架识别模型的准确性,有利于增强句子级语义分析的性能,从而为下游任务提供有效的语义信息。本文针对框架识别任务进行研究,主要的工作及成果如下:(1
中文阅读理解问答研究作为智能问答的方向之一,受到了国内众多中文信息研究者的追捧,成为了研究焦点。本文依托科技部国家重点研发项目,针对高考语文卷的科技文类型的阅读理解问答题进行研究,本文的主要研究内容如下:(1)基于BERT模型的多策略答案句抽取方法。首先构建了面向高考语文阅读理解的数据增强方法,对高考文本数据进行扩充,增加BERT模型的泛化性。其次采用改进的MMR算法对段落进行筛选,随后运用微调之
微博以其即时性、原创性、便捷性的特点,成为目前最受欢迎的社交媒体之一,也逐渐成为各类突发话题的第一发布现场。然而随着微博用户人数、发帖量逐年激增,导致微博文本流中充斥着各种各样的广告以及民众对日常生活的讨论。因此如何从海量、嘈杂的微博文本流中及时发现负面情感突发话题并对其演化情况进行分析,这对于突发事件的应急响应以及相关部门做出有效的舆情引导有着重要的意义。而传统的突发话题检测方法忽略了负面情感突
火灾的发生给人类环境带来了极大的威胁,而用于检测火灾的传统探测器性能会受到自身各种参数的影响,因而亟需一种更加高效的火灾检测方法。作为图像处理常用的算法,卷积神经网络(CNN)具有可自动提取图像特征的优点,而VGG16作为CNN常用的架构方式,更是能够深刻体现CNN的深度与其性能之间的关系,因此选用VGG16结构作为新算法的CNN部分。而VGG16模型中用于分类的softmax分类器实质上是将CN
核心素养这一概念已提出多年,但由于长期的应试教育,导致小学音乐教学边缘化,没有得到足够的重视。当前,小学音乐课教学还停留在单一的课时教学,没有做到对教学资源的有机整合,只是对学生进行知识的简单传授和技能的机械训练,忽视了知识间的关联和迁移。这样的音乐教学,不利于学生学科素养的培养。为此,通过"小学音乐单元主题教学"这一支点,试图撬动小学音乐课堂教学的改变,以培养学生的音乐学科素养,赋予小学音乐教学
多孔介质在不同尺度上的组分分布方式与孔隙结构是其宏观物理性质的重要影响因素。X射线CT成像作为一种三维无损表征技术在多孔介质结构表征领域得到了大量应用。对于三维结构而言,CT技术所表征样品区域的尺寸大约是体元尺寸的103倍的数量级,目前主流图像阈值分割算法往往丢失了小于CT可解析尺度的组分分布信息,制约了这一技术的深入应用。本文将CT成像技术与数据约束模型相结合,对用于污水处理的纳米铁改性生物质炭
在当今这个数字化时代,每天都会产生巨量的数据,为了能够从中找到更有值的信息,数据挖掘技术也步入了一个快速发展期。在数据挖掘中聚类集成是聚类分析的一个重要分支,聚类集成过程包括生成基聚类结果和最终一致性聚类结果两个过程,第二个过程需要使用一致性函数将第一个过程中得到的多个基聚类结果进行聚合进而得到最终一致性聚类结果。目前,在聚类集成中,一致性函数的设计仍面临着困难,本文通过参考国内外文献在此方面并取
双极化天线技术是无线通信技术的关键技术之一,其技术可以使天线的接收和发射同时工作,可以增强无线链路的质量和可靠性,减小多径衰落的情况。在多个信道的信号传输过程中,由于信道自身产生的电磁场和外界的电磁场,会使天线在工作过程中受到干扰,使不同信道之间产生强烈电磁耦合。因此,在信道传输信号的过程中抑制电磁干扰,是信号传输的重要问题。本论文将重点研究高离度的双极化天线,主要工作内容包括以下三方面:1.设计