论文部分内容阅读
“自媒体”是近十余年来随着Web技术、移动互联网技术和智能终端等的发展而新兴的一个概念,它是平民大众作为传播者将自己的知识、观点、信息等传递给其他受众的一种自主化的新传播方式。“自媒体”具有平民化、门槛低、传播快、交互性强的特点,在线自媒体旅游信息具有很大的挖掘价值和应用价值。在自助游成为旅游主流形式的大背景下,游客大多会选择自由行的旅行方式,在旅游行为结束之后多数游客会在旅游门户网站的交互模块上分享自己的旅游经历,导致以“自媒体”形式出现的各种在线旅游信息呈爆炸式增长。基于自媒体的在线旅游门户网站上包含的旅游信息种类众多,包括景点及其属性信息、景点的各种点评数据、网络游记、旅游问答数据等,而每一种类型的旅游数据又包含了多种类型的属性信息,例如,时间信息、文本内容信息等。然而,激增的在线旅游信息对自助游客、旅游从业人员等并不是一个好的现状,这对他们来说是信息“过载”。如何从海量的自媒体在线旅游信息中挖掘出有用的旅游信息点,从多个维度挖掘这些信息,使这部分信息得到有效利用是旅游信息挖掘的重要价值。计算机信息技术和图形、图像处理技术的发展也改变了传统的可视化方式,使得现代可视化技术有了巨大的进步。针对信息挖掘的结果,找到合适的方式进行可视化,以帮助人们增强认知,充分发挥可视化对于数据理解的重要作用。另一方面,本文的研究成果可以有效地应用于现代化智慧旅游系统当中,为旅游游客出行选择目的地时节约时间成本、为旅游目的地提供针对性建议。本文基于自媒体旅游信息,以上海为研究区域,从理论研究和实际应用价值出发,对旅游信息的获取、挖掘和可视化进行深入研究。本文的研究内容主要集中以下三个方面:(1)设计了不同的方法对自媒体旅游信息进行采集和预处理。以上海为研究区域,经前期的调研,对各主流旅游门户网站中在线旅游攻略信息的数据类型、数目以及在线用户等进行了统计和对比,最后确定了数据质量较高与用户量较多的携程网站作为本文的数据来源。基于Python网络爬虫技术设计了不同数据类型的采集方法与流程,并对原始数据进行了相关预处理之后,为后续的旅游信息挖掘与可视化提供数据支撑。截止2018年7月,共采集上海旅游景点总共5293个、上海迪士尼度假区的点评数据共72685条、网络游记共计3000篇、有关上海的问答数据3018条。经过预处理之后仅保留旅游景点4302个、点评数据63115条、热门游记2100篇。经预处理之后,存入MYSQL数据库中。(2)对采集的旅游信息进行挖掘,根据不同的数据类型设计了不同的挖掘方法。首先对其点评时间进行了挖掘,对于上海迪士尼旅游点评数据,由于该信息相对结构化,因此,可以直接对其分析,分析得到了2016年上海迪士尼自开通到2018年6月的年际变化量和2017年全年的月际变化量。对于点评文本本身,依据其数据特点,利用机器学习的方法设计了点评文本的分类流程和评价指标。在实验过程中,经过文本预处理和文本词向量表示对其实现自动化分类,并对其实验结果进行了分析,得出了不同分类器和不同样本量对分类结果的影响。针对问答短文本,本文直接调用了Bonson NLP的多文本聚类进行处理,得到上海相关问答的Top10,为后续的可视化提供了数据支撑。针对上海旅游目的地的网络游记,设计了热度旅游地名的挖掘流程和方法,在实验过程中,利用基于隐马尔科夫模型的结巴分词进行地名的识别,并运用ATF*PDF模型的地名词汇权重分配方法对热度地名进行权重分配计算。最后对提取结果的准确率进行了分析,基于提取结果划分了不同的地名类别,并利用Arc GIS对其进行空间化表达。(3)基于自媒体旅游信息挖掘结果,进行旅游信息可视化平台的设计与开发。利用GIS二次开发技术、结合HTML+CSS前端开发技术和高德地图API、Echarts等可视化组件进行平台的建设与开发。通过该平台,使海量的、杂乱无序的旅游文本信息以一种更容易被全面理解的方式展示出来,展现形式有地图和文本两种形式。