基于文本相似度算法的特色旅游线路开发研究

来源 :科教创新与实践 | 被引量 : 0次 | 上传用户:cfsjy4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本研究将苏州市内43个景点资料作为待处理文本,利用jieba分词对其进行了分词、去停用词、提取特征项、计算特征项权重的处理,继而用空间向量模型实现非结构化信息向数字化信息的转变,最后采用k-均值聚类方法,通过计算各文本间的相似度,确定类别数得出景点特征分类结果。继而利用分类结果设计出了5条苏州市特色旅游线路。
  关键词:文本相似度算法;旅游线路;开发
  一、研究背景和意义
  随着经济的发展和技术的进步,人们的休闲时间与时俱增,恩格尔系数与时俱减,人们可支配收入大幅度增加,生活水平提高了,对旅游的需求也越来越大。旅游已经成为现代人生活中重要的部分,并且旅游者已不满足传统的旅游产品,越来越倾向于选择个性化的,具有鲜明特色的休闲度假旅游产品。旅游收入在国内生产总值中的占比越来越大,加快旅游业发展成为推动我国经济发展的重要方式之一。中国旅游业发展已进入爆发式增长期,大众旅游时代即将全面来临。旅游业发展与周边产业紧密联动。科技与创新是旅游发展的主要推动力,在线预订、电子旅游信息、社交网络等的广泛应用改变了原有旅游业的面貌,同时旅游业的发展也促进了科技技术的创新。旅游业不仅促进文化产业发展,文化更是旅游产品的灵魂,没有文化的旅游是不存在的。旅游业的发展还直接促进了与其相关的餐饮业、服务业和零售业的发展。当前的旅游线路产品参差不齐,文化内涵不够深厚,趋同性较高,品牌建设意识淡薄。
  苏州市旅游资源丰富,旅游景点众多,但开发程度有待提高的问题明显。运用全新的旅游线路开发思路,将文本相似度算法应用到旅游线路开发中,通过描述景点的文本信息,分析得出景点的特征,将具有相同特征的景点归为一类,结合地理位置的特征将同类型的景点设计在一条线路中形成特色旅游线路。线路开发具有可行性且具有现实意义。旅游业较低的资源消耗、高度的产业关联、紧密的地域联系、显著的富民效应,在京津冀协同发展中占有重要的地位。丰富人们的休闲娱乐生活,提高居民幸福感。随着大众旅游时代的到来,使旅游成为人们在紧张的工作学习之余的首选;人们生活水平的提高、带薪休假的增加及对生活品质的追求,高质量旅游线路的设计是及其重要的;上班族在快节奏的生活下,需要释放压力,放松心情,才能更好地投入工作;老年人退休好,讲究健康养老,康养旅游正当时;年轻学生朝气蓬勃,更需要感受祖国大好河山的锦绣壮丽,激发爱国主义情怀,将来投身到祖国建设中来。如何针对现有的旅游资源进行有效的整合,打破现阶段“单打独斗”的状态,在充分利用苏州市古城区旅游资源的同时,进行资源整合,从而推动苏州市旅游业的整体发展,促进文旅深度融合。如何规划游览这些分散在苏州大街小巷中的古迹、有效地安排旅游线路、提升游客的旅游质量和旅游效率,在智慧旅游的设计中十分必要。特别是在散客时代,只有特色旅游线路的推出才能更好地满足游客的需求。
  二、基于文本相似度算法的特色旅游线路的开发方法
  (一)文本处理
  文本通常是具有完整、系统含义的一个句子或多个句子,属于自然语言,是非结构化的信息。若要计算文本间的相似度,需要把这些非结构化的信息即文本,转化成计算机能够识别和计算的数字化的表示形式,这样才能计算出文本间的相似度。计算文本相似度前期需要完成的过程主要包括分词,去停用词、提取特征项、计算特征项权重,度量相似度等。文本预处理过程包括分词和去停用词。将要分析的内容为苏州市市内43个景点的文本信息。43个主要景点涵盖了苏州市古城内的主要苏州园林、博物馆、寺庙、古城门、历史文化名街。一个景点的信息为一个文本,其中包含着基本信息、历史、建筑特点、作用地位等,内容丰富全面,但是整个一句话,计算机是无法识别的,要实现文本相似度的计算,首先需要将文本进行预处理,就是将一句一句的话分成具有独立意义的词语。文本在预处理后得到幾百甚至几千个具有独立意义的词语,要想对文本特征有比较准确的把握,就需要对能显著体现文本特征的词语赋予高权重,对出现频率较低的词语赋予低权重,这样更能体现出景点的特征。但并不是每个词语都是有用的,都能代表景点特征,接下了的首要目的是提取能够代表景点特征的词语,一般意义上讲,文本中出现频率越高的词语,对文本的重要性越大越能在一定程度上代表文本的特征。提取出文本特征项之后就是计算特征项的权重,选用应用最多的、经典的TF-IDF 权重计算方法。这个权重计算方法的中心思想为:如果某个词语在整个文本中出现的频率高。然后利用k 均值聚类算法对需要的文本预处理、特征项提取及其权重的计算过程,之后将43个景点的文本信息进行分类。
  (二)基于高频词的景点特征分析
  首先将全部43个景点的资料作为待处理文本,调取 jieba 分词模块进行分词和去停用词的预处理。将预处理之后的文本进行生成高频词的操作,调用 jieba.analyse 包,对完成上述预处理后的文本提取出现频率最高的前 20 个词作为该文本的高频词。保存软件生成的景点的高频词,分析各景点的特征。接下来,将所有景点文本信息中的高频词整合在一起,从 wordcloud 包中调取Word Cloud 模块生成高频词词云,设置最大词量为 1000,出现频率最高的词大小设置为 40。分析生成全部景点的高频词词云,这样能够更直观得体现出这景点的总体特征。
  (三)基于K-均值聚类的景点特征分析
  上述43个景点文本信息完成了分词与去停用词的文本预处理,接下来,提取能够代表文本独特性和具体性的特征项,根据对各景点高频词的分析,可以得出,高频词能够作为各文本的特征项;用 TF-IDF 方法计算特征项的权重以降低文本表示模型的维度;用空间向量模型表示文本,完成文本为非结构化信息向计算机能够识别、计算的数字化信息的转变。最后调用 sklearn.cluster 包中的 KMeans 模块,用 k-均值聚类方法计算各文本间的相似度。在聚类的过程中,类别数设置的越大,同一类别里的景点数相对越少,景点之间的特征就越接近。经过反复计算,设置不同的类别数分析得出的景点之间特征的形式情况,设定类别数为 5,即将个景点分为5 类。利用 k-均值聚类方法将包括 43 个文本的集合划分为 5类,实现过程包括,随机选出 5个文本作为初始聚类中心点,之后计算还剩下的38 个文本与选出的这 5个点的距离,并把与中心点距离近的归为同一类,然后重新随机选取中心点,迭代计算上述过程,直至聚类中心点不再发生改变。分析各类别中包含的景点可以得出类别内部的特征,其中部分类别特征在一定程度上与高频词具有一定的联系。从侧面体现出算法具有科学性且与现实情况相符。
  三、特色旅游线路开发——以苏州市为例
  通过文本相似度算法得到了 5 类具有不同特征的景点分类结果,将各类别的特征确定为线路主题。在线路设计的过程中,为突出苏州市特色景点,只保留了苏州市内交通方便、历史文化内涵丰富、旅游设施相对完善、游客数较多的部分景点。最后,结合地理位置特点,设计出下列 5条苏州市内特色旅游线路。以 “韵存千秋·大美昆曲” 为主题,从中国昆曲博物馆到苏州昆剧传习所,再到江苏省苏州昆剧院,了解了昆曲的历史和文化;以 “匠心独妙·苏作天工”为主题,从苏州博物馆到苏州工艺美术博物馆,再到苏州民俗博物馆,以“一玉一木一锦,一灯一扇一绣”为主线,观赏出的玉雕、木雕、宋锦、灯彩、苏扇、苏绣,感受苏作工艺的匠心独妙;以 “康乾南巡·驻跸姑苏” 为主题 ,结合《康熙南巡图卷.第七卷.无锡至苏州》、《乾隆南巡图卷.第六卷.驻跸姑苏》的背景,从阊门出发,经过胥门、江苏巡抚衙门旧址、苏州府学,最终到苏州织造署旧址,了解康熙与乾隆南巡驻跸苏州的历史故事;以“状元故里·文脉寻根” 为主题,从悬桥巷的洪钧故居出发,经过临顿路来到钮家巷“状元博物馆”,再到十全街的状元第,最后到达三元坊,了解“中国历史上惟一的状元外交官”、“苏州门第最显赫的状元”、“祖孙状元”、“连中六元状元”的故事;以 “光辉之路˙红色遗迹” 为主题,游览张冀牖故居、中共苏州独立支部旧址、五卅路纪念碑、上海战役指挥机关旧址等红色遗迹,重温苏州革命历史。
  参考文献:
  [1] 张志雄、费理源、廖宇. 基于蚁群算法的苏州古城徒步旅游线路规划[J].看世界,2020(21)
  [2] 黄文彬、车尚锟.计算文本相似度的方法体系与应用分析[J].情报理论与实践. 2019(11)
  基金项目:2021年度苏州经贸职业技术学院院级课题“基于大数据的情感分析技术在苏州旅游网络评价中的应用研究”,项目编号为701K703。2021年江苏省高等学校大学生创新创业训练计划项目“基于大数据的情感分析法在苏州旅游网络评价中的应用研究” 。
其他文献
摘要:电子信息技术在当今社会的应用范围广泛,不仅应用于国家的电缆、光纤、通信技术等领域,同时也应用于电脑、手机等设备当中。可以说人们的日常生活已经离不开电子信息技术的应用,电子信息技术的发展让人们的生活更加方便快捷,提高了人们的生活质量。在当今的现代化社会,电子信息技术水平和国家的科技发展是正相关的关系,电子信息技术水平直接影响我国的整体发展,提高电子信息技术水平,在一定程度上能够促进我国整体经济
期刊
摘要:随着社会经济的不断发展,互联网科技的不断进步,在“互联网+”政策的推动下,电子商务行业的发展为我国经济发展做出巨大贡献,但在电子商务背景下的消费模式中,我国消费者的权益也受到不同程度的侵犯。通过分析消费者权益保护存在的现实问题,站在消费者权益的立场提出法律保护的相应建议,希望电子商务消费者权益得到更有效的保护。  关键词:电子商务;消费者权益保护;法律法规  一、电子商务消费者权益相关法律保
期刊
摘要:当前时代背景下,对于农村地区进行科学合理的开发是我们的国家发展工作当中的重中之重。而对于农村地区进行全面开发的过程当中,我们需要注重乡镇机构档案管理信息化建设工作的落实。当前时代背景下乡镇机构档案管理信息化建设的必要性,主要体现在以下两方面:乡镇机构档案管理信息化建设有助于农村地区的高效管理;乡镇机构档案信息化管理能够为农村地区的迅猛发展打下制度基础。乡镇机构档案管理信息化建设的具体途径如下
期刊
摘要:医院医疗设备质控工作是维持医疗设备质量稳定,提高医院医疗质量的重要方面,医疗设备档案完整,可以为设备质控提供基础依据,降低损坏率,确保使用质量。本文从建立设备档案的意义入手,根据当前医疗设备档案的现状,探讨如何加强设备档案管理工作,从而提高设备质控管理水平,最终提升医院医疗质量。  关键词:档案管理;设备控制;医疗质量  医疗设备质量的稳定性,影响着医院医疗质量,近年随着医疗设备技术发展,设
期刊
摘要:本文分析了高校安全稳定现状影响因素,借助事故树分析法构建了高校安全稳定防控体系,并在试点高校进行了应用,提出了所需采取的预防措施,为高校安全稳定防控工作提供了一定的帮助。  关键词:高校;安全;稳定;防控;体系  引言  2020年,全国共有普通高校2738所,各种形式的高等教育在学总规模4183万人。随着我国高等教育事业的迅猛发展,高校的办学规模不断增大,学生人数不断增加,人员结构成分日趋
期刊
摘要:在我国电子信息技术稳定发展的推动下,信息化已经全面进入网络时代,为了能够最大化发挥信息管理的效果,保证其科学高速的信息传递,则应该加强对网络技术优势的重视,这样可以落实好各个环节工作,有效地将现代网络技术融入电子信息技术的应用当中,其不仅是未来技术发展趋势,同时也是加快社会发展的重要组成,必须要得到重视,而且在实际应用的过程中,还需要分析所产生的问题,制定针对性解决方案,最大化发挥两者融合的
期刊
摘要:我国是煤炭资源的生产与消耗大国,随着通信技术和自动化控制技术的不断发展与进步,高速信息通道的建立,煤矿生产过程通过电子监控和信息传输技术进行指挥成为必要的也十分有效的指挥手段。自动化技术的设计、开发与应用对煤矿生产的进步带来了新的契机,对煤矿事业有重要的影响。本文就煤矿自动化与通信技术的发展现状以及未来发展趋势进行简要的讨论。  关键词:煤矿;自动化与通信技术;发展现状;未来趋势  从上世纪
期刊
摘要:光电信息科学的应用范围非常广泛。在各行业发展中,光电信息科学与工程不仅能够降低生产流程对人力资源的需求,而且能够提高生产效率,帮助企业有效地降低生产成本,增加经济效益。光电子产业的发展推动了光学和电子学两个学科进一步的融合。在这一时代背景下,光电信息科学与工程的研究范围不断扩大,研究层次也逐步加深,相关的研究理论也越来越多在实践中获得了认可。  关键词:光电信息;科学与工程;发展前景;工程规
期刊
摘要:為保证油田的生产质量,确保低产气井排水采气操作开展效果,油田加大了对此类型气井排水采气技术的研究力度。本文也将通过对管柱排水采气以及泡沫排水采气等工艺的具体介绍,对各项技术的具体生产实践展开深度性研究,从而通过分析明确各项技术的优势与不足,以便制定出最佳的油田低产气井排水采气方案。  关键词:管柱排水采气技术;泡沫排水采气技术;油田;低产气井  通过对油田的开采分析发现,低产气井的排水采气技
期刊
摘要:电子信息工程的发展造福了人类社会,而作为一种集成化技术工程,电子信息工程在发展过程中离不开众多现代化科学技术,计算机网络技术正是其中之一。计算机网络技术是将通信技术与计算机技术相结合发展形成的一种技术,它的应用对于电子信息工程而言具有重要意义。当前,随着人们对电子信息工程各方面要求的不断提高,有必要进一步应用计算机网络技术来完善电子信息工程发展。  关键词:电子信息工程;计算机网络技术;应用
期刊