面向地标的多模态主题意见摘要挖掘研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:aa3002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着移动终端设备价格的下降及Wi-Fi的广泛铺设,移动互联网应用呈现井喷式发展。旅游用户基于移动终端设备,产生了大量旅游评论文本和旅游地标图片信息。这些信息能充分反映各个地标的特色,同时也为面向地标的旅游领域数据挖掘,提供了优良的环境和迫切的科研任务需求。本课题在实验室物联网项目之挖掘系统工作的基础上进行延续,从海量信息中,提取出地标的文本主题意见,并结合图片信息,产生多模态主题意见摘要。此项工作的意义在于方便用户快速准确查询到所需信息,帮助用户进行特色景点选择和旅游计划决策,推动旅游业的蓬勃发展,促进信息消费,保持经济增长。本文以北京市的热门旅游地标数据为对象,展开多模态主题意见摘要挖掘研究。首先,本文设计“爬虫”软件,从旅游网站获取评论和游记,通过信息熵指标等进行信息筛选,保留有价值的文本和图片信息,完成了地标的数据收集和预处理工作;其次,本文在预处理工作基础上,开展文本挖掘研究工作,生成了地标的文本主题意见。针对地标的评论信息,本文创新地提出一种增量式学习算法框架,依据区分性和内聚性两个指标,同步挖掘各地标的主题和用户对各主题的重要评价意见,实验表明该算法框架能有效的提取地标的主题意见特征词,反映地标特色,其准确率相比其他方法提高19%左右,达到国内先进水平;再者,针对图片,本文选择提取5种图像特征,采用谱聚类算法和AP算法,获得图片聚类主题和各主题的代表性图片,实验表明聚类效果良好,所选图片的主题代表性强;最后,本文综合文本和图片两种模态信息,将图片按主题映射到文本主题意见上,形成多模态摘要,实验表明该摘要可读性强,形式新颖,信息丰富。经实际验证,本文最终生成的包含文本主题意见和代表性图片的多模态摘要,形象生动,特色鲜明,直观有效地为用户提供了地标的关键信息,大量节省用户查询时间,得到了用户的充分好评。
其他文献
蜱是一种常见的吸血体外寄生虫,给畜牧业和人类的健康带来了严重的影响。蜱的寄生会引起宿主失血、不安和皮肤损伤,同时在叮咬过程中蜱可以传播多种疾病。蜱叮咬可以诱发宿主产
在瞬息万变的信息时代,为了解决移动用户需求的高数据传输速率和频谱资源枯竭之间的矛盾,国际标准化组织第三代合作伙伴计划(The3rd Generation Partnership Project,3GPP)展