论文部分内容阅读
在移动互联网高速发展的今天,短文本以其便捷高效的传播优势,极大地满足了人们随时随地参与网络活动的需求,日渐作为主流的信息载体。同时海量的短文本信息也是人们在现实世界与网络世界的真实映射,对这些短文本信息进行分析和挖掘,能够更好地引导真实世界的行为,也促使更多新的应用落地,从而更好地服务于人类自身。主题挖掘作为一项基础的文本分析任务,可以从规模庞大的文本中挖掘出潜在的主题信息,传统的主题模型在长文本的主题挖掘中已经有较为成熟稳定的应用,但是短文本受限于文本长度,在信息的表达上非常简短随意,具有严重的稀疏性和上下文信息匮乏的问题,稀疏的词共现信息使得模型推断的准确性遭受很大挑战。针对短文本稀疏性、语义缺乏的特性,本文分析了现有的短文本主题模型,并提出了基于语义增强和词频逆文档频率的词对主题模型(Semantic Enhancement-TFIDF based Biterm Topic Model,SEI-BTM),模型包括以下几点:(1)以词对为建模对象,缓解统计推断上的词共现信息的匮乏;(2)使用词嵌入技术,在大规模短文本集合中训练得到词表示,将词对在词表示上的相似性作为模型的上下文语义关联先验信息,缓解短文本信息不足引起的语义缺失;(3)使用知识嵌入技术,在大规模知识库中训练得到知识表示,将词对在知识表示上的相似性作为模型的实体关联先验信息,补充短文本在内容表达上的缺失;(4)引入词频逆文档频率先验信息来限制高频词引起的推断偏差。本文选择了 4个代表性的短文本主题模型作为对比进行实验,实验表明SEI-BTM模型较其他模型在分类准确率和主题一致性上都有更好的效果。网络评论作为短文本信息的典型代表,是人们在互联网时代交流和展现自我的重要方式,体现了用户的真实想法和感受,一直是学术界和工业界的研究热点。本文选取网络评论数据作为分析对象,将SEI-BTM模型应用于网络评论的挖掘中,设计并实现了网络评论挖掘系统。系统通过网络爬虫技术从互联网中采集评论数据,经过清洗与预处理后,进行主题挖掘,包括主题获取、主题摘要、主题演化,以及观点挖掘,包括评论属性抽取、观点抽取以及情感倾向性分析,最终系统以可视化的方式对分析结果进行展示。