论文部分内容阅读
随着互联网的快速发展,各种电子商务网站以及购物网站等也呈现了前所未有的增长速度,这就导致了大量网络评论短文本源源不断的产生。这些评论短文本中承载许多有用的用户评价信息,通过有效的分析这些评价短文本,不仅能够获得重要的信息,还能够促进电子商业的发展和繁荣。因此,当代网络舆情分析的关注点已经逐渐转移到了文本分析处理上。针对这一背景,本文设计并实现了一个细粒度层次的情感分析系统,解决了人工处理网络评论文本费时费力,分析不全面,效率低下等问题。本文主要利用对本文系统采集到的数据进行处理分析得到的结果进行情感分析,最终以直观的界面化的形式展现在用户面前,为用户提供便利。下面是本文所用到的一些主要的技术以及方法:(1)提出了基于聚类的垃圾评论检测方法本文首先对采集到的数据进行了预处理工作,将半结构化的网页转换成了结构化数据的形式,进而发现信息量过大将会对我们进行情感倾向性分析带来很大困扰。所以,考虑在进行情感分析之前进行信息的过滤,提出基于聚类垃圾评论过滤的方法。经过一系列的处理,将这些评论信息根据它们的相似性进行聚类,然后在此聚类的基础上进行处理。并且通过实验证明了,该方法具有高效性以及实用性。(2)采用CRF算法迭代的抽取评价词,改进特征稀疏性问题本文采用CRF算法,对情感对象、情感词及情感修饰词进行联合提取,将无监督抽取的结果作为CRF的输入,通过词性及位置等特征来迭代抽取文本中的特征词。由于评价对象大多是名词及其短语,所以为了提高挖掘的效率,本文在抽取评价词时只考虑了名词,将得到的候选评价词作为CRF的输入来提取评价词集合。因为在CRF模型中,我们所求得的是全局最优解,因此我们可以有效地避免由于上下文特征选择以及在最大熵模型中标签偏差的限制,改进特征稀疏性问题。(3)本文设计并实现了细粒度情感分析系统本文的系统通过采用网络爬虫、数据处理和细粒度情感分析等一系列的相关技术和方法,一步步实现了对网络中大量广泛存在的评价信息的采集和分析,并以可视化界面的形式直观的显示在了用户面前。使用者可以利用查询界面进行查询,来获取各自所需的相关信息。该系统能够快速、有效的收集网络中的相关信息,并对其进行整合处理、分析评价,最终以图形化的形式展现出来,具有实用性、可操作性、直观性等优点。通过设计和实现本文系统,能够实现自动化的处理评论文本,并将情绪化分析结果展现在用户面前,方便用户获取信息。