面向用户评论的细粒度情感分析系统设计与实现

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:wangyanling100wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,各种电子商务网站以及购物网站等也呈现了前所未有的增长速度,这就导致了大量网络评论短文本源源不断的产生。这些评论短文本中承载许多有用的用户评价信息,通过有效的分析这些评价短文本,不仅能够获得重要的信息,还能够促进电子商业的发展和繁荣。因此,当代网络舆情分析的关注点已经逐渐转移到了文本分析处理上。针对这一背景,本文设计并实现了一个细粒度层次的情感分析系统,解决了人工处理网络评论文本费时费力,分析不全面,效率低下等问题。本文主要利用对本文系统采集到的数据进行处理分析得到的结果进行情感分析,最终以直观的界面化的形式展现在用户面前,为用户提供便利。下面是本文所用到的一些主要的技术以及方法:(1)提出了基于聚类的垃圾评论检测方法本文首先对采集到的数据进行了预处理工作,将半结构化的网页转换成了结构化数据的形式,进而发现信息量过大将会对我们进行情感倾向性分析带来很大困扰。所以,考虑在进行情感分析之前进行信息的过滤,提出基于聚类垃圾评论过滤的方法。经过一系列的处理,将这些评论信息根据它们的相似性进行聚类,然后在此聚类的基础上进行处理。并且通过实验证明了,该方法具有高效性以及实用性。(2)采用CRF算法迭代的抽取评价词,改进特征稀疏性问题本文采用CRF算法,对情感对象、情感词及情感修饰词进行联合提取,将无监督抽取的结果作为CRF的输入,通过词性及位置等特征来迭代抽取文本中的特征词。由于评价对象大多是名词及其短语,所以为了提高挖掘的效率,本文在抽取评价词时只考虑了名词,将得到的候选评价词作为CRF的输入来提取评价词集合。因为在CRF模型中,我们所求得的是全局最优解,因此我们可以有效地避免由于上下文特征选择以及在最大熵模型中标签偏差的限制,改进特征稀疏性问题。(3)本文设计并实现了细粒度情感分析系统本文的系统通过采用网络爬虫、数据处理和细粒度情感分析等一系列的相关技术和方法,一步步实现了对网络中大量广泛存在的评价信息的采集和分析,并以可视化界面的形式直观的显示在了用户面前。使用者可以利用查询界面进行查询,来获取各自所需的相关信息。该系统能够快速、有效的收集网络中的相关信息,并对其进行整合处理、分析评价,最终以图形化的形式展现出来,具有实用性、可操作性、直观性等优点。通过设计和实现本文系统,能够实现自动化的处理评论文本,并将情绪化分析结果展现在用户面前,方便用户获取信息。
其他文献
为了解决齿轮故障诊断中传统的声振信号分析方法容易受到周围设备及环境噪声干扰的问题,提出了一种独立分量分析和自相关分析相结合的齿轮故障诊断方法.首先用独立分量分析分
<正>用氢氧化钠溶液吸收二氧化碳的性质来补充高中化学第一册实验(5-1)和(5-2),其操作简便,效果显著。
提出了Falcon分选区内存在分离壁面的假设,并通过颗粒的受力分析证实了分离壁面的存在.以分离壁面为依托,推导出了Falcon理论分选密度公式,建立了Falcon密度差选模型.通过Fal
:东莞“千角灯”是国家级非物质文化遗产,相传源于宋朝,集书画、剪纸、刺绣等民间手工艺于一体,具有深厚的历史文化内涵和宝贵的艺术资源。怎样将其艺术资源发掘和传承,该文
中国深受儒家文化的影响,家庭是社会的基础,中国员工的家庭需要与日俱增。然而,转型期的中国出现了一系列的新的工作需要,如:远程办公,外派,不定期加班等等,这给上述的家庭需
词律探源王明政词律之学源远流长。严沆《古今词选&#183;序》云:“自《花间集》出而倚声始盛,其人虽有南唐、楚、蜀之殊,叩其旨节,靡有异也。”就是说在温飞卿、韦庄的时代,词的平
在0.1 mol/L的B-R底液(pH=4)中,用单扫描示波极谱法可以得到一个灵敏的6-巯基嘌呤与二价铜离子配合物的导数还原峰,其峰电位为-0.40 V(vs.SCE),其二阶导数波高与6-巯基嘌呤溶
山东耐火材料厂所用的硬质粘土性脆,极易风化。因此在采装和贮运过程中,产生大量20毫米以下的粉矿,约占采矿总量的30%左右。这种粉矿用竖窑无法煅烧,虽然在制矿时用了一部分
<正>用玻璃纸做隔膜的电解食盐水装置,可见度高,制作简单,材料易得演出效果好。装置见说明: 1.容器系用250毫升集气瓶截去瓶底制成。 2.隔膜系用玻璃纸制成信封状的小口袋套
本文通过解释并确定公差等级和精度等级的含义,总结出了二者的区别及应用的不同。