基于POS规则匹配的电子商务网站用户评价信息的分析

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:liongliong485
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着电子商务的发展和网站用户数量的增长,用户评价信息进入爆炸性增长阶段。电子商务网站的用户评价信息一方面是潜在用户做出购买决策前的重要依据,另一方面也是厂商进行产品改良的重要参考。而对于规模庞大的用户评价信息,仅以人工阅读的方式很难从中获取有价值的信息。因此,对电子商务网站的用户评价信息进行自动处理并产生有效的结果,具有重要的应用价值和研究价值。用户评价信息分析包括从用户评论中挖掘特征词、挖掘观点词、倾向性分析等方面。目前研究者们已经提出了不少有用的用户评价分析方法,但在特征观点对识别方面仍存在特征词与观点词的搭配关系不准确、未考虑隐式特征观点对的特征词预测等问题,在倾向性分析方面情感词典的构建及极性判断规则的设计还需继续完善。本文的工作主要包括以下三个方面:(1)利用POS规则匹配的方法从用户评价文本中提取特征观点对。首先从大量训练评论文本中使用扩展匹配的方法挑选有效POS规则,然后利用有效POS规则在测试评论文本中提取特征观点对,并给出三种修剪方法来删除无效的特征观点对。(2)基于TF-IDF方法来预测隐式特征观点对的潜在特征词。缺省特征词的观点句普遍存在于用户评论中,而现有的研究集中于显式特征词的提取,本文以完整的特征观点对集合为基础,尝试使用TF-IDF的方法为隐式特征观点对预测可能的特征词。(3)基于扩展的情感词典来对评价单元进行倾向性分析。通过对中文评价信息进行分析,发现除否定词外,部分副词、带极性的特征词都会对相对情感词的极性产生影响,综合考虑上述因素,制定了一些极性判断规则,并通过添加网络词、领域词来扩充情感词典,基于扩展的情感词典及极性判断规则进行倾向性分析。本文以手机产品的用户评论为测试数据,首先抽取有效POS规则集合,然后使用本文设计的方法进行了特征观点对抽取和倾向性分析的实验。实验结果表明本文提出的方法是可行有效的。
其他文献
Ad Hoc网络是指由一组带有无线通信收发装置的移动节点组成的一个多跳、自组织、无中心网络,它作为一种新型多跳自组织网络逐渐成为研究的热点。无线自组网快速灵活的特性给网
绿潮(Enteromorpha prolifera)是在某些特定的环境条件下,海水中某些大型绿藻(如浒苔)爆发性增殖,从而导致大面积海域被覆盖的海洋生态现象。浒苔是黄海海域绿潮构成种的主要种类
医学图像分割技术是医学图像处理与分析领域的重要课题之一,也是近年来备受研究人员关注的热点问题。医学图像分割的目的是把图像中具有特殊含义的不同区域分割开来,并使分割结
教学网站是为了辅助教学活动而建立的一个教学平台,它构建于传统的Web应用基础之上。AJAX作为Web技术发展到一定程度的产物,能够比较好的帮助原有教学网站系统提升功能和性能。
动态自然景物,例如云、烟、火、雨、雪等,传统的造型方法很难描述它们的形状和运动,难以得到具有真实感的模拟。因此,模糊对象的模拟一直以来都是计算机图形学领域研究的热点
我国具有绵长的海岸线,横跨众多气候带,是全球中受到风暴潮灾害影响最为频繁、最为严重的国家之一。据统计,90年代以来由风暴潮引起的经济财产损失达到了2500亿元,是全部海洋灾害
21世纪以来,组合音频、视频和数据流的多媒体网络应用的开发和研究迅速增加。Internet上的流媒体应用得到了迅猛的发展,另外“三网合一”在互联网络上开展数字电视工作也是电
运用计算系统虚拟化技术,服务器上可以同时运行多个虚拟机,在所有虚拟机都执行计算任务的情况下,有可能产生资源争用的情况,增加了程序的执行时间,与此同时,有些服务器处于负
在数据同化的主要应用领域——数值天气预报中,随着观测技术的突飞猛进和各种观测设备的应用研究,区域和全球观测数据呈现大规模的增长,不同设备和观测地点造成的误差以及大
在计算机语言类相关考试中,编程题的自动阅卷技术是一项非常具有实用价值的应用,也是实现计算机在线考试以及全自动阅卷的一个关键技术。由于程序实现同一功能的代码具有多样化