基于产品评论的情感分析研究

被引量 : 0次 | 上传用户:wskwugxk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人们越来越容易在网上发表自己的观点和看法。这些观点信息包含对某个实体,事件或服务的情感表达。情感信息的收集和分析对个人,商业组织甚至国家政府都有重要作用。产品评论是指用户在购物站点上对商品或服务的评价信息。它被个人用户和商业组织广泛应用,是最重要的一种情感信息源。本文以产品评论为主,研究了情感分析中的分类,检索,抽取以及情感数据可信度问题。本文的工作内容如下:(1)针对情感分类问题,首先提出了用于情感二分类的Dependency-Sentiment-LDA模型,它在情感分类的时候不仅考虑了情感词所表达的话题语境,而且还考虑了情感词的局部依赖关系。然后进一步探讨了情感多分类问题,提出了一种基于Tensor的评论分值预测方法。它不仅能考虑评论文本表达的情感因素,而且还考虑了不同用户和产品对评论分值的影响。通过Tensor分解技术,可以有效降低模型的复杂度和数据的稀疏问题。(2)针对情感检索问题,提出了两种基于图的检索算法:Opinion-PageRank和Opinion-HITS。它们能有效利用情感词和查询词之间的依赖关系,并且可以考虑答案之间的关系,有效检索数据中对查询词情感表达较集中的部分。(3)针对情感抽取问题,首先将主题词和情感词的抽取任务转化成结构化序列标注问题,提出了基于条件随机场模型的抽取框架。它能考虑单词的类别标签在句子语言学结构的依赖关系,包含顺序结构,连接词结构和句法结构。同时它能有效利用多种特征提高情感抽取的性能。然后,针对人工标注数据集困难的问题,进一步提出了一种领域自适应的主题词和情感词抽取框架。它不要求目标领域有任何标注数据,而是利用相关领域的标注数据来跨领域的辅助目标领域的主题词和情感词抽取。(4)针对情感数据的可信度问题,提出了使用半监督学习算法Co-Training来识别虚假评论。它能有效利用未标注数据集,减少人工标注数据的规模。此外,它将虚假评论识别问题分别从评论本身和评论的作者两个角度分析。实验结果表明从两个角度分析的Co-Training算法在虚假评论识别任务上要优于传统单角度的半监督学习算法。
其他文献
禁止反悔原则是专利侵权判定中的一项重要原则,本文通过分析该原则在美国、日本的发展历程,对该原则的发展变化过程进行了系统的梳理,从整体上透析了这一原则适用的目的和条件。
随着经济的迅速发展和市场需求的日益扩大,使得我国速递业取得了繁荣发展,给民营速递企业的发展带来了机会。但在现有的速递市场环境中,面对外资快递的进入和国有速递企业的双重
外来植物入侵严重威胁着全球生物多样性,对入侵地的自然生态系统结构和功能造成巨大破坏。对于什么样的群落容易遭受入侵和什么样的物种会成为入侵种是入侵生态学的两大核心科
本文结合实际项目和工作研究了基于立体视觉的三维重建关键技术。并且形成了一套三维重建基础软件,可应用于实际的项目工程实践中。立体视觉是机器视觉和计算机视觉领域的一个
随着计算机立体视觉技术的快速发展,人们可以快捷、精确地完成三维景物的重建,在飞机设计和检测方面得到广泛的应用。直升机旋翼的动态三维重建是旋翼桨叶运动参数挥舞、摆振和
航天器在轨运行期间所需电能主要由展开在外的太阳电池翼提供,太阳电池翼安全可靠、高效稳定的工作是航天器顺利完成任务的关键。人们早已关注电池翼在轨热-结构分析研究,但
当前,中学物理实验室虽然配备了“光的反射定律”实验器材,但笔者认为该器材至少存在以下几点不足之处:一是该器材只能探究“光的反射定律”中的两个内容:首先,反射光线、入
两极格局解体冷战结束后的15年间中国在安理会投票中,弃权票次数为46次,弃权票行为是公众比较关心的话题,从而也引发了笔者进行研究的兴趣,在过去的15年间,中国弃权票所要表达的立
SiC颗粒增强铝基复合材料是一种具有高比强度和高比刚度等优异的力学性能,可以应用于航空航天、军事、汽车、电子、体育等领域。但是对于SiC颗粒增强铝基复合材料的基础研究还
预应力混凝土管桩具有桩身强度高、施工速度快、质量易保证、节能环保等优点,近年来在我国城乡建筑各领域得到了广泛的应用,已成为天津市大量使用的桩型。本文总结了国内外有