论文部分内容阅读
随着互联网的发展,人们越来越容易在网上发表自己的观点和看法。这些观点信息包含对某个实体,事件或服务的情感表达。情感信息的收集和分析对个人,商业组织甚至国家政府都有重要作用。产品评论是指用户在购物站点上对商品或服务的评价信息。它被个人用户和商业组织广泛应用,是最重要的一种情感信息源。本文以产品评论为主,研究了情感分析中的分类,检索,抽取以及情感数据可信度问题。本文的工作内容如下:(1)针对情感分类问题,首先提出了用于情感二分类的Dependency-Sentiment-LDA模型,它在情感分类的时候不仅考虑了情感词所表达的话题语境,而且还考虑了情感词的局部依赖关系。然后进一步探讨了情感多分类问题,提出了一种基于Tensor的评论分值预测方法。它不仅能考虑评论文本表达的情感因素,而且还考虑了不同用户和产品对评论分值的影响。通过Tensor分解技术,可以有效降低模型的复杂度和数据的稀疏问题。(2)针对情感检索问题,提出了两种基于图的检索算法:Opinion-PageRank和Opinion-HITS。它们能有效利用情感词和查询词之间的依赖关系,并且可以考虑答案之间的关系,有效检索数据中对查询词情感表达较集中的部分。(3)针对情感抽取问题,首先将主题词和情感词的抽取任务转化成结构化序列标注问题,提出了基于条件随机场模型的抽取框架。它能考虑单词的类别标签在句子语言学结构的依赖关系,包含顺序结构,连接词结构和句法结构。同时它能有效利用多种特征提高情感抽取的性能。然后,针对人工标注数据集困难的问题,进一步提出了一种领域自适应的主题词和情感词抽取框架。它不要求目标领域有任何标注数据,而是利用相关领域的标注数据来跨领域的辅助目标领域的主题词和情感词抽取。(4)针对情感数据的可信度问题,提出了使用半监督学习算法Co-Training来识别虚假评论。它能有效利用未标注数据集,减少人工标注数据的规模。此外,它将虚假评论识别问题分别从评论本身和评论的作者两个角度分析。实验结果表明从两个角度分析的Co-Training算法在虚假评论识别任务上要优于传统单角度的半监督学习算法。