论文部分内容阅读
电子商务的快速发展使得网络购物成为一种时尚,越来越多的用户开始通过互联网了解、购买产品并且发表评论。产品评论是一类蕴含着丰富商业价值的数据,潜在消费者可以通过产品评论了解产品的口碑,从而更加理性的选择和购买产品;而对于产品制造商而言,产品评论则代表了最真实的市场反应,有利于他们做出正确的市场决策。然而,互联网上产品评论的数量非常庞大,并且增长速度非常迅猛,如果靠人工去挖掘和分析是不现实的。因此,我们必须依赖计算机去帮助我们进行自动化的产品评论挖掘与分析。本文分为两大部分。在第一部分中,本文提出了一个中文产品评论挖掘与分析的系统框架;在第二部分中,我们研究了跨领域文本分类算法,并且应用于跨领域产品评论情感分类。中文产品评论挖掘与分析系统可以分为产品评论挖掘、评论情感分析、评论搜索三个大的部分。在产品评论挖掘任务中,系统使用规则挖掘和分类学习相结合的方法,对互联网上的产品评论进行识别和收集。评论情感分析模块对评论的情感倾向性进行分类,把评论分为正面评论和负面评论两类。通过实验,我们发现评论情感分类的领域性非常强,也就是说,一个领域内训练出的情感分类模型往往不能应用于其他领域,所以在情感分类之前,系统首先对产品评论进行了领域分类。评论搜索模块向用户提供了一个搜索平台,通过这个搜索平台,用户查询自己感兴趣的产品,可看到相关评论的具体内容。同时,系统对用户查询的结果进行了产品属性抽取和情感归纳总结,使得可以快速的了解产品的整体口碑以及具体的各个属性的表现情况。传统的分类学习算法要求训练数据与测试数据的词汇分布相同。情感分类问题是领域性非常强的,因此,如果使用传统的文本分类算法,每个产品领域都需要大量的标注数据训练分类模型。然而标注数据获取的代价非常昂贵,所以我们考虑能否使用一个领域中的训练数据,对其他多个领域的产品评论进行情感分类。这个问题就是跨领域产品评论情感分类问题。本文提出了迭代加强的迁移分类算法,用于提高跨领域文本分类的精准度。本文将迭代加强的迁移分类算法与另外两个跨领域文本分类算法一起应用于产品评论跨领域情感分类的问题。通过实验,我们发现,在不同的领域之间,不同的算法有不同的表现,三种跨领域分类算法的表现基本上都好于传统分类算法,而我们提出的迭代加强的迁移分类算法在大多数情况下有着最好的表现。