论文部分内容阅读
随着互联网的发展,电子商务或者在线团购网站平台上的在线评论呈指数级增长。在线评论中因含有关于商品、商家的质量服务等重要信息,对于潜在客户的购买决策以及商家经营活动的改善具有重要的参考价值。因此在线评论挖掘具有广泛的应用前景,其研究对于社交文本、短文本的挖掘也具有重要的指导意义。为了解决在线评论的信息过载问题,提高对海量评论知识的利用效率,首先考虑在线评论的检索问题。根据用户提供的商品属性查询词,利用信息检索方法帮助用户找到最相关的商品评论。然而,在线评论格式自由,表达不规范,评论中用户对于商品属性的情感态度也与商品属性有关。传统的研究方法忽略了评论文本中词的联系,没有考虑评论者情感的针对性,因此需要提出新的方法。另外,为了更好利用在线评论中的用户意见,捕捉其对于商家访问量的影响,通过在线评论的异常检测获取商家访问量变化的解释。然而,单个用户评论往往足不全面的,用户需要综合多个评论才能获得对于评价主体较为准确的判断。不同的评论内容其背后动机也可能存在关联。现有的研究工作缺乏对所有评论的综合分析,因此需要结合应用提出针对性的方法,并且需要结合其他数据。本文提出了一个结合查询词距离的在线评论检索模型,将查询词距离嵌入到语言模型的词频估计框架中。针对用户对于不同商品属性的态度,设计了几种利用成对查询词距离计算不同条件概率的策略,并且在商品层面对评论意见进行整合。另外,结合商家的用户访问量数据,建立商家访问量异常模型。通过对访问量异常条件下的在线评论建立模型,获取异常条件下的词特征分布。最后,研究了访问量异常之间的相关性,利用多任务学习方法对不同访问量异常的词特征分布同时进行学习。最后,在某公开数据集以及北京某商场数据集上分别验证了本文工作的有效性。