论文部分内容阅读
商品评论是人们在网络购物或消费时参考的重要资源,很多情况下极大影响了消费者的选择。由于有利可图,一些商家会雇用专业写手为自己的商品刷虚假好评或给竞争对手的商品以虚假差评,对网络商务生态的健康发展造成了一定的不良影响。而研究表明,普通人对于这种虚假评论的识别水平是比较低的。为了自动有效地识别这些欺骗性垃圾信息,一些学者采用了机器学习的方法进行研究,并取得了一定成果。深度学习(Deep learning)是2006年Geoffrey E. Hinton最先提出的一种先进的机器学习理念,最初应用在人工神经网络。它模拟人类大脑处理信息时的分层结构,将传统神经网络的层数加深(最深可达十几层),并采用了多种预训练的方法获得网络的初始参数,避免了采用随机值时由于参数过多等原因而导致算法发散。深度学习理念提出以来,在语音识别、图像识别等领域取得了巨大的成功,将很多领域的研究水平提升到了一个新的层次,成为时下机器学习领域的一大研究热点。本文在Myle Ott等人2011年至2013年采集的酒店虚假评论标准数据集的基础上,首次尝试采用深度学习算法识别欺骗性垃圾信息。首先对该数据集进行特征提取并根据信息增益的原则进行特征选择;然后在好评数据集上,采用普通神经网络、DBN-DNN网络、LBP网络等三种算法进行识别,在差评数据集上,使用普通神经网络算法识别,并与前人工作进行对比,其中LBP算法由本文独立实现;最后在好评与差评的混合数据集上使用神经网络算法进行识别,并在最优结果的基础上,得出一些关于欺骗性垃圾信息的观察结论。实验结果表明,深度学习在文本处理问题上也有着较为优异的表现,其在虚假评论数据集上最高取得了92.5%的准确率,优于SVM(准确率为89.6%)等传统机器学习方法;而虚假好评和虚假差评的准确率对比显示,机器可能更善于识别虚假差评。