论文部分内容阅读
论坛是方便用户间交流的一个重要媒介,论坛中的用户评论也已经成为企业挖掘用户偏好和发现市场趋势的一个重要信息源。但与此同时,论坛也是企业进行市场营销和诋毁竞争对手的一个隐蔽平台。因此,识别出隐藏在论坛用户中的水军已经成为一个重要且复杂的问题,而若能在消除论坛水军虚假评论的基础上挖掘论坛用户评论中的需求信息则更具实用性和价值性。目前,论坛中虚假评论的数量正在快速增长,而这些虚假评论已经成为论坛用户参考论坛信息和企业获取真实用户反馈的最大障碍。为了更加精确的识别论坛水军,本文开创性的依据论坛水军不同的行为规律将其分类为机器型论坛水军和营销型论坛水军,并据此构建基于统计方法的五步级联识别模型:机器型论坛水军识别模型(RAS模型)和基于k-Means聚类算法的识别模型:营销型论坛水军识别模型(RMS模型)。在此基础上,本文构建文本挖掘驱动的产品需求信息识别模型用于识别用户评论中的需求信息。为进一步说明论坛水军识别模型和产品需求信息识别模型的有效性,本文采用汽车论坛用户的评论信息进行分析验证。最终的实验结果也证明本文构建的行为驱动的论坛水军识别模型具有很高的识别准确率和召回率,同时结合情感分析和信息增益等方法构建的产品需求信息识别模型也顺利识别出汽车论坛用户评论中所反馈的影响用户满意度的显著产品特征。此外,本文是论坛水军识别领域第一个依据论坛用户不同行为特征分别构建识别模型的研究,具有重要的开创性意义。