论文部分内容阅读
随着互联网的快速发展以及人们生活水平的不断提高,互联网已经从单一的门户型网站发展成为具有用户交互性的开放共享型网络,简称Web2.0。Web2.0的发展,使人真正成为了互联网世界中的主体,面对个人需求进行信息服务的定制成为现如今的互联网的研究发展方向。基于Web服务应用,更加方便用户的使用,同时开发的便携性使得应用设计者能更加快速完成功能。Web 2.0的盛行,让高价值的用户信息在网络上不断累积起来,用户以根据各自的使用动机在网络平台上形成大量的用户群体。巨大的用户群中,存在着潜在的商机,成为各类组织机构和研究者所关注的对象。与此同时,大量的不法分子也充斥其中,破坏网络环境,影响互联网的健康。其中,部分恶意用户通过发布虚假意见和垃圾信息,在网络中进行传播,从而影响用户在网络中对正确信息的判断能力,改变网络产品的正常运营。在电商环境中,大量虚假评论影响着用户的对产品的正确判断,也影响着用户在网络中的产品购买体验。面对复杂的网络环境,开发设计一个虚假评价信息服务平台,以Web服务的方式为开发者提供简洁透明的开发接口,降低了应用开发者在对虚假评价实际算法的研究成本,同时有效促进了该研究领域的发展实践。本文通过搭建跨平台,跨语言的Web应用程序,使用XML标准进行服务描述及配置,并对外提供评价文本检测的服务接口。实现跨平台的虚假评价检测服务平台,为用户以及开发者提实时系统请求服务。本文首先通过使用网络爬虫工具根据各大电商网站网页结构进行识别,对网站的用户评价数据进行爬取,建立电商评价数据仓库。同时,采用LDA(Latent Dirichlet Allocation)模型对历史评价数据进行文本主题建模。最后通过Web服务形式,提供文本检测外部服务接口,对接入终端的输入数据进行文本识别,检测评价文本虚假度。Web服务平台的实现,更加方便用户的使用,同时开发的便携性使得应用设计者能更加快速完成文本检测识别功能。