论文部分内容阅读
随着计算机及网络技术发展的日新月异,互联网成为消息传播的重要媒体,然而这种媒体具有直接性、突发性、偏差性、自由性等特点,需要有关部门通过高效的舆情分析系统予以适当的监督和管控。传统的舆情数据挖掘系统处理效率低,实时性差,建设周期长,维护困难,扩展性差且建设维护成本高。对于互联网上具有实时性强、数据维度高、语义不确定等特点的海量舆情数据已不能够满足需求。为此本文提出将云计算与数据挖掘平台结合。文中分析了舆情数据挖掘平台的需求,不仅利用云计算平台理论上无限的扩展能力解决了计算能力不足的制约,并且将整个平台设计为面向服务的模式,引入了SOA的架构来管理云计算平台中的大量基础操作及其相关调用,解决了云计算平台中大量应用管理混乱耦合性高的问题。并通过SOA架构,实现快速、高效、低成本的应对系统功能需求的变更。本系统采用服务注册表与企业服务总线结合的模式进行设计,基于web服务实现SOA更加加强了云计算平台虚拟化和面向服务这两个方面的特性。本文首先比较了现有的分布式数据挖掘平台架构,以及各自的优势,随后吸取各家的长处,提出了基于云计算的舆情数据挖掘平台的设计方案,并从平台的特点及需求、整体方案、舆情数据存储层、舆情挖掘任务调配层、舆情挖掘应用层和SOA应用的方面进行了阐述。系统还设计了舆情挖掘算法植入的插件结构,使得系统更加具有灵活性。用户可以根据自身的需要和系统的权限,上传算法到系统平台。本文设计了一种插件注册查询体系及其与系统对接的接口。使得系统中的舆情挖掘算法以插件的形式动态的进行管理维护。最后,在对系统开发平台分析的基础上,论述了舆情挖掘用户平台和舆情数据挖掘算法接口部分的实现。通过实验数据的分析及用户体验,本系统较传统的舆情挖掘平台有较大改进。