网络舆情监控系统信息存储设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yangmingmind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为保证舆情监控的有效性和高效性,舆情监控系统需实时地获取大量的舆情信息,能高效的存储这些舆情信息并进行海量数据分析。本文中舆情系统数据呈现的特点是数据量大(TB级别)、文件小而多,需分布式存储。虽然分布式存储相关工作在近几十年已经相当的成熟,但考虑到舆情系统信息处理单元小、快速的读写响应和读写的高度并行性需求,需为其开发专有的分布式数据存储。  结合集群文件系统机器间信息传输延迟小的特点和P2P分布式系统数据访问的灵活性,设计了一种类Napster的局域网信息存储系统。该信息存储系统具有高吞吐量、低响应时间和很好的可扩展性,具有一定的容错性和透明性;它将很多舆情系统相关操作集成在存储系统内部,大大降低了网络信息传输,使得整个舆情监控能高效运转。  负载均衡对于集群系统中机器的充分均等使用、降低系统对外响应时间起着关键性作用。存储系统在完成信息存储基本功能的基础上集成了大量舆情相关计算任务,负载均衡需充分考虑存储和计算。本文为提高爬虫写并行性和降低爬虫写响应时间,设计了日频道存储计算敏感划分方法;为提高分布式索引响应时间,设计了索引查询均衡算法。  现有文件系统存取原始页面小文件存在很大缺陷,本文首先对常用压缩算法进行了比较,选择合适的压缩算法对页面数据进行压缩存储;其次设计了一种原始页面大文件存储格式,同时设计了大文件存储相关快照查询树以优化快照读取。这些措施有效地降低了存储节点存取响应时间和磁盘空间占用。
其他文献
非真实感绘制是计算机图形学和图像处理中的新颖的课题,它并不追求生成与照片相同的图像,而是希望通过忽略与图形无关的细节,简化物体的形状,形成新的风格。非真实感绘制更强
在无线传感器网络中,由于传感器网络资源受限、无线通信、多跳传输及环境复杂等特点,很容易导致节点失效,从而影响WSN的性能。因此,需要对网络的健康状态进行监测,以确保网络的正
随着Internet及其应用的迅速发展,网络开始承载越来越多的应用服务,网络行为特征日趋复杂,这给网络规划、网络管理以及服务质量带来了越来越大挑战。IP网络流量建模及预测是
对等网络(Peer to Peer,P2P)近年来被大量应用在网络应用系统中。作为一种新兴的网络计算模式,P2P具有容错能力强、自组织、可扩散性好等优点。P2P模式突破了传统的客户端/服
为了贯彻中央“让群众喝上放心水”的重要精神,促进农村供水现代化管理水平与效率的提高,提供实用供水信息化管理工具,作者受委托参与本课题,进行了某省农村饮水工程信息管理
论文重点对空间数据挖掘(Spatial Data Mining)基础知识、挖掘算法以及挖掘过程中所产生的不确定性进行了深入的探讨和研究。主要内容如下:首先介绍了研究空间数据挖掘的背景
随着经济全球化和信息技术的发展,针对市场机遇,多个企业建立联盟共同承担项目,以实现优势互补,提高企业群体竞争力,从而产生了跨企业项目管理模式。相对于传统项目管理,跨企业项目
移动应用(Mobile Application, APP)市场采用推荐技术将APP推荐给不同的用户,以此帮助用户从海量的APP中发现感兴趣的内容。但是由于APP所处领域的限制,APP推荐存在一系列的
无线传感器网络是一种全分布式系统,大量的传感器节点被随机部署于监控区域。传感器节点间采用无线自组织方式构成网络,其间的相互通信使用的是低功率的无线射频信号即电磁波。
随着Web服务技术的不断发展,网络上可用的Web服务越来越多,但单个Web服务的功能有限,难以满足复杂的应用需求。因此,将多个Web服务进行组合已成为一种趋势。在Web服务合成方