公共网络舆情监测与信息处理平台开发探讨

来源 :科学与技术 | 被引量 : 0次 | 上传用户:dande
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:由于各种事件的刺激而产生,并且通过互联网传播的人们对于各种事件的所有认知、态度、情感和行为倾向的合集,称为网络舆情。随着信息和网络技术的发展,人们可以自由地在网络新媒体中发表关于社会中各种现象和问题的态度与意见等,以论坛、微博、博客等为载体的网络新媒体已日益成为舆论传播和热点聚集的重要源头,舆论热点的多发、突发、频发也已成为常态。为了加强公共部门网络的管理,开展公共部门舆情信息的监测与分析,已经成为目前亟需解决的现实问题。公共部门舆情监测分析系统可以实现针对公共部门网络海量舆情的实时监测分析,有效地解决以传统的人工方式进行舆情监测的很多难题。
  关键词:公共部门网络;舆情监测;分布式;网络爬虫
  1.引言
  公共部门网络上,网络舆论主要是从新闻回帖、网络论坛、博客、网民聊天室等反映来的。网络论坛是这其中最主要的平台,公共部门网络中也已经形成了一批著名论坛。论坛议题涉及到政府建设建设的各个方面,其中既有一些合理化的积极建议,还有是对公共部门不正常现象的披露,另有一小部分是发泄对现状的不满情绪。研发从海量公共部门网络信息中及时准确地发现和搜集到工作需要的舆情信息的监测系统,可为政府部门提供了解百姓诉求的便捷渠道,可有效化解公共部门“网络暴力”,有利于社会稳定。
  2.网络舆情采集技术研究与实现
  利用搜索技术自动地在网络上采集信息,将节约大量的人力物力成文,大大提高舆情监测的工作效率和时效。搜索引擎(search engine)是指根据一定策略、运用特定计算机程序从互联网搜集信息,在对信息组织、处理后,为用户提供检索服务,将用户检索相关的信息展现给用户的系统。
  搜索引擎一般由索引器、检索器、搜索器和用户接口组成。搜索器的功能是在网络中漫游,搜集和发现信息;检索器的作用是根据用户的查询在索引库中快速检索,对将要输出的结果排序,进行相关度评价,并能按用户的需求反馈合理信息;索引器的功能是根据搜索器搜到的信息結果,从中抽出索引项,用于生成文档库的索引表以及表示文档;用户接口的功能是接纳用户查询、提供所需要的查询项、显示查询结果等。
  搜索引擎工作流程可分为三部分:爬取网页、处理爬取的网页、提供检索服务。
  (1)爬取网页:每个独立搜索引擎都有自己爬取网页的程序(网络爬虫)。网络爬虫根据网页中的超链接地址,不断地抓取网页。被抓取的网页被称之为网页快照。因为互联网中应用超链接非常广泛,理论上,给爬虫一定范围网页,就能搜集到大部分的网页。
  (2)处理网页:搜索引擎抓取到网页后,还要做大量预处理工作,才能去提供检索服务。其中最重要的就是建立索引文件,提取关键词。其他还包括去除重复网页、判别网页类型、中文分词、计算网页的重要度、分析超链接。
  (3)提供检索服务:户输入关键字进行检索,搜索引擎从索引数据库中找出匹配该关键字的网页;为了用户便于判断,除了网页地址和网页标题外,还会提供一段来自网页的摘要及其他信息。
  通用搜索引擎采用的方式是语义上的搜索,是通过关键字的方式实现的,返回的结果倾向于知识成果,比如新闻,论文,文章等等。大家经常使用的搜索引擎如:谷歌、百度、雅虎等都是通用搜索引擎如今的杰出代表,他们为互联网的发展做出了重大贡献。搜索引擎所提供的网络搜索服务目前是互联网上最重要的网络服务之一,搜索引擎也早已成为人们在网络中的“导游”[5]。
  3.话题追踪技术
  话题追踪的目的就是,事先给出一个或几个关于某话题的新闻报道,找出关于该话题相关的后续报道。它是TDT(话题检测与追踪)技术的重要子任务。它能够在众多的信息资源中,帮助人们节约查阅和浏览新闻的时间,掌握一个话题的来龙去脉。话题追踪的定义是:根据文本的内容,在给定的追踪体系下,自动确定文本关联的主题。用数学方法看,话题追踪将未标明主题的文本映射到已有主题中,是一个映射的过程,因为一篇文本可以同多个主题相关联,该映射可以一一映射,亦可是一对多映射。
  3.1 文本分类技术
  话题追踪的基本思想是,把人工给定的几篇报道作为训练样本,采用一定的追踪公式对训练样本进行计算和学习;当有新报道时,按公式计算报道的分数,根据指定的阈值,当分数大于阈值时,判定新报道属于主题,否则判定报道不属于原主题。我们可以把话题追踪技术看为,加上以下三个约束条件的文本分类技术:
  1、把事先给定的某一主题的相关报道当作训练样本。
  2、当有新的新闻文本产生,对于给定的主题,系统将立即给出一个值(是/否)追踪判定。
  3、在系统假设对其它事件主题不知道的前提下,对某个事件主题进行训练学习。
  文本分类包括了文本表达、选择与训练分类器、分类结果的评价等过程,当中的文本表达又可划分为文本预处理、特征抽取、统计和索引等步骤。
  3.2 常用文本分类算法简介
  文本分类的算法多种多样,下面我们简单介绍几种常见算法:
  Rocchio(中心向量)算法,是出现较早的一种基于统计的文本分类方法,是经典的向量空间模型中反馈学习算法。中心向量算法,首先为每个类建立一个原型向量(类所有样本的平均向量),然后通过计算每一个原型向量与待分类文本向量的距离进行分类。距离可以通过余弦距离、欧氏距离或内积来计算。Rocchio算法的突出优点是学习速度快,计算简单,但效果比较差,因此分类系统采用这种算法较少,Rocchio算法更多的是作为衡量分类系统性能的基准。
  朴素贝叶斯(Naive Bayes)算法[19]是一种基于特征独立性假设建立起来的,简单有效的分类方法;其实质是首先利用贝叶斯条件概率公式,计算在已经知道文本文档特征向量的条件下,该文档属于不同文本类别的后验(条件)概率;最后,依据最大似然原理将该文档归结为具有最大条件概率的那一类;由于该算法假设构成特征向量的各特征相互独立,所以称其为朴素的。   决策树(DT)是一种数据分类技术,它类似流程图的树结构。决策树每个内部节点代表一个属性测试,分枝代表一个测试输出,每个树叶存放一个类标,它的最顶层节点是根节点。在建立决策树时,选择样本划分成不同的类的属性采用属性选择度量方法,一些分枝还能反映训练数据中的离群点或噪声。采用树剪枝可剪去这类分枝,从而提高未知数据分类的准确率。
  4.公共部门网络舆情监测与信息处理平台总体结构
  4.1 分布式结构介绍
  分布式技术是一种基于网络的,与集中式相对应的计算机处理技术[25]。分布式结构,就是将各种应用部署在不同的平台和机器上,這些机器和平台共同工作,相互之间通过网络连在一起,并运行一系列相关功能的结构[26]。采用分布式结构的系统,模糊了服务器和客户端的概念,所有的应用都被转化成对象的概念,任一对象都可通过指定接口去调用其它对象所提供的服务[27];分布式结构可以被看作是一种多层的C/S(客户端/服务器)结构。
  在分布式系统中,对开发和使用者来说,网络和传输的细节是透明的,网络资源可以被看作是庞大、统一的平台;在这种环境下,对其它计算机资源的访问与访问本机上的资源没有差别。由于分布式系统这种在位置、平台和编程语言选择等方面的独立性,所以与集中式系统相比,它在可靠性、可扩展性、经济型、速度等方面都有着显著的优点[28]。
  4.2 分布式结构层次划分
  分布式系统根据不同功能组件形成的层次,可划分为三种模式:
  C/S(客户端/服务器)结构。在这种模式下,客户端是网络的基础,服务器是网络的核心。服务器为客户机提供网络必须的资源,而客户机依靠服务器获得所需要的网络资源。随着互联网的飞速发展,C/S结构也暴露出它的缺点:可扩展性差、对客户端操作系统要求比较严格以及高昂的投资和维护成本。
  2、三层结构。这种结构下,分布式系统被划分成三个逻辑层次:用户界面层、业务逻辑层和数据访问层[29]。
  在这种三层结构下:用户界面层和业务逻辑层之间可以相互访问,业务逻辑层和数据访问层也能相互访问,但用户界面层和数据访问层不能直接访问;表明这种模式各个层次之间的隔离做得更出色。所以三层结构模式在可扩展性、灵活性、健壮性等方面都有很大的提高。
  多层结构分布式系统。就是在三层结构基础上,根据用户需要,再设计出用于指定组件的层次。
  4.3 常用分布式结构
  公共部门网络舆情监测与信息处理平台结构整体包括四个子系统,即网络爬虫子系统(绿色部分)、网页检索子系统(红色部分)、信息处理子系统(蓝色部分)和实时显示子系统(灰色部分)。四个子系统相互关联,形成有机整体。
  网络爬虫根据配置信息捕获指定网站网页信息,将数据存储于数据服务器。数据检索程序对数据服务器信息进行实时检索,获取当前最新捕获网页,将网页URL、本地存储路径、更新时间等信息发送到数据检索程序服务端。服务端接收数据检索信息,对其URL等进行判断,如果为用户所需网页,则将数据检索信息存储于指定文件。信息处理子系统对数据检索信息进行实时扫描,提取网页标题正文,进行编码转换,并进行标题和正文进行分词,将处理结果写入到数据库。实时显示子系统对数据库信息进行统计,并实时显示。
  参考文献
  [1]殷风景.面向网络舆情监控的热点话题发现技术研究[D].长沙:国防科学技术大学.2010
  [2]齐海凤.舆情热点发现与事件跟踪技术研究.哈尔滨[D]:哈尔滨工程大学.2008
  [3]李恒训,张华平.基于主题词的网络热点话题发现[J].第五届全国信息检索学术会议(CCIR2009).上海.2009-11
  (作者单位:郑州市公安局公共信息网络安全监察支队)
其他文献
摘要:气相色谱仪是仪器仪表中常见的仪器,主要由记录系统、检测系统、分离系统、进样系统、载气系统等五个主要部分构成,为了提高气相色谱仪的使用效率,延长其使用壽命以及降低其发生故障而导致结果不准确的概率,对气相色谱仪一定要进行合理仔细的维护保养以达到上述目的。在对气相色谱仪维护和保养的过程中进样、分离、载气这三个系统是这个过程中的关键。本文主要对气相色谱仪的五个主要部分的维护保养要求进行了介绍说明,希
期刊
摘要:伴随着近代我国信息行业的不断发展以及繁荣,电子信息工程技术已经在社会的不同领域当中取得了很大的成就,为人们的生活提供了最为坚实的动力。  关键词:电子信息;现代化技术  引言  随着社会的不断发展,人们的日常生活已经渐渐的离不开网络了,在这当中电子信息起到了十分尤为重要的作用。人们依靠电子信息技术创建的互联网来进行购物,阅读等等。  一、电子信息工程技术简述  1、电子信息工程的概念  对于
期刊
摘要:相比较于局域网网络环境以及单机环境,Web环境信息三维可视化技术在房产测绘上存在不少的技术难点。本文介绍了Web环境信息三维可视化技术在房产测绘中的应用,通过分析其特点以及存在的问题,提出了使该技术在房产测绘中得以实用化的解决措施。  关键词:Web环境;三维可视技术;房产测绘  1引言  Web环境信息三维可视化技术对促进房产测绘三维成果的发布具有重要的作用。房产测绘就是利用测绘的仪器、技
期刊
摘要: 随着建筑企业的发展与人口的日益增多,楼宇建筑的自动化设计作为当前相对先进的设计技术,已经在建筑工程中得到了广泛的运用,在建筑行业,楼宇自动化系统扮演着重要的角色。在楼宇建筑的过程中,还要针对当地人们的需求以及自身条件的限制,对不同的环境使用不同的楼宇建设技巧。针对楼宇自动化系统的设计,需要先对设计方法进行分析、完善,之后才能考虑将楼宇自动化系统直接运用在房屋建设中,从而满足居住者的需求,体
期刊
摘要:通过单片机编写操控程序,再通过手机进行操控,方便快捷,可以减少老人的体力,利用步进电机来实现机械手的自由旋转,以及通过电磁阀操控气缸,来实现机械手在水平方向以及垂直方向的移动和机械手的吸取。  关键词:单片机;手机遥控;搬运机器人;气动  1引言  当前中国正处于一个飞速发展的时期,尤其是经济方面,人们出于对美好生活的向往尤其是对于大城市的向往使得我国城市化进程的加快,进而使农村中的青壮劳动
期刊
摘要:集中供热设施是保障城市群众生活基本质量和水平的基础设施,是提高我国城市现代化进程,提高能源利用效率,提升绿色生活的重要方式。然而,集中供热服务使得从事这个行业的众多企业成为能源消耗的主要行业,这也决定了集中供热行业的运营成本很高。所以说,供热行业做好节能工作是提升市场竞争力,提升经济效益的重要任务。  关键词:城市集中供热系统;节能措施  1城市集中供热的意义  伴随着我国城市化进程的不断加
期刊
摘要:测绘技术在测绘工程中起着非常重要的作用。工程测量水平直接影响整个工程的质量。随着科学技术的飞速发展,我国建筑工程勘察在测绘技术研究方面取得了显著成绩。许多新的测绘技术的出现大大提高了工程测量的水平。有必要不断优化测绘技术,使其在工程测量中发挥重要作用。本文将讨论测绘技术在测绘工程测量中的一些具体应用,以期对相关人员有所帮助和借鉴。  关键词:测绘新技术;测绘工程;测量;应用研究  导言  测
期刊
摘要:抽油机井是通过皮带将电动机产生的能量传递给减速箱的,目前井上所用的皮带型号很多,质量也不尽相同。在油井长期的生产过程中,皮带由于受到疲劳磨损会发生断裂,当皮带发生断裂后,若能及时发现,通过工人加换皮带后恢复油井生产最快也要1个小时,若是夜间发生断皮带,那需要的时间就更长了。如何能够延长皮带的使用寿命,尽量减少皮带更换的次数。本文即针对延长抽油机井皮带使用寿命的综合方法展开了一定的研究和探讨。
期刊
摘要:随着科技的飞速发展,智能手机已成为现代人生活中不可或缺的一部分,手机已不再是简单的通话工具,它已融入到人类社会的很多领域。随着南京地铁的飞速发展,员工数量急剧增加,各岗位人员更迭较快,固定岗位、固定人员、固定班次、固定线路的机制已不适应公司快速发展的节奏。运用移动通信系统的相关软件平台,可解决相关矛盾、问题,提高办公效率及管理水平。  关键词:快速发展;提高效率;管理水平  1移动通信系统的
期刊
摘要:居民小区的用电量非常高,尤其一些高层住宅楼。现阶段,市中心区用户供电方案批复时,由于对负荷特性缺乏了解,只能考虑用户的报装容量。由于用户的报装容量和实际负荷间往往有较大差距,容易造成两方面问题:一是线路利用率低,二是线路重载。开展负荷特性的研究,对解决上述现实问题有着直接的重要意义。  关键词:居民小区;负荷特性;需用系数计算模型  引言  居民住宅用电负荷是一种重要的建筑用电负荷,一般使用
期刊