网络舆情监控系统中主题网络爬虫的研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：wanfan001

【摘要】

：

【作者】

：

李月超等

【出处】

：

电脑知识与技术

【发表日期】

：

2015年2期

【关键词】

：

爬虫舆情网络主题网页链接

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：目前，网络已成反映社会舆情的重要载体。而随着网络舆情的快速发展，其对社会的影响是巨大的，已受到各个部门的重点关注。现阶段，网络舆情的监控系统的分析一般是通过人工方式实现。因为需要实时跟踪与监控的网站数据量比较多，而且模式复杂，人工方式已经难以满足相关要求。因此，应该加强网络舆情监控系统主题网络爬虫功能研究，从而有效满足面向特定范围内的信息采集和监测有关要求。
　　关键词：网络舆情监控系统；主题网络爬虫；信息收集
　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2015）02-0046-02
　　网络舆情主要是利用互联网传播具备的公众性，针对实际生活中一些热点与焦点问题所具备的影响力和倾向性言论以及观点的等，通过社会舆论所表达的一个方式。因为网络舆情拥有传播速度快和影响力大等特点，所以应该创建自动化与现代化网络舆情的监控系统，从而确保网络舆情相关信息的及时、有效采集和分析以及监控等。另外，网络舆情的监控系统一般包含信息采集模块和预处理模块以及分析模块等，其中采集模块作为舆情分析和处理工作的前提，该核心内容就是利用一个或是多个并行采集设备从互联网中有效收集相关网页数据，而采集设备一般称之为网络爬虫或是网络蜘蛛。本文主要对网络爬虫与主题网络爬虫相关处理流程进行了分析，从而针对主题网络爬虫的相应设计模块结构完成优化，实现更为简单与有效的主体网络舆情相关信息采集系统的合理设计，并为网络舆情的采集与分析提供帮助。
　　1 网络舆情监控系统
　　现阶段，国内对于舆情并未形成相对统一的认识，有关教授针对舆情进行了定义，也就是舆情为舆论状况的简称，主要是指在一定社会空间中，人们对于社会事件与社会管理人员产生与持有的社会政治态度。而网络舆情可以有效、直接反映出社会舆情，其还是实现网上相关信息交流的主体，同时人们对于部分突发事件与社会所持有的态度以及发表的言论可能会在一定的时间内对社会造成严重影响，因此一定要及时采用有效对策，针对舆情实施严格监控，从而有效控制与引导事态良性发展。另外，舆情监控一般是利用网页自动选择舆情信息，然后利用文本挖掘等相关技术针对舆情信息完成有效分析与处理，并把处理过户获取的热点信息进行上报与跟踪，科学、合理的舆情监控可以实现舆情信息从被动防堵过度至主动疏导。
　　2 普通网络爬虫与主题网络爬虫分析
　　网络爬虫作为网络舆情监控系统中采集系统的核心与基础，其直接影响着网络舆情数据采集覆盖率与查准率等。依据采集内容和目标的差异，网络爬虫一般分成普通网络爬虫与主题网络爬虫。其中普通网络爬虫主要目标就是大量采集信息页面，在采集的过程中仅仅注重网页采集的数量以及质量，从不深入考虑网页采集相关顺序与被采集页面有关主题。近些年来，网络信息的不断增长，普通网络爬虫面临着严峻的网页规模和更新速度以及个性化等诸多方面的挑战。为了能够有效改进网络爬虫的工作效率，使其可以满足相关人群深层次和面向特定领域的信息要求，一定要充分应用主体网络爬虫。该目标是在大量采集和主体有关的网页基础上，在进行采集的过程中要时刻关注互联网页内容和主体相关度。
　　1）普通网络爬虫分析
　　普通网络爬虫是利用网页间存在的超链接关系有效采集网页，需要创建一个初始化的URL集合，其为一个有序的等待抽取的URL队列，然后从此队列中某一个URL开始，有效提取相应页面中的HTML内容，同时分析与提取在此页面中其他相关的全部超链接，把其分别加入至URL队列里，对之前的URL队列完成更新，然后依据图表中广度或是深度优先选择策略有效访问下一个URL连接，这样依次循环，不断重复上述过程，一直到全部网页都被提取完成或是依据Web爬取方案停止采集位置，该爬取流程图如图1所示。
　　2）主题网络爬虫分析
　　主题网络爬虫主要指有选择性的收集和目标主题存在关联的网页。应该针对主题完成向量表示，依据内容相关度有效计算出相应网页内容与主题的相关度，同时针对链接完成相关度评价，从而决定选择哪种网页。在进行采集时并不需求采集全部的网页，对此主题网络爬虫所需要保存的页面相对较少，能够在很大程度上节约相关硬件与网络资源，并且可以有效满足特定人们对查找特定主题的相关需求。另外，主题爬虫主要是在普通网络爬虫基础上实现相关功能的扩充，主要设置了针对URL与网页主题相关度的评价，主题网络爬虫工作流程如图2所示。
　　3 主题网络爬虫设计研究
　　主题网络爬虫只针对与主题有关的网页完成采集，并不是覆盖全部网页。应该先对主题完成向量表示，依据内容的相关度有效计算出所要访问的页面内容以及主题相关度，同时针对链接完成预测和分析，有效识别相关链接是否与主题有关，最后决定选择相应链接所指向的网页，同时设置提取链接的合理顺序。另外，主题网络爬虫整体运行流程比较复杂，首先要启动爬虫程序，然后输出主题和种子站点，完成主题的向量表示。其次获取网页的HTMT正文内容，并把网页输入至页面相关度的分析模块，有效计算出此页面和主题的相关度，并且把所提取到的相关页面链接和链接锚文本等多种有关信息输入至链接的评价模块中，通过测算相关度超过阀值的链接输入至链接的优先权队列中。然后依据链接选取对策，选取下一个进行访问的链接输入至爬行模块。最后，反复重复上述步骤，一直到满足相关结束条件为止。主题网络爬虫更为关注发现用户需求的信息资源，怎样更多获取和主题存在密切关系的网页，怎样在一定程度上提升采集效率都是主题网络爬虫系统设计的重要内容。另外，主题网络爬虫系统的设计应该以普通爬虫系统作为基础，然后在此基础上进行部分功能的扩充，依据主体网络爬虫相关功能需求与运行流程，设计的系统如图3所示。
　　4 主题网络爬虫关键技术分析
　　主题爬虫比较重视网页相关度，依据相应的网页分析算法有效过滤和主题并无关联的网页，并且保留和主题有关的网页和链接，从而更多的采集和主题有关的网页内容。对此，就应该科学、有效设计主题网络爬虫算法。　　主题向量表示和关键词权值计算方式。主题一般利用一组关键词进行表示，同时主题关键词通常要在种子文档中获取。而种子文档主要由用户所指定的样例文档和种子页面相应文章以及种子页面实现相邻近区域扩展之后产生的文章等构成。另外，种子文档的产生过程比较复杂，增加种子页面所指向的页面，指向种子页面的页面实现种子页面的有效扩展，在扩展至一定条件过后停止，然后将用户输入至样例文档和种子页面文档以及扩展种子文档构成一个种子文档集，最后利用统计词频与逆文档频率（TF-IDF）手段针对种子文档集完成词频统计，同时还要实现权值计算，将权值最高的n个值构成主题关键词集，有效表示所给定的相应任务主题。
　　5 结束语
　　近些年来，主题爬虫技术在信息采集与数据挖掘方面的关键性日益突出，而且主题网络爬虫的研究和分析已经受到人们的高度重视。通过分析与研究普通网络爬虫与主题网络爬虫技术的特点以及处理流程，在满足相关功能要求的前提下，重点分析与研究了主题网络爬虫相关功能模块的设计以及所有模块的具备的作用。另外，还针对主题网络爬虫的相关度计算和主题向量表示进行了分析。但是对于怎样发现更多网页，怎样获取相关度更高的有关页面和提升主题网络爬虫工作效率，依然需要深入研究。
　　参考文献：
　　[1] 宋海洋，刘晓然，钱海俊，等.一种新的主题网络爬虫爬行策略[J].计算机应用与软件，2011，28（11）：264-267.
　　[2] 魏晶晶，杨定达，廖祥文.基于网页内容相似度改进算法的主题网络爬虫[J].计算机与现代化，2011（9）：1-4.
　　[3] 叶昭晖，曾琼，李强.基于搜索引擎的网络舆情监控系统设计与实现[J].广西大学学报：自然科学版，2011，36（10）：302-307.
　　[4] 谢飞，吴信东，胡学钢，等.基于语义联系的新闻网页关键词提取[J].广西师范大学学报：自然科学版，2012，27（1）：145-146.
　　[5] 刘金红，陆余良.主题网络爬虫研究综述[J].计算机应用研究，2010，24（10）：26-29.
　　[6] 何佳，周长胜，石显峰.网络舆情监控系统的实现方法[J].郑州大学学报：理学版，2010，42（3）：82-85.
　　[7] 钱爱兵.基于主题的网络舆情分析模型及其实现[J].现代图书情报技术，2011（4）：51-52.

其他文献

小学第二学段感受语言、积累语言的策略

最近，笔者在几次不同层级课堂教学展示活动中，听了近十节《父亲、树林和鸟》一课的教学。细细梳理之后发现，这些课有的抓住主题句“父亲一生最喜欢树木和歌唱的鸟”，让学生在反复涵咏中感受父亲对树木和鸟的深情;有的以“在树林中，父亲望到了什么，闻到了什么”为主线，让学生展开自读自品;还有的借助课后的判断练习推动学习进程，将关键词句的品读交流穿插其中。　　以上教学案例，异中有同，即主要借助自读自悟的阅读交流方

期刊

语言课文父亲学生句子词语

浅析常熟市基层卫生信息化建设中的若干问题

摘要：在常熟市基层卫生信息化实施过程中发现，基层的条件对实施进度有不容忽视的影响。该文主要从基层的氛围、环境条件、人员素质等方面进行分析研究；通过实践中的应用实例证明，把以上几个方面的因素处理好基本可以保证基层卫生信息化的顺利开展。　　关键词：基层；卫生信息化；氛围；环境条件；人员　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2015）09-0003-02　　基层卫生信

期刊

基层信息化建设人员卫生基础进度

改进型迭代Web挖掘技术在信息门户建设中的应用研究

摘要：高校在进行信息化系统建设时，关注点放在信息门户建设和优化两个方面。运用Web数据挖掘技术，找到用户真正关注、需要的内容，就是系统设计人员所关心的信息门户的优化问题。该文通过引入本地计算思想，将迭代式的数据挖掘算法进行扩展。使用该数据挖掘算法，研究和设计了一种基于此算法的数据挖掘模型，并以某高校信息门户中日志数据为数据源，进行数据准备，以本算法进行热门路径分析和频繁项目集挖掘。根据挖掘结果，进

期刊

信息门户数据挖掘用户系统算法

校园网智能化管理平台研究

摘要：该文以云南农业大学热带作物学院日常网络管理进行分析，分析传统网络管理中存在的问题，研究利于日常网络管理的智能化管理平台，提高工作效率，以便更好的服务师生。　　关键词：校园网；智能化管理平台；云南农业大学热带作物学院　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2016）34-0068-02　　1学院信息化现状及存在的问题　　针对信息化建设，我院校多年来一直重视，目

期刊

拓扑网络服务器视图业务校园

高职校企合作人才培养模式的实践研究

摘要：当前，高等职业教育正面临很大的挑战。校企合作的发展前景直接关系到高职未来的走向。该文通过对校企合作的内涵和发展走向分析，并结合“计算机应用技术”专业的校企合作实际开展情况进行探讨研究。论文认为，校企合作要真正的深度融合，必须要提高企业的参与度，从参与者向主体者转变。　　关键词：校企合作；产学研；工学结合；人才培养模式；计算机应用技术　　中图分类号：G424 文献标识码：A 文章编号：1009

期刊

校企工学企业高职阶段人才培养模式

基于GIS的城市智慧排水管控平台建设及关键技术

摘要：为了提高城市排水设施的数字化、信息化管理和社会服务水平、保障设施的安全稳定运行，提出基于 GIS 的城市智慧排水管控平台的建设，采用积木式结构，组件化设计，整体构架要考虑系统间的无缝连接，为今后系统扩展和集成及愿景目标的实现留有扩充余量，确保系统有一定的先进性、扩充性、容错性、稳健性。该系统综合运用计算机技术、网络技术、GIS技术、GPS技术、移动技术及传感通信等技术，通过网格化、精细化管

期刊

设施管网内涝城市技术系统

《操作系统》课程中进程同步问题的教学方法研究

摘要：操作系統是信息相关专业的重要的核心课程之一。处理机管理部分是操作系统课程中的重中之重，处理机管理主要归结为对进程的管理。而进程同步问题是进程管理中的重要部分。一直以来，进程同步问题都是操作系统教学中的重点和难点。该文针对合作进程的执行顺序类进程同步问题探讨操作系统课程的教学方法，总结教师在教学实践当中的宝贵经验，旨在提高学生对用信号灯机制解决进程同步问题的理解和掌握。　　关键词：操作系统；

期刊

进程信号灯结点操作系统操作是一个

基于ＵＭＬ的面向对象系统分析与设计

摘要：该文描述了面向对象方法的思想及主要的几种设计方法。探讨了基于UML进行面向对象的系统分析及设计思想，提出了一种实用的基于UML的分析设计过程，并论述了UML的应用及基于UML的Rational ROSE面向对象设计过程。　　关键词：面向对象；UML；分析设计；ROSE　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)36-3049-01　　Based on th

期刊

方法面向对象系统模型过程建模

浅析课程资源的开发与利用

摘要：文章分析了黄淮学院《数据库系统原理与应用》课程资源开发中存在的几个问题，分别从人力课程资源、物质课程资源、实训企业数量、课程资源利用率等方面进行了分析和探讨，并对以上问题提出了相关对策和建议。　　关键词：数据库系统原理与应用；人力课程资源；物质课程资源；校企合作；课程资源利用率　　中图分类号：G424 文献标识码：A 文章编号：1009-3044（2015）19-0078-02　　课程资源开

期刊

课程资源项目教师学校资源开发

社保机房安全风险及防范措施

摘要：社保机房的安全问题关系着社保核心数据的安全，与参保人员的切身利益密切相关，论文分析了社保机房面临的安全威胁，并提出了相应的安全防范措施，为社保机房的安全建设提供参考。　　关键词：社保机房；供电安全；信息泄露安全；安全防范　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2015）10-0037-02　　社保机房是放置主服务器和核心网络设备的地方，社保网络中的大部分数据

期刊

机房社保电源设备光伏信息

网络舆情监控系统中主题网络爬虫的研究

与本文相关的学术论文