网页信息审查系统设计与实现

被引量 : 0次 | 上传用户：xxak48

【摘要】

：

国际互联网已发展为：网站越来越多，网民越来越多，网民既能接收信息，更能方便地发布信息，网速也不断提高。因此，在这自媒体时代，各种言论都容易通过网络发表和传播，网民间的交互和相互

【作者】

：

王旭宇

【发表日期】

：

2013年01期

【关键词】

：

网站信息审查浏览器/服务器模式爬虫元搜索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

国际互联网已发展为：网站越来越多，网民越来越多，网民既能接收信息，更能方便地发布信息，网速也不断提高。因此，在这自媒体时代，各种言论都容易通过网络发表和传播，网民间的交互和相互影响越来越明显，非法言论（如黄赌毒、恐怖、暴力血腥信息）很可能引起不良的连锁反应，对国家安全、社会稳定和网络环境的健康形成严重威胁，造成巨大的负面影响。因此，非常有必要针对网页的信息进行审查。这是信息安全中一个非常重要的组成部分——内容安全。论文分析了各国在网络审查方面的法律法规和政策，指出每个国家都在网络信息方面有明确的法律规定，对互联网上的色情、恐怖、暴力和赌博等有严格的审查制度和严厉的处罚措施。在技术上，针对文字、图片和视频的过滤屏蔽技术也一直在进行研究和开发，并逐步应用于实际中。本课题设计和开发了基于浏览器/服务器模式的网站信息审查系统，按照软件工程要求，完成了从需求分析、系统总体设计、详细设计到编程实现各阶段工作，实现了对指定网站信息进行审查，并跟踪处理的功能。系统包括：1）用户权限管理：系统主要有两种角色，即系统管理员和审查员。角色权限由系统管理员进行配置管理。系统管理员主要管理整个系统的使用部门、角色与权限，用户维护，日志查询与删除等。审查员是系统的主要用户，借助于系统完成审查业务或职能工作，具体权限有敏感词设置、信息源设置、搜索信息查询、审查项标记、审查跟踪处理等。权限体现为每个菜单项。每种角色定义相应的权限，通过用户承担的角色赋予用户的操作权限。此外，针对每个具体用户，还可以屏蔽或增加特定权限；2）审查网站设置：系统利用爬虫技术采集需审查的网站数据。网站的首页或主页是爬虫搜索的起始地址。通过该起始地址，爬虫采用一定的搜索策略遍历整个网站；3）审查敏感词设置：系统检查网页有无不允许或不适当的文字。如果仅仅是出现关键词或敏感词就列入嫌疑网页将会有大量虚警网页，导致审查员过多的工作量。因此，系统设计为采用敏感词组合来筛选网页。这种组合是多个敏感词通过“和”、“与”、“非”的关系建立的条件表达式，称之为专题；4）网页数据采集：采用爬虫技术采集网页，并通过敏感词条件表达式进行过滤确定其是否存入数据库以进一步采用人工排查。为提高采集效率，采用元搜索与专用爬虫相结合的方式采集数据；5）全文倒排索引：为了查询方便快捷，对采集到的网页建立全文索引。除了可以依据敏感词检索外，还可以依据任意词进行检索，方便审计员查询网页信息；6）查询功能：系统有单独的页面提供最新采集到的网页信息列表，也提供了多条件的高级检索页面，可以按敏感词、时间或专题进行检索。通过检索和查询得到采集的信息，经过人工排查就可以标记需要审查处理的网页；7）审查信息标记与审查信息处理跟踪：系统采集到的网页人工判断后，确定需要审查的网页就加上审查项标记，并记录对该网页的处理过程和状态，包括通知网管、修改或删除网页等；8）系统管理：系统管理包括用户口令设置和修改、日志查看、过期数据删除等。系统针对指定网站和指定敏感词进行信息审查，适用于网站维护人员和相关管理职能部门。

其他文献

HPLC法梯度洗脱测定复方决明子滴眼液中阿魏酸的含量

目的：建立复方决明子滴眼液中阿魏酸的含量测定方法。方法：采用高效液相色谱梯度洗脱法，选用KromasilC18(5μm，4．6×250mm)色谱柱，流动相为乙腈(A)-0．1％冰醋酸(B)(20：80)，采用梯度

期刊

高效液相色谱法复方决明子滴眼液阿魏酸

汉乐府民歌《陌上桑》诗意新解

本文通过对《陌上桑》诗意的重新解读,认为诗歌主旨是"嘲笑和鞭挞了上层人物的荒淫与无耻"的传统观点是错误的;使君并非荒淫无耻,秦罗敷的夸夫之辞其实是民间谜语;通过对第三

期刊

汉乐府夸夫之辞民间谜语

工厂中电气自动化控制技术探讨

伴随着社会的发展,电气自动化控制在多个行业当中的应用均有所普及,并且应用的作用越发重要,尤其是在工业行业以及建筑行业当中,其不仅可以显著提升工厂施工效率及适用质量,

期刊

电气自动化控制工厂应用

中国开放式基金风险转移及对绩效的影响研究

证券投资基金是证券市场发展的必然产物,在发达国家已有上百年的历史,在中国也发展了二十多年。回顾证券投资基金在我国二十多年的发展历史,它大致经历了三个阶段：早期探索阶

学位

风险转移开放式基金绩效评价Carhart四因子模型

高效液相色谱法测定降压袋泡茶中大黄酚的含量

目的建立降压袋泡茶中大黄酚的含量测定方法.方法采用高效液相色谱法,色谱柱为Lichrospher ODS柱(4.6×250mm,5μm)分析柱,流动相为甲醇-水(88:12),检测波长为254nm,流速

期刊

降压袋泡茶大黄酚高效液相色谱法

印刷体表格识别的研究

在日常的商业活动中，我们每天都运用了大量的文档和表格。同时表格文档也广泛地应用于各个领域，通常人们需要手动处理表格文档，例如客户需要缴纳赋税，图书管理员需要采集纸质表格

学位

二值化表格线OCR表格识别

中药外敷治疗痛经效应的临床研究

目的：以临床研究为主,从中医中药入手对外敷治疗痛经的临床效应进行评价,探索出一种安全、有效、便捷的外治方法,提高痛经的治愈率,发挥中医中药治疗痛经的特色和优势。方法：60

学位

中药外敷法痛经前列腺素临床疗效

DW100高速电机零件三维参数化设计系统开发

现代高速电机的特点是转速高，传动效率高，动态响应快。主要应用于航空航天、高速离心机、快速制冷、高压泵和风机、精密机床及许多高速旋转机械中。发展新产品的快速设计和制造

学位

高速电机零件三维参数化设计系统开发

资源城市煤炭物流绿色化研究

煤炭是我国重要的基础能源,近年来在我国一次能源消费结构中一直占据着七成左右的比例,战略意义重大。煤炭资源城市功能单一和产业结构弊端日渐凸显,资源城市的转型发展迫在

学位

煤炭绿色物流评价指标绿色度

长沙银行利率风险管理研究

由于我国长期来的利率管制,利率市场化使得利率波动更频繁且难预测,由此商业银行面临着严峻的利率风险,如果不加防范,商业银行将可能遭遇损失。基于此,本文以长沙银行为研究

学位

长沙银行利率风险敏感性缺口模型持续期模型压力测试

网页信息审查系统设计与实现

其他学术论文