论文部分内容阅读
国际互联网已发展为:网站越来越多,网民越来越多,网民既能接收信息,更能方便地发布信息,网速也不断提高。因此,在这自媒体时代,各种言论都容易通过网络发表和传播,网民间的交互和相互影响越来越明显,非法言论(如黄赌毒、恐怖、暴力血腥信息)很可能引起不良的连锁反应,对国家安全、社会稳定和网络环境的健康形成严重威胁,造成巨大的负面影响。因此,非常有必要针对网页的信息进行审查。这是信息安全中一个非常重要的组成部分——内容安全。论文分析了各国在网络审查方面的法律法规和政策,指出每个国家都在网络信息方面有明确的法律规定,对互联网上的色情、恐怖、暴力和赌博等有严格的审查制度和严厉的处罚措施。在技术上,针对文字、图片和视频的过滤屏蔽技术也一直在进行研究和开发,并逐步应用于实际中。本课题设计和开发了基于浏览器/服务器模式的网站信息审查系统,按照软件工程要求,完成了从需求分析、系统总体设计、详细设计到编程实现各阶段工作,实现了对指定网站信息进行审查,并跟踪处理的功能。系统包括:1)用户权限管理:系统主要有两种角色,即系统管理员和审查员。角色权限由系统管理员进行配置管理。系统管理员主要管理整个系统的使用部门、角色与权限,用户维护,日志查询与删除等。审查员是系统的主要用户,借助于系统完成审查业务或职能工作,具体权限有敏感词设置、信息源设置、搜索信息查询、审查项标记、审查跟踪处理等。权限体现为每个菜单项。每种角色定义相应的权限,通过用户承担的角色赋予用户的操作权限。此外,针对每个具体用户,还可以屏蔽或增加特定权限;2)审查网站设置:系统利用爬虫技术采集需审查的网站数据。网站的首页或主页是爬虫搜索的起始地址。通过该起始地址,爬虫采用一定的搜索策略遍历整个网站;3)审查敏感词设置:系统检查网页有无不允许或不适当的文字。如果仅仅是出现关键词或敏感词就列入嫌疑网页将会有大量虚警网页,导致审查员过多的工作量。因此,系统设计为采用敏感词组合来筛选网页。这种组合是多个敏感词通过“和”、“与”、“非”的关系建立的条件表达式,称之为专题;4)网页数据采集:采用爬虫技术采集网页,并通过敏感词条件表达式进行过滤确定其是否存入数据库以进一步采用人工排查。为提高采集效率,采用元搜索与专用爬虫相结合的方式采集数据;5)全文倒排索引:为了查询方便快捷,对采集到的网页建立全文索引。除了可以依据敏感词检索外,还可以依据任意词进行检索,方便审计员查询网页信息;6)查询功能:系统有单独的页面提供最新采集到的网页信息列表,也提供了多条件的高级检索页面,可以按敏感词、时间或专题进行检索。通过检索和查询得到采集的信息,经过人工排查就可以标记需要审查处理的网页;7)审查信息标记与审查信息处理跟踪:系统采集到的网页人工判断后,确定需要审查的网页就加上审查项标记,并记录对该网页的处理过程和状态,包括通知网管、修改或删除网页等;8)系统管理:系统管理包括用户口令设置和修改、日志查看、过期数据删除等。系统针对指定网站和指定敏感词进行信息审查,适用于网站维护人员和相关管理职能部门。