论文部分内容阅读
互联网作为一种重要的传播媒介,在带来发布、传递和获取信息自由便利的同时,各种危及社会稳定、涉及国家重大利益等内容的信息所引发的问题也日益突现。传统的网络监管方式已无法适应不断发展内容安全需求。互联网监管部门在对网络数据进行分析,检索过程大多只关注结构化文本数据。但互联网上绝大部分数据是非结构化数据,从而造成了对这类数据监管能力受到极大限制,特别是在发现和跟踪日益严重网络黑客的各类攻击行为上,缺乏完善的系统进行网络数据的分析和处理。为解决非结构化文本数据分析中关键词设定及数据库索引方面的不足,本文围绕上述网络内容安全的数据分析技术展开研究,主要工作有:(1)在深入研究了网络数据安全分析的相关技术基础上,针对非结构化数据关键字匹配问题,提出一个改进的KMP算法。通过算法理论分析和检验,改进后的算法、比较次数约为KMP算法60%。(2)根据非结构化文本数据的特点,设计了一套非结构文本数据分析检索系统。该系统采用分布式技术,是在Windows平台上建立了一套以任务分发服务器为中心,运算终端为任务处理单元,带有反馈和容错机制的分布式非结构化文本数据安全分析系统。(3)给出了文中设计系统的各个功能部件的详细设计,完成了系统实现,并对系统的整体功能、运算速度以及各模块故障进行了测试。测试表明,系统在设置有效的模式串规则后,能够正常的检测出可疑数据,达到了预期的设计目标。同时,进行了针对性的系统仿真实验,结果表明在部分模块出错的情况下系统运行稳定,能满足在实际工作中的需求。本文的研究工作不仅为我们今后在网络内容安全领域中的研究工作提供了可靠的理论、技术依据,而且具有较好的工程应用价值。