基于内容分析的信息安全过滤技术研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:kn4281
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的开放性和日益增长的规模,使其成为人们自由交流信息的便捷手段。但同时这种开放性也使网络中存在着很大的负面效应,如各种迷信、色情、暴力、反动和其他非法信息的传播,或者内部网中机密信息的泄漏等,都已成为了人们日益关注的焦点问题。而传统的过滤技术,如基于关键字,或基于IP地址的过滤等,现已不能很有效的解决这些问题。 在这种需求下,本文针对文本内容的分析过滤技术进行了研究,希望能对网络信息内容进行分析,达到对网络信息的安全过滤。目前基于内容的分析方法常用的是基于统计和知识或两者相结合的方法。本文对这些方法做了初步的研究后,提出了一种基于文本内容的过滤算法。首先根据用户的过滤需求,从用户预先收集的训练样本中提取出信息特征过滤模型作为匹配模板,再根据待测文本与信息特征过滤模型的匹配情况来判定待测文本是否满足用户过滤需求。在该算法中我们综合考虑了文本的统计特性和知识特性两方面因素,借助向量空间模型的思想,将文本表示为向量空间的形式,并在此基础上,结合词的属性特征来分析文本的整体特征。同时,由于基于统计的文本过滤技术忽略了文本中的语义约束,不能真正达到对文本的智能分析而获得较好的过滤效果,所以我们在该算法中还引入了局部语义分析,不仅从整体特征还从局部特征对文本进行分析,从统计特性和知识特性两个角度实现对文本的分析过滤,经初步测试获得了对特定信息的安全过滤的较好效果。 初步的测试表明,文中所提出的算法能够实现对文本中的假匹配等现象的识别,从对文本内容的分析达到对文本的安全过滤,获得了较好的效果。但要对文本进行内容分析,使过滤智能化,是一个复杂漫长的过程,我们提出的算法只是一个开端,其中还存在着很多需要改善和可以改进的问题,如:分词的准确率的改善、文本的特征表示对文本内容表达的准确度的改善等,以及在满足网络信息安全过滤的实时性要求的前提下,还可以引入更多的语义分析来提高过滤的准确
其他文献
网络编码是一种新型的数据传输方式。通过将不同数据流中的分组进行代数组合操作后再转发出去,网络编码能够显著地提高网络吞吐量。由于无线Mesh网络物理层与生俱来的广播特性
随着无线通信技术的飞速发展,人们对随时随地进行信息访问、计算和通信的需求与日俱增。IEEE 802.16系列标准可以很好的满足这些需求并成为近年来研究的热点。在社会发展、世
分布式无线通信系统是未来无线接入的一种新方式,它通过在小区内的不同位置布上天线,来降低系统干扰,同时引入多天线通信技术,来扩大宏分集增益,从而大幅度的提高了系统性能,它具有
问答系统(QA)是允许用户输入一个自然语言形式的提问,通过检索,得到能够回答该问句的比较简短而准确的一个句子、摘要或者一个词。文本文档的问答系统研究已经取得了一定的进
本文是以海上军事情报侦察为背景,研究静止图像压缩传输的信源编码问题。由于海面上风高浪急船体不稳,给点对点的微波通信造成困难,而超短波通信也存在传输距离有限的缺点。这样
如何通过GPRS无线网络进行通信,将GPRS无线通信引入到实际的数据采集系统中,成为一个具有广阔应用前景的研究方向。针对这个问题,我们研制开发嵌入设备的GPRS接入技术。
目前,我国已经搭建了世界上最大的纯IPv6网络——CERNET2,并与北美、欧洲、亚太等地的国际下一代互联网实现了互连。CERNET2可为全国100余所著名高校提供IPv6高速接入,为CNGI6个
本文针对大范围数据采集的应用需求,提出了一种分群多跳的无线传感器网络协议框架DMCH(Directed Multihop Clustering Hierarchy),并通过自主开发的无线传感器网络仿真平台,对该