论文部分内容阅读
互联网的发展极大地促进了信息的交流和沟通,人们可以共享丰富网络信息,在网上找到各种各样形形色色的信息。但同时,色情、暴力、邪教和其它有害信息通过互联网的传播也越来越猖獗,尤其互联网上淫秽色情内容已呈泛滥之势,如何防止不良信息在网上传播,保护网络安全,已成为当今网络安全技术中的一大热门课题。Web内容分析判别过滤是对用户浏览的网页内容进行综合分析判别。基于此项技术可望获得的内容判别准确率更高,又能避免数据库判别方式的弱点,无需经常性地更新数据库。目前对网页内容分析判别过滤的主要问题是在满足一定准确性的条件下如何提高过滤分析的快速性和实用性,这也是网络信息安全领域急待解决的关键技术之一。 基于规则的Web信息过滤技术易于理解,过滤速度快,适合处理大批量的文本过滤。本文提出一种利用粗糙集理论生成规则的Web信息过滤技术。通过对粗糙集理论的深入研究,阐明粗糙集理论是一种适用于不完整和不确定系统的知识发现的数学工具。在此基础上,本文深入研究了连续属性的离散化算法以及基于粗糙集理论的几种属性约简算法。 关于属性的离散化,主要讨论了Na(?)ve Scaler算法、Semi Na(?)ve Scaler算法和逻辑运算与Rough set理论相结合的离散化算法,并对几种离散化算法做了比较。发现针对不同的数据集,需要选用不同的离散化算法,选取不同的算法,会导致后面约简结果产生很大差异。 基于粗糙集理论的属性约简算法研究是本文的重点,文章主要讨论的约简算法包括:基于差别矩阵和逻辑运算的属性约简算法、回溯逻辑差别矩阵约简算法、改进的启发式属性约简算法。讨论了各种算法的优缺点,其中回溯逻辑差别矩阵约简算法和改进的启发式属性约简算法是本人在基本约简算法的基础上提出的改进算法。 将提出的启发式约简算法应用到Web信息过滤技术中是本文的一个创新点。首先提出Web信息过滤系统的粗糙集模型,然后通过属性的离散化处理模块得到