论文部分内容阅读
随着网络的日益普及,互联网正在成为一种不可或缺的信息传播媒体。与此同时,互联网上信息内容的健康性、安全性问题也日益突出:色情、反动等不良信息在互联网上随意传播,网络犯罪率节节攀升,这些都严重危害着国家的安定和人民的身心健康。此外,垃圾广告、邮件和虚假信息的泛滥,严重干扰着人们的日常工作和生活。因此,对互联网上的信息内容进行必要监管,已经成为政府和管理机构的迫切要求,这对于推动互联网的健康发展,倡导网络文明和社会主义道德风尚,有着积极作用。
在这样的背景下,我们提出了“互联网信息内容监管”这样一个非常具有前瞻性的课题。该课题着眼于通过技术手段和政府职能的相辅相成,试图制定一套与国际接轨,并且符合我国国情的网络信息内容监管体系,为我国的精神文明建设营造一个健康良好的互联网空间。
网络信息的传播具有开放性、广泛性,如何对网络媒体上的信息内容进行监管就显得非常重要,这也是本文研究的主要内容。本文绪论中介绍互联网上存在的信息安全问题和国内外在倡导信息内容安全中采取的各种措施和监督手段,分析对互联网信息进行内容监管的必要性。在第二章中本文主要研究网络信息的内容监管模式和监管方法,并得出结论:把对信息内容进行监管的平台设置在代理服务器上,无论是从监管的可能性、有效性还是不增加Web服务器额外负担的角度来看,都是一个比较好的选择。在这样的信息网关上,我们可以采用不同的监管方法对信息内容进行审查和规则匹配,从而过滤不良或垃圾信息,达到净化网络空间的目的。
围绕元数据标记法,本文在第三章中将详细介绍元数据的概念、网络信息元数据的选择和RDF元数据标记的设计思路。结合当前元数据和相关技术的发展趋势,我们提出了采用基于XML的RDF元数据标记来标识网络信息的方法,它采纳了DoubleCore和PICS等国际公认的元数据集,利用资源描述框架的名字空间来集成各种元数据,从而实现对网络信息内容的描述。
无论是从监管的手段还是从实现的效果来说,信息内容的自动提取法都应该是最佳的,它不要求对网络信息进行额外标记,还可以有效地防止内容运营商的欺骗行为。然而,该方法涉及到自然语言理解、数据挖掘、专家系统等多种前沿学科,目前还不存在最佳解决方案,仍处在探索阶段。本文根据课题研究的需要,立足于研究Web文本信息内容的自动提取,在收集、整理相关理论研究的基础上,本文在第四章中详细介绍了各种文本处理技术和自动分类模型、评价指标;在第五章中介绍了Web文本的信息特点和相关处理技术;然后在第六章中提出了一种基于统计的多层次Web文本自动主题分类法和它的具体实现思路,并且通过实验来验证这一方法的可行性。该方法从真实语料中获取特征词集,并利用文本类别之间的层次结构,大大降低特征词矢量空间的维数,提高了自动分类的实时性、有效性。