论文部分内容阅读
随着Internet的迅速发展,Web信息已经成为人们生活和工作中重要的信息来源。然而Web信息的滥用也成为互联网领域的一大难题,比如,不法分子通过BBS、专栏、电子邮件等进行反动宣传、诈骗、恐怖威胁、传播色情、病毒等网络犯罪现象日益严重;远程教育中,抄袭作业的现象为教学管理带来了严峻的挑战。这就需要找出这些Web信息的发布源并予以处置。然而这些Web信息的发布者总是试图隐藏其真实身份以逃避侦察,所以通过发布信息者的名称、IP地址、邮件头等信息找出Web信息发布源是一件很困难的事情。如何同一认定Web信息发布源已经成为当前亟需解决的问题。在Web信息发布源同一认定的研究中,Web信息内容及其特征提取是作者身份识别过程中的基础问题。因为任何算法和技术都是以特征为基础来进行分类或判断的,特征提取的正确与否、质量高低直接影响到分类识别的精度。而内容提取的准确与否在一定程度上也影响了特征提取的效率。所以本文的研究目的就是以中文Web信息文本为研究对象,分析研究Web信息的内容及其特征提取方法,为Web信息发布源同一认定的研究奠定基础,最终达到识别Web信息作者真实身份的目的,为计算机取证提供依据,追究Web信息作者的责任,具有重要的应用价值和现实意义。迄今为止,大部分相关研究主要集中在文本分类,但是由于Web信息文本与普通文本在形式和语言表达及文本篇幅长短上的差异,文本分类的特征不太适合Web信息特征的选择。国外针对作者同一认定的研究已有初步的研究成果报道,但是由于中文和外文的差异,其理论和方法对于中文Web信息不太适合。国内针对中文电子邮件作者的身份特征研究已有开展,但是邮件的特征还不能完全应用于其它类型的Web信息,并且针对各类形式Web信息特征的提取,还没有一个统一的解决方案。所以在这一领域还存在许多需要解决的问题。本文首先对Web信息发布源同一认定研究领域的国内外研究现状进行了论述,探讨了现有的研究技术和方法;在详细分析Web信息格式及内容的基础上,根据HTML页面与电子邮件在格式结构上的差异,分别探讨了HTML页面和电子邮件的内容提取技术。对Web页面主题文本的提取,邮件信息提取,邮件内容解码等方法进行了研究;给出了利用结点主题相关性判定Web页面主题内容的方法,以及过滤邮件中回复行和广告行内容的方法。针对中文Web信息,在分析和比较了Web信息文本与普通文本区别的基础上,借鉴已有研究成果,给出了可用于中文Web信息的特征模型,详细地分析了中文Web信息作者的写作特征,包括语言特征、词汇特征、结构特征以及格式特征等,并对各类特征的提取方法进行了研究;针对语言特征中潜在特征词的提取问题,给出了利用关联规则提取文本中的潜在特征词的方法,在一定程度上克服了分词程序的缺陷;在文本分类知识的基础上,借鉴已有研究成果,给出了中文Web信息特征表示方法、特征选择方法和特征权重的计算模型,明确各项特征在Web信息发布源同一认定中的重要性以及相互关系。为了验证所给出的模型和方法的正确性和可行性,本研究对HTML页面内容提取,电子邮件内容提取,以及web信息特征提取方法进行了实验。实验结果初步验证了本研究所给出的算法和方法的可行性,从而为后续的研究工作奠定了基础。