Web信息内容及其特征提取方法研究

被引量 : 5次 | 上传用户:jay2722927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,Web信息已经成为人们生活和工作中重要的信息来源。然而Web信息的滥用也成为互联网领域的一大难题,比如,不法分子通过BBS、专栏、电子邮件等进行反动宣传、诈骗、恐怖威胁、传播色情、病毒等网络犯罪现象日益严重;远程教育中,抄袭作业的现象为教学管理带来了严峻的挑战。这就需要找出这些Web信息的发布源并予以处置。然而这些Web信息的发布者总是试图隐藏其真实身份以逃避侦察,所以通过发布信息者的名称、IP地址、邮件头等信息找出Web信息发布源是一件很困难的事情。如何同一认定Web信息发布源已经成为当前亟需解决的问题。在Web信息发布源同一认定的研究中,Web信息内容及其特征提取是作者身份识别过程中的基础问题。因为任何算法和技术都是以特征为基础来进行分类或判断的,特征提取的正确与否、质量高低直接影响到分类识别的精度。而内容提取的准确与否在一定程度上也影响了特征提取的效率。所以本文的研究目的就是以中文Web信息文本为研究对象,分析研究Web信息的内容及其特征提取方法,为Web信息发布源同一认定的研究奠定基础,最终达到识别Web信息作者真实身份的目的,为计算机取证提供依据,追究Web信息作者的责任,具有重要的应用价值和现实意义。迄今为止,大部分相关研究主要集中在文本分类,但是由于Web信息文本与普通文本在形式和语言表达及文本篇幅长短上的差异,文本分类的特征不太适合Web信息特征的选择。国外针对作者同一认定的研究已有初步的研究成果报道,但是由于中文和外文的差异,其理论和方法对于中文Web信息不太适合。国内针对中文电子邮件作者的身份特征研究已有开展,但是邮件的特征还不能完全应用于其它类型的Web信息,并且针对各类形式Web信息特征的提取,还没有一个统一的解决方案。所以在这一领域还存在许多需要解决的问题。本文首先对Web信息发布源同一认定研究领域的国内外研究现状进行了论述,探讨了现有的研究技术和方法;在详细分析Web信息格式及内容的基础上,根据HTML页面与电子邮件在格式结构上的差异,分别探讨了HTML页面和电子邮件的内容提取技术。对Web页面主题文本的提取,邮件信息提取,邮件内容解码等方法进行了研究;给出了利用结点主题相关性判定Web页面主题内容的方法,以及过滤邮件中回复行和广告行内容的方法。针对中文Web信息,在分析和比较了Web信息文本与普通文本区别的基础上,借鉴已有研究成果,给出了可用于中文Web信息的特征模型,详细地分析了中文Web信息作者的写作特征,包括语言特征、词汇特征、结构特征以及格式特征等,并对各类特征的提取方法进行了研究;针对语言特征中潜在特征词的提取问题,给出了利用关联规则提取文本中的潜在特征词的方法,在一定程度上克服了分词程序的缺陷;在文本分类知识的基础上,借鉴已有研究成果,给出了中文Web信息特征表示方法、特征选择方法和特征权重的计算模型,明确各项特征在Web信息发布源同一认定中的重要性以及相互关系。为了验证所给出的模型和方法的正确性和可行性,本研究对HTML页面内容提取,电子邮件内容提取,以及web信息特征提取方法进行了实验。实验结果初步验证了本研究所给出的算法和方法的可行性,从而为后续的研究工作奠定了基础。
其他文献
基于数字图像处理技术的车牌识别系统主要是由图像预处理、车牌定位、字符分割和字符识别四大核心技术构成,它在智能交通领域中有着广泛的应用,同时也是计算机视觉、图像处理
P2P业务不断增加,造成了网络带宽的巨大消耗,甚至引起网络拥塞,降低其它业务的性能,成为杀手级宽带互联网应用。因此,实现P2P流量的有效识别已经成为亟待解决的问题。P2P应用使用
随着校园网规模的不断扩大,校园网管理者,既是网络设备管理者,需要对校园网内的网络设备进行管理和维护;又是网络接入服务者,需要为校园网用户提供接入服务;也是网络业务提供
虚拟人作为虚拟现实技术中一个重要研究分支,被广泛用于航天、航空、军事作战与训练、医学、教育等领域的虚拟仿真系统中,具有极其重要的作用。虚拟人运动控制算法理论基础要
在自然语言中,时间是一种重要的语义载体。人们通过了解一个事件的开始、发展和结束的时间信息,把握事件发展的全过程。时间信息识别在信息抽取、问答系统、摘要生成、话题跟
为了适应电子商务的快速发展,越来越多的企业将信息系统转向了SOA架构,Web Service以其开放性、跨平台性、互操作性等优点成为了SOA架构中事实上的技术标准。Web Service通过
指纹识别是一种非常可靠的身份识别方法,指纹识别系统用途广泛,在法庭取证和日常生活中发挥着重要作用,如网络安全、罪犯鉴定、门禁系统和ATM的身份认证等。因此,进行指纹识
制造执行系统(Manufacturing Execution System,MES)是位于上层的计划管理系统(Enterprise Resource Planning,ERP)与底层的工业控制之间的面向车间生产的管理信息系统。它能够为车间管理人员提供生产计划的执行、跟踪以及所有资源的当前状态等信息。MES在企业计划管理层与车间底层控制之间架起了一座桥梁,填补了企业计划管理层和底层控制之间的“鸿沟”
基于局域网的共享存储是一种分布式共享存储,采用共享存储系统的相关原理将局域网中各计算机的内存共同组织起来,形成一个统一的共享存储空间,供系统中的计算机共同使用,以完
计算机支持的协同编辑系统是CSCW领域研究的一个重要方向。它可以方便的让处于不同地理位置的用户共同完成同一副图案的绘制。与传统单用户模式的编辑系统相比它具有效率高,