Web信息内容变化检测技术研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:nyxjm2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,World Wide Web已经成为世界上最大的、类型最齐全的共享信息的载体。在互联网为用户提供丰富、快捷的信息的同时,也造成了信息过载的问题。World WideWeb中的网页信息量的指数速度增长给Web信息提取和搜索引擎等应用带来了巨大的压力。互联网中的信息变化频繁,为了实时地获取这些信息,需要对这些的变化进行检测,并且随着互联网信息以指数级形式增长,需要检测的数据的规模也随之增加,这对网页变化检测算法的效率提出了更高的要求。对Web信息变化检测技术的研究具有重要意义。本文使用基于文档结构树比较法作为网页变化检测的核心技术,设计并实现了一个基于DOM结构的Web信息内容变化检测方案。整个方案由检测信息定制、网页变化检测和网页变化可视化三个部分构成。其中本文的关键部分—网页变化检测又包括Web页面预处理、Web页面正文定位、Web页面编码和网页变化比较四个部分。检测信息定制部分是对需要检测的网页进行设置;Web页面预处理过程中采用开源工具HtmlCleaner对网页进行清洗,并将HTML文档转化为DOM树;Web页面正文定位部分则采用基于文本密度的正文提取方法定位网页的正文:为了减少网页的存储空间和加快后续的处理速度,Web页面编码部分则采用网页摘要算法对DOM对象进行编码,并将编码所得的数组对象和数组列表对象存储于数据库中,作为网页变化检测部分的历史数据,同时根据可视化显示历史网页的需要,该部分还包含了将PDE集合信息转化为HTML源文档的功能;网页变化检测部分使用基于历史窗口数据预估网页的变化频率,并对同一个Web页面的两个版本的PDE信息集合进行比较以判断网页是否变化,当网页发生变化时候,更新数据库中的PDE集合和网页的最新修改时间;网页变化可视化部分可视化网页的变化结果。最后,本文开发了一个Web信息内容变化检测系统,系统能够检测网页中的变化信息,并把网页的变化可视化,实验表明本文所提出的Web信息内容变化检测方案具有一定的实用价值。
其他文献
随着LTE技术的迅速发展,无线接入技术向更高容量、更大覆盖和支持高速移动的方向发展,以及用户需求的不断增长,无线通信网络承载的业务也逐渐由传统的以单一语音为主的模式,
计算机产业的发展推动信息化向纵深发展,在“十二五”软件服务业规划助推下,软件产品将会被大量的应用于社会经济生活的各个领域,人们对于软件产品质量的关注也必将持续升温
近年来,随着全球信息与互联网技术的迅速发展,医学信息化得到了快速的进步,医学信息科学已成为当今信息研究领域的重要分支。医学领域经过多年的发展,已经形成了完备的知识体
随着信息产业的高速发展,软件在各行各业的应用越来越广泛,客户对软件产品的开发周期以及质量提出了更高的要求。软件企业面对持续变化的需求,必须能够快速地响应,才能赢得市
随着计算机硬件和软件技术的快速发展,使得计算机对不规则物体的模拟技术已经渗入到人们日常生活中的各个角落,同时也促进了计算机动画技术的发展。计算机动画技术现已被广泛
网络拥塞很早就已经是人们研究的重要课题,在传统的端到端的互联网络拥塞控制研究方面己取得了很大的进展,而无线传感器网络的兴起对拥塞控制研究又提出了新的挑战。WSN中的
车载网络是近年来快速发展的一个研究领域,其广泛应用使道路上行驶的车辆之间不再是一个个的独立个体,而是整体通过车载网络有机结合在一起的自治系统。车载网络通过车辆节点
近年来,随着科技的发展,医疗技术也在快速的发展。数字化医学图像采集设备不断更新,CT、MR等设备的普及,使得医院每天产生大量的医学影像数据,医生的工作量越来越大,在紧张与高强度
近年来,随着数字音乐创作、收集以及存储技术的快速发展,许多机构积累了大量的音乐音频数据。随着英特网多媒体资料的蓬勃发展,如何对这些音频资源进行有效地组织和管理,使得
咳嗽作为呼吸系统疾病最常见的症状,其频率、强度、种类、持续时间等参数为临床提供了重要信息。现阶段在对咳嗽评估时通常只是根据病人的主诉,缺少客观测量及定量评估的标准