深层网络信息发掘技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yyp0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
整个网络中的信息按深度可分成两个层次,表层和深层。表层主要包括“静态网页”,是指以文件形式静态存放在服务器上的数据信息。深层则主要包括“动态网页”,是指隐藏在表单背后,需要进行查询输入,由后台数据库动态生成的数据信息。这些“动态网页”信息也被称作深层网络信息、Deep Web信息、Hidden Web信息,具有数量大、质量高、结构化等特点,但目前传统搜索引擎却无法将这些信息索引。如何大规模自动获取深层网络信息成为当前技术难题和研究热点。本文对目前获取深层网络信息的主要方法进行研究,分析这些方法各自的优缺点后,决定采用扩展当前搜索引擎爬虫能力的方案,使其能够自动填写表单、构造查询URL,从而获取到返回页面,这样,搜索引擎便能像处理普通静态页面一样将其索引,最后呈现给用户。为了达到上述目的,需要解决以下几个主要问题:(1) HTML表单的形式繁杂,如何正确的发现提供深层网络数据源接口的表单并将其有用信息提取出来。(2) HTML表单的控件类型多种多样,如何选取查询值组合,尤其是如何生成文本框输入值。(3)如何从查询返回页面中提取有用信息。针对以上问题,本文对传统搜索引擎爬虫进行分析和优化,给出深层网络数据源发现及表单接口提取、自动填写表单内容、查询返回页面内容抽取、深层网络信息获取过程中语义元数据的提取、抓取后页面内容更新等关键技术的解决方案和算法。最后在传统爬虫的基础上进行扩展,构建一个深层网络信息发掘系统。同时,进行实际运行测试,得出实验结果以验证相关技术的正确性。
其他文献
三维场景漫游是指,用户通过某些设备,与屏幕上显示的真实或虚构的三维场景环境进行交互操作。这种操作能实现在虚拟环境里模拟人在真实场景中的漫游。场景漫游作为虚拟现实领
近年来,Internet迅猛发展,并逐渐成为一种面向数据、语音、视频和多媒体应用等多种业务的综合载体。而各种新的多媒体业务的出现又对网络的服务质量提出了新的要求。但是,传
随着高速公路网建设的日臻完善,利用较为完备的视频监控系统对路面状况进行实时监控成为提高道路运营质量的一种重要手段。基于视频图像的目标检测和数据采集分析为更大程度
在低辐射航天环境下,由于空间粒子辐射等因素的影响,除引发处理器发生瞬时故障外,还会引起频发的、更加致命的间歇故障。传统单核处理器无法采用纯软件的手段实现容错,而多核
多源图像融合技术是将来自同一场景的不同图像传感器的多幅图像进行综合处理,得到一幅融合后的图像。与单一图像传感器所获得的图像相比,融合后的图像对场景提供更全面、精准、
基于位置的服务极大地方便了我们的生活,寻找附近的好友、推荐附近的热门餐馆等应用无一不包含了基于位置的服务。用户在享受基于位置服务的同时,会不经意地泄露敏感的位置隐
随着互联网的快速发展,当前每天都将产生海量的数据。为了存储这些数据,独立磁盘冗余阵列(RAID)利用多个磁盘提升系统容量和读写性能。在大规模RAID系统中,由于磁盘数较多,磁
由于其灵活性和可扩展性,XML成为越来越多互联网上数据的表示标准。在一类应用中,XML数据表现为源源不断到来的数据片断,在这类应用中的XML数据称为XML数据流。XML数据流的应
音频分割是指根据说话人特征、环境、信道条件,将音频流“自动”切分成若干同质区域的方法。由于其在音频检索、语音识别等应用中具有潜在价值,近年来受到了广泛关注。在各种音
很久以来中医一直依靠指面感觉来体会患者桡动脉搏动处的脉象信息,因此诊断时需借助医师的经验,这样使得其应用和发展都受到了很大的限制。所以,利用现代科技对脉诊进行客观