论文部分内容阅读
由于互联网技术的飞速发展,Web信息急剧膨胀,传统搜索引擎注重查全率而查准率不足,导致Web信息搜索越来越困难。本文通过对Web数据自动采集与维护技术的分析,试图对用户身份验证、导航URL提取、翻页URL提取、页面属性字段的提取、数据去重等Deep Web数据集成关键技术做探索性的研究,对各种方案进行了尝试和比较,然后给出了最优的解决方案,为进一步的研究提供了基础。