基于Top-k查询约束的深网增量爬取

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:bbmaju0813
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深网数据源的动态性、自治性和体量使第三方应用难以完全爬取所有Web数据.文中研究查询类型(仅允许Top-k查询)和查询资源约束下深网数据源爬取问题,提出基于Top-k查询约束的深网增量爬取方法,结合历史数据和领域知识,优化总体数据质量.首先基于查询树获得有效查询,利用历史数据和领域知识估计查询变化和查询代价.然后,基于估计的查询代价和数据质量,近似选择最优的查询子集最大化总体数据质量.实验表明文中方法较好地提高动态Web数据库爬取的效率和数据质量.
其他文献
供给侧结构性改革实施之后对司法领域也产生了巨大的影响,对于检察机关而言,提升司法供给的质量和效率也是践行供给侧结构性改革的实际需要。民事检察的实践中,案件主要集中于省
2009年4月17日,世界银行提供的一笔3亿美元投资贵广快速铁路(下称“贵广快铁”)的贷款项目通过。
文章从《说文解字》对巫、觋二字的解释说起,浅析了巫觋的起源发展,并阐述了巫觋通过其文化对中国古代社会政治、文学、医学、历史学、音乐和舞蹈等方面产生的影响,从而表明应该
中国传统节日作为中华民族传统文化瑰宝的一部分,承载着人们对传统的民族风俗的一种深刻的社会认同感,饱含着我们对先祖的无限追念。传统节Et作为非物质文化遗产的一个重要的组
生于柬埔寨,留学于中国,创业于法国,闪转腾挪之间,造就了“神龙富康之父”。  生  长在柬埔寨桔井省川龙市的黄松,华语很流利,他背诵了小学一年级时的课文给笔者听:“小狗叫,小猫跳,叫叫叫,跳跳跳......”。现在想来好亲切呀!小时候的黄松,做梦也想不到他的生命轨迹将会发生天覆地的变化,他从学习中文发端,不仅学会了多种语言、还跨国界、跨行业,在亚洲和欧洲之间飞架起理想的彩虹,成就了一番壮丽的事业。
摘 要:选项课模式教学被广大高校体育教学所采纳,其相比于传统课堂教学在课堂管理组织方面更加科学和全面,而将分层教学法运用到乒乓球选项课模式教学之中,不仅符合乒乓球教学的规律和特点,同时更能够体现出以人为本的教育理念,根据学生的实际情况,制定相应的乒乓球教学内容、教学方法和考核评定方式,更凸显教学的人性化一面,同时,在此过程中更有助于学生乒乓球技术的掌握,是一种较好的教学模式。该文先对选项课模式教学
目的探讨盲肠癌误诊原因及应对措施,提高对回盲部癌的认识。方法回顾性分析9例误诊病例临床资料。结果本组9例均误诊为阑尾炎,最后病理确诊为盲肠癌。结论盲肠与阑尾部位临近,盲
窃电问题一直是电力企业运营和发展过程中的主要问题。近年来,随着人们日常用电需求的日益加大,各种窃电技术也相继出现,严重影响了供电所的正常运行和发展。纵观当前我国电力企
器官移植是目前治疗终末期器官衰竭的最有效手段,对于尚无有效替代治疗的重要器官,如心脏、肺和肝脏等器官来说,也是唯一有效的治疗选择。虽然终末期肾脏病患者常有血液透析、腹
目的对美洲大蠊(Periplaneta americana)虫体体积分数95%乙醇提取物进行化学成分的分离和鉴定。方法采用硅胶柱色谱,凝胶柱色谱,开放ODS柱色谱和半制备高效液相色谱等分离手