Deep Web数据库的选择研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:liuyibi1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet相关技术的日益成熟,Web上积累了大量的在线数据库,其中所蕴含的信息对于用户来说是不可见的,称之为Deep Web。建立Deep Web数据集成系统是当前从Deep Web中获取信息的有效方式。为了提高信息检索的效率和查询的准确度,DeepWeb数据库的选择是建立Deep Web数据集成系统的一个必不可缺的环节。在Web数据库选择方面,本文主要是在设计代表性查询以获取Web数据库特征和针对特定查询对Web数据库进行排序两个方面做了重点研究。在获取Web数据库特征方面,文中根据领域知识构建初始查询词集合。由于查询词集合的动态更新性,随着用户的提交逐步建立起具有代表性的频繁查询词集合,并向各个本地Web数据库提交频繁查询词,通过分析Web数据库返回结果中出现查询词的位置和包含关系获取Web数据库的特征。在Web数据库排序方面,按照其特征对Web数据库返回结果进行分类,以每类返回结果与查询词的相关度和每类返回结果在全部Web数据库相应类别中所占的比例两者作为参数计算出整个Web数据库与查询词的相关度,按照相关度的大小对所有的Web数据库进行排序。在己排序的基础上,通过分析与查询词的完全相关结果增长率确定选择出的Web数据库个数阈值,从而获得既高效又准确的部分Web数据库。最后对于用户提交的新查询词,本文将前一步选择出的部分Web数据库作为输入,利用Apriori算法计算出最大频繁项集,即将最被频繁查询的Web数据库作为新查询词的默认Web数据库选择序列。实验表明,该方法能够有效的评估各个Web数据库对特定查询的支持能力。
其他文献
为了梳理羽毛球竞技运动各主要参赛国家和地区在1996年至今的发展变化过程,再现不同周期竞技成绩格局特征,探寻1996年以来羽毛球竞技运动竞技成绩格局演变特征。本文主要运用了文献资料法、数理统计法、专家访谈法和逻辑法,具体分析了各主要参赛国家和地区的羽毛球项目在不同周期发展变化情况,客观阐述了各时期内的羽毛球竞技运动竞技成绩格局演变过程。得出以下结论:1.世界羽毛球竞技运动发展是一个复杂系统发展的过
我国钢铁行业目前的发展态势不容乐观,产能扩张过快,中低档产品生产过剩,而高附加值产品却供给不足,资源消耗也相对较高,这些问题造成了我国钢铁行业综合竞争力同发达国家还
在壮语中,Deng(te:η)字意蕴丰富,用法灵活,可起到事件因果关系的连接作用,构成事件因果关系句。通过实验方法,收集到72个deng字句,其中45句是事件因果关系句。可见其在壮语d
选择宁波市天一广场作为研究城市商业中心景区的典型对象,并使用摄像统计法、数码相机记录分析法、人工计数法及问卷调查统计法等方法(称作综合记录技术分析法,CTVM),对不同时
查阅历代典籍,梳理牛膝在三妙丸中的应用发展演变、考证其基原,并结合文献所载性味归经和现代研究浅析其引经作用,为指导三妙丸和牛膝的科学研究及临床应用提供参考。结果表
共享理念和跨界思维是当前新创企业商业模式创新的两大热点,但主流的商业模式创新研究对传统企业关注不足。基于共享经济和商业模式创新的相关理论,文章重点研究探讨传统的在
“寓植物园于校园”的做法在中外都十分流行,但其中大多数高校的植物园都只是校园总体的一部分,属“园中园”或“园外园”性质,并以“学”为主.浙江林学院植物园“两‘园'合一
局部进展期胃癌手术后是否给予全身辅助化疗以及关于标准方案的临床研究,一直是临床关注的热点问题,对ⅡB期以上的进展期胃癌术后给予辅助治疗已经成为共识,但对于采用何种方
任碧莲(Gish Jen,1956-)是第二代华裔美国作家中的代表人物之一。她以轻松、诙谐、反讽的语言及其作品中对民族和文化身份问题的独特见解,赢得了美国读者的青睐及评论界的关
业务流程再造是对组织现有流程的一种根本性思考和彻底性变革,旨在优化业务结构、提高组织工作效率,而医院门诊普遍存在业务活动效率不高、流程繁冗现象,因此业务流程再造应