论文部分内容阅读
关键字搜索是现今最为流行的信息发现方法,因为用户不需要学习任何复杂的查询语言,也不需要了解底层数据的结构,他只需要使用若干关键字来表达自己的信息需求即可。在过去的十几年中,对非结构化数据的关键字搜索已经有过较多的研究,随着结构化数据(以关系数据为典型代表)和半结构化数据(以XML数据为典型代表)数量的日益增多,人们转而把目光投向对这两类数据的关键字搜索研究。本文在充分吸取前人研究成果的基础上,以关键字搜索的效率和有效性为侧重点,针对现有工作存在的问题进行了较为深入的研究,提出了创新性的解决方法,主要取得了以下研究成果:1.对关系数据的关键字搜索,目前最流行的方法是基于搜索时连接的搜索方法,本文研究了其核心问题——模式图上连接表达式的搜索算法,提出了一种时间复杂度为多项式级延迟的搜索算法,并给出了它的正确性证明和时间复杂度分析。2.本文提出了一种基于预连接的对关系数据的关键字搜索方法。本文分析了在关系数据库中引入关键字搜索之后可能引发的若干问题,提出将搜索结果定义为包含所有查询关键字的完全元组图(CTG),在此基础上设计了基于归并排序的高效的搜索算法,并给出了对搜索结果集的相关性排序方法。最后,对索引更新问题也给出了具体的解决方法。3.本文提出了一种基于MIU的对XML数据的关键字搜索方法。本文分析了在XML关键字搜索中结果粒度精细化可能引发的若干问题,定义了最小信息单元(MIU)的概念,给出了对任意XML文档划分最小信息单元的方法,并提出以最小信息单元作为索引、搜索的最小粒度,设计了精简的索引结构和相应的搜索算法。对于上述这些研究成果,本文给出了相应的实验数据,实验结果表明这些方法在关键字搜索的效率和有效性方面均有不同程度的提升,在科研领域和商业应用中都有着很好的应用前景。