论文部分内容阅读
该文中采用了Roger Weber提出的VA-file的索引结构,其在高维环境下的检索效率比R树系列和X树等索引结构都高出了许多,特别是针对复杂的最邻近检索和相似性检索.最邻近检索和相似性检索(NN检索)在多维空间数据库中有十分重要的应用,如GIS、CAD、多媒体数据、生物基因研究等领域.然而,实现多维的空间数据库及各种多维的检索却存在许多困难.并且由于多维空间数据的检索与传统的关系模型数据库有很大不同,通常的低维索引和检索基于这样一个假设:数据多在二级存储器上,检索代价是I/O相关的而不是CPU相关的.然而,这个假设在多维的空间数据库管理中并不总是正确的,某些针对复杂对象的操作,(例如我们所涉及的NN检索),会占用大量CPU的时间,从而改变与I/O的平衡<[1]>.因此,多维检索的效率不再主要决定于磁盘I/O的次数.正是基于解决多维空间的最邻近检索的复杂性,该文在详细分析多维空间检索方法和一般并行检索方法的基础上,采用VA-file<[2]>多维空间索引结构,结合具体的NN检索,从理论上引入一种基于VA-file的NN检索的并行算法,采用前端处理器进行调度,通过轮转法分配数据给后端处理器的方法并行运算.相对于VA-file的检索算法,并行处理增加的复杂性和时间开销集中于通信网络的平均负载和前端处理机的控制代价,通过对其性能进行分析,结论是在数据量很大的情况下,通信网络的负载加上前端处理机的控制代价,要小于每个处理器的平均处理时间.因此,一个合适的处理器数目所带来的效率提高是准线性的.VA-file索引结构在多维空间数据库中有着广泛的发展前景,而并行计算可以解决多维检索的复杂性.