论文部分内容阅读
近年来,作为数据库领域和信息检索领域的前沿课题之一,对Top-N查询的研究得到了蓬勃发展,研究重点主要是查询处理策略和排序函数。以关系数据库为基础的Top-N查询能够检索出与关键词匹配程度最好的前N个元组,并且按指定的排序函数对输出的结果集合排序。目前,单纯针对数值属性的Top-N查询不断取得新的进展,但是,如何处理文本属性,并进一步将两者结合起来,还是一个涉足较少的领域。支持自然语义的Top-N查询不仅能够得到精确匹配的结果,同时也能得到在语义上相同或相似的答案,结果集将按照语义和数值的综合距离排序,实现更为复杂的查询。本文将讨论同时处理文本属性和数值属性的Top-N查询。本文的研究针对一种实现Top-N查询的方法,通过建立一个包含亲缘词和数值信息的索引,对查询相关信息实现高效的存储、预载入和检索,利用WordNet进行语义扩展,查询时首先搜索该索引,得到所有查询结果的元组标识,然后根据综合排序函数计算语义和数值距离并排序,得到候选元组集,最后利用SQL语句从数据库中获得完整的结果集信息,从而得到Top-N结果。实验内容包括对该索引的时间开销、空间占用以及查准率的计算,结果显示,这种方法是有效而且高效的。