论文部分内容阅读
如何从大量数据中获取不同的个性化信息是信息检索领域的研究热点。此方面的研究主要包括元搜索引擎和查询扩展。综合多个搜索引擎返回结果的元搜索引擎其关注点在于为用户提供更多查询结果,查询扩展则通过将用户提交短查询扩展为更多关键词使得查询结果更贴近用户需求。关联规则挖掘是数据挖掘中的一个重要研究方向,也是查询扩展使用的一种重要方法。本文不仅提出了一种改进的关联规则增量挖掘算法,而且结合元搜索引擎和基于此关联规则的查询扩展,提出个性化元搜索引擎的概念。本文首先讨论查询扩展使用的关联规则增量挖掘算法。分析在基于FP-Tree的结构上进行增量挖掘时影响挖掘效率的因素以及FUFP中快速更新FP-Tree实现增量挖掘的策略。本文将基于Apriori的典型增量挖掘算法FUP思想引入TD-FP-Growth算法中TD-FP-Tree的快速更新,提出TD-FP-Tree快速更新算法(PFU-TDFP)。算法通过将所有涉及项分类处理,减少扫描原始事务数据库的可能和次数,且当出现由非频繁转为频繁的项时减少重新排序事务中项所要处理的事务数目,并在某些步骤采用并行处理进一步提高效率。实验表明,本文提出的算法不仅可以快速更新TD-FP-Tree,而且在同基于FP-Tree结构的增量挖掘相比可以进一步提升整体挖掘效率。接着使用PFU-TDFP算法挖掘用户的搜索结果浏览习惯用于查询扩展,使得查询关键词组可以体现用户的行业背景和兴趣倾向,结合元搜索引擎提出个性化元搜索引擎的概念。对元搜索引擎的结果融合提出基于搜索结果的排序、题目和摘要等局部相似度的一种新的结果融合评分模型。最终实现了系统原型,对系统的实验表明,应用PFU-TDFP可以快速更新挖掘用户搜索浏览习惯,本文提出的元搜索引擎结果融合评分公式在P@N方法测试下也会为用户提供更个性化的搜索结果。