基于用户模型的智能数据源选择研究

来源 :南华大学 | 被引量 : 1次 | 上传用户:li_uwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎存在的问题是查全率和查准率都比较低,垂直搜索服务的出现提高了用户检索特定主题的查准率。然而互联网上大量面向特定主题的垂直搜索引擎和综合搜索引擎的出现,使用户无法判断哪些能提供较好的服务。于是构建元搜索引擎来整合垂直搜索服务和综合搜索服务可以提高查全率和查准率。然而构建元搜索引擎要面临许多挑战,数据源选择就是其中一个重要的问题。数据源选择就是如何选择数量较少并且包含相关文档较多的成员搜索引擎来处理用户查询。然而数据源选择的困难是数据源的异构性和非合作的特征。其异构性体现在查询格式、通信协议、文档建模方式等不同;非合作性体现在数据源不主动输出统计元数据信息。对于异构非合作型数据源选择存在的问题是数据源的特征描述不详细,从而导致文档相关性分布估计的不准确。本文深入研究了基于用户模型的智能数据源选择技术。首先,通过收集用户隐反馈信息利用统计语言建模技术来建立用户模型,同时数据源的建模方式采用构建主题树同时借助语言模型来表示。其次,借助于用户模型在时间轴上的动态更新来使之自适应匹配主题型数据源。在此基础上,本文提出了基于用户模型的两阶段数据源选择算法。首先在第一阶段对数据源按着所包含的主题进行分类,把用户模型导入到基于主题的数据源选择算法中,提高主题层次上的筛选分辨能力和算法的自适应能力;同时为了更加准确的估计数据源中相关文档的分布,本文对统一效用最大化框架UUM(unified utility maximization)进行了修正,在第二阶段主题相似的数据源上利用修正后的UUM框架来提高文档相关性分布估计的准确性,选出包含相关文档较多的数据源。本文最后通过试验与传统的两阶段数据源选择算法做了比较后得出的结论是:整合用户模型后在主题层次上的数据源选择准确性更高,同时提高了主题相似的数据源之间文档相关性分布估计的准确性。有效的数据源选择带动了分布式信息检索系统的性能的改善,在文档召回率和检索精度上都有不同程度的提高。
其他文献
蚂蚁算法在求解二次分配问题(QAP)问题上已经取得了较好的结果,目前的研究集中在如何提高算法的性能上。提高算法的性能需要解决的重要问题是平衡两种趋势:纵向探测和横向搜
随着信息技术的发展和图像压缩标准的普及,在压缩域上进行基于内容的图像检索成为当前信息领域的研究热点。分形以迭代函数系统来表征图像特征,在图像压缩方面效果良好,同时
遗传疾病的致病基因预测问题一直是人类健康领域面临的重大挑战之一。随着人类基因组计划的顺利完成,各种生物数据得到快速增长,采用计算的方法从这些数据中挖掘基因与疾病之间
下一代网络(NextGenerationNetwork,NGN)的出现是电信网与计算机网络进一步融合的必然结果,基于IP的承载是NGN的必然要求。国际软交换联盟(ISC)的研究认为,软交换技术作为NGN的
语音是人们日常交流活动的最基本、也是最有效的一种方式。人们希望计算机能自动完成语音识别,因此语音识别技术的发展显得非常关键。随着计算机技术、互联网和人工智能的发展
计算机与信息技术的的飞速发展,使得数据与信息数量以指数速度增长,如何发现大量数据的背后隐藏着的很多具有决策意义的有价值的信息和知识,使之为决策者服务,计算机科学给出的答
直接体绘制技术是科学计算可视化的重要组成部分,它帮助研究人员从规模庞大、错综复杂的体数据中抽取出重要的科学概念和信息,已广泛应用于众多领域。非规则体数据分布随意性
在网络技术越来越普及的今天,入侵检测系统作为一种新型的网络安全工具,已经得到了广泛的研究和应用。 入侵检测系统可以弥补传统网络安全手段如防火墙等的一些不足之处,因而
随着Internet的迅猛发展,应用服务器需要为越来越多的用户提供服务,在这种情况下,即使单台服务器性能再高,所能提供的服务也是有限的,且存在单点失效等问题。目前,J2EE已成为
蜜罐和蜜网技术为捕获并深入分析黑客的攻击行为提供了基础。但是,现有的蜜罐和蜜网技术存在容易被黑客发现、取证的合法性等问题,一般用作研究工具,在实际网络中应用时存在给应