论文部分内容阅读
随着存储技术的飞速发展,个人计算机的存储能力快速增加。研究发现,人们越来越不愿意删除旧文件,以防止重要信息的丢失。这使得人们经常花费大量的时间进行文件检索。传统的基于文本内容的检索工具并不能解决用户关键词遗忘或无法找到准确关键词来描述文档内容的搜索问题。同时,如何根据用户的个性化特征将用户最关心的文件放在搜索结果的前几项也是当前急需解决的一个问题。为了解决上述文件搜索的难题,提出了基于上下文信息的解决方案,用于帮助用户更高效的管理自己的文档资源。首先,改进了上下文识别算法,该算法利用用户在应用层和文件系统层产生的行为信息,分析出用户操作过程中的粘贴复制操作和焦点窗口转换操作,建立文件在时间和因果上的上下文关系。然后,根据应用的实际需要对图论中广度优先搜索算法进行了改进,设计了向下扩展搜索的最大层次,并根据文件间的上下文关系对搜索结果进行裁剪。在排序算法中,对机器学习排序的参考因子作了改进,将用户操作过程中的上下文信息加入学习系统,并综合考虑文件自身的上下文信息,选取了七种参数作为机器学习排序的参考因子。最终在理论分析的基础上实现了文件搜索模块原型。最后,根据功能测试和性能分析发现,实现的文件搜索工具可以在保持较好准确率和召回率的前提下为用户提供基于上下文信息的扩展搜索服务,便于用户对个人信息的高效管理。