基于上下文信息的文件搜索技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:clys1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着存储技术的飞速发展,个人计算机的存储能力快速增加。研究发现,人们越来越不愿意删除旧文件,以防止重要信息的丢失。这使得人们经常花费大量的时间进行文件检索。传统的基于文本内容的检索工具并不能解决用户关键词遗忘或无法找到准确关键词来描述文档内容的搜索问题。同时,如何根据用户的个性化特征将用户最关心的文件放在搜索结果的前几项也是当前急需解决的一个问题。为了解决上述文件搜索的难题,提出了基于上下文信息的解决方案,用于帮助用户更高效的管理自己的文档资源。首先,改进了上下文识别算法,该算法利用用户在应用层和文件系统层产生的行为信息,分析出用户操作过程中的粘贴复制操作和焦点窗口转换操作,建立文件在时间和因果上的上下文关系。然后,根据应用的实际需要对图论中广度优先搜索算法进行了改进,设计了向下扩展搜索的最大层次,并根据文件间的上下文关系对搜索结果进行裁剪。在排序算法中,对机器学习排序的参考因子作了改进,将用户操作过程中的上下文信息加入学习系统,并综合考虑文件自身的上下文信息,选取了七种参数作为机器学习排序的参考因子。最终在理论分析的基础上实现了文件搜索模块原型。最后,根据功能测试和性能分析发现,实现的文件搜索工具可以在保持较好准确率和召回率的前提下为用户提供基于上下文信息的扩展搜索服务,便于用户对个人信息的高效管理。
其他文献
随着硬件技术的发展,嵌入式应用不断普及和深化。嵌入式软件的需求越来越大,复杂性也越来越高。在开发嵌入式软件的过程中,调试成为了不可或缺的重要阶段。嵌入式软件的调试时间
安全是铁路运输永恒的主题。铁路运输是危险品运输的主要方式之一。由于缺少对列车在途运输中各种状态的监测,当发生事故时不易被发现,对列车的安全运行和人们的生命财产安全
C语言是广泛使用的高级编程语言之一,其发展了30多年仍然有很强的生命力,由于其本身面向底层的特点,使得它存在可能被利用的安全漏洞。C程序漏洞有很大一部分是内存访问相关漏洞
虚拟化技术拥有良好的资源整合能力和安全隔离性,已在工业界得到广泛的运用。虽然分离驱动模型解决了多个虚拟机共享单一物理设备的问题,但是目前的虚拟中断只能静态的发送给虚
教育领域中无时无刻都在产生大量教育数据,与此同时这些教育数据中隐藏着大量的潜在的有用的价值,倘若我们能把“地大物博”的教育数据转化成有指导,有建设、有意义的科学分析来
随着移动智能终端的大规模普及和高速无线接入技术的快速发展,移动多媒体网络应用迅速兴起。与之相应地,移动终端上多媒体网络应用的能耗需求迅速增长。而移动终端固有的电池
随着计算机技术的迅速发展,数字媒体的数量也急剧增加,随之而来的是一系列的版权纠纷问题。在拷贝检测应用方面,基于内容的拷贝检测具有更好的鲁棒性和更好的适用性,因而可以看作
因为用户对强大的计算资源和大量的存储空间的需求,云计算已经成为了一个非常有前途的技术。用户可以方便的将数据存储在在线的虚拟化存储空间里面。用户只需要预定,然后支付
现代科学技术的快速发展,人们的工作和生活越来越贴近网络,因而对网络的要求也越来越高。有线电视网,电信电话网以及传统计算机网络3个网络合并为一个分组化、数字化的综合业
随着企业数据中心对数据访问速度的要求越来越高,分离的存储网和以太网使得数据中心布局布线更加复杂,管理成本增大,因此设计高速统一的网络架构成为企业迫切的需求。以太网光纤