基于隐语义图谱的桌面搜索方法研究及应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:aaa110122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
桌面搜索(或称个人信息检索)是定义在本地个人信息空间上的搜索过程,旨在帮助个人用户有效的搜索到所需要的本地资源(即文件)。近年来随着社会信息化进程的不断推进,大数据时代悄然来临,个人用户在本地计算机上生成和存储的数据爆炸式的增长。个人数据的存储和管理也已经进入了TB级时代。个人计算机用户对快速准确的搜索庞大的本地数据的需求日趋强烈。这使得桌面搜索在近年来成为了工业界和学术界关注和研究的热点领域。在工业界已经有一些被广大用户熟知的桌面搜索解决方案,比如Google Desktop Search、Windows Desktop Search等,这些传统的桌面搜索解决方案实现的是基于关键字的检索,而没有考虑本地资源之间潜在的语义关系。这就要求用户必须准确的记忆和键入搜索关键词,而这样的搜索结果其实是不充分的。在信息检索中,丰富的有意义的关联关系和信号的引入能够有效的提升搜索结果的质量。在本地环境下,资源之间直观上来看相互独立毫无关联。然而个人计算机上的资源的创建、浏览、存储因人而异,和用户的使用习惯、个人经验和记忆等息息相关。用户这种管理资源的习惯、经验和记忆在资源之间无形的产生了某些隐性的语义关联。对资源之间潜在的关联关系进行挖掘和利用为桌面搜索的研究提供了非常多的町能性。通过观察我们发现用户在使用个人计算机时有一个普遍的模式:“操作某些资源以完成跟某个特定主题相关的任务,并且这些资源会被用户根据资源之间的某种关系组织到某些特定的目录中存储”。这一发现启发我们“主题信息”、“用户历史行为信息”、“目录结构”对于定位本地资源是非常有帮助的。  本文提出了一种基于统一的多维隐语义图谱LSG(Latent Semantic Graph)的桌面搜索方法。该方法能够分别从本地资源的内容、用户的历史行为数据以及资源的目录存储结构中挖掘并量化两两资源之间的关联关系,并将三种关系整合为统一的隐语义关系图谱LSG来系统地表征本地资源之间的关联体系。然后在LSG的基础上,分别实现了基于资源之间的隐语义关系的个性化排名算法和推荐算法,来提升传统的基于关键词的搜索效果并向用户推荐更多间接相关的结果以改善用户的搜索体验。当一个查询到来时,本文的搜索方法会先利用向量空间模型从索引抽取相关结果集合,然后基于LSG的排名算法会对结果集进行重排序,同时基于LSG的推荐算法会为结果集中的每个结果推荐5个最相关的本地资源。为了更好的研究基于LSG的搜索方法的有效性,本文设计并实现了基于LSG的桌面搜索原型系统,并将其与主流的桌面搜索引擎以及目前比较先进的学术界方法实现的系统进行对比实验,结果表明本文的方法有着较好的性能和表现。
其他文献
情绪的自动识别是人机交互中的关键技术之一,近年来越来越受到人们的重视。包含在人脸表情和语音信号中的情绪信息是极其重要的信息资源,本文提出一种基于语音、视觉多通道融合
数字水印技术是解决多媒体作品版权保护的有效技术手段,甚至被认为是最后一道防线。该技术有效解决了基于密码技术保护的多媒体作品一旦解密就会失去版权保护的难题。 用于
在安全系统中,惟一重要的接口是能够进入安全周界的外部接口,可信进程明显运行于安全周界之内且是安全内核的扩展。所以,可信进程与内核之间的接口不比内核各部分之间的接口更特
大规模三维几何数据集广泛应用于虚拟现实、视频游戏、工程设计、地理勘测等领域。随着计算机处理能力的增强以及对几何数据的规模和表示精度要求的提高,数据集愈加复杂,目前有
随着计算机技术和网络技术在我国民航领域的飞速发展和广泛应用,民航票务信息已经成为民航代理人和航空公司在客票销售、市场预测、客运服务等方面的重要参考内容。然而,由于民
随着各种嵌入式系统的应用,嵌入式领域已成为当前研究的热点之一。与嵌入式硬件相比嵌入式软件已经成为嵌入式系统发展的瓶颈。而嵌入式软件开发环境在嵌入式应用日益复杂的情
由于指纹的唯一性和不变性,以及指纹识别技术的可行性和实用性,指纹识别已成为当前最流行、最方便、最可靠的个人身份认证技术之一。被广泛应用在考勤、银行密码箱、公安系统
天然地震层析成像是研究地球的一个重要手段,尤其在研究莫霍面以下深度的地球结构方面,有着不可替代的作用。其原理主要是通过读取远震信号的 P 波初至时间,运用射线追踪的方
随着心理学科学的快速发展和信息处理技术在心理学领域的应用,国内外心理学研究者和有关部门长期对大量群体实施心理测量积累了庞大的宝贵数据资料。在这些大量的数据背后隐藏
随着计算机技术、多媒体技术、网络技术和通信技术的迅速发展,图像信息的应用日益广泛,图像处理在理论研究和实际应用中都取得了飞速的发展,并已广泛地应用于越来越多的科学领域