搜索引擎查询词领域分类方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:zjbme2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机与互联网的迅速发展,Web信息呈指数型增长,其在为用户提供大量数据的同时,也给用户检索有用信息带来困难。因此,识别搜索引擎用户的检索意图已成为当前Web信息检索领域的研究热点之一。识别用户查询意图的关键是构建查询分类体系。已有的查询分类体系存在分类粒度过大、查询意图识别不明确等问题。现有工作虽然已经提出了多种类型的查询特征并建立了相应的分类体系,但这些方法过于依赖手工特征提取,且没有考虑搜索引擎用户信息,不利于查询词的自动分类。针对以上问题,本文首先分析了搜索引擎查询日志的结构特点并抽取出查询词的关系数据及关系结构图,然后基于图提出了同时考虑用户信息和点击URL信息的特征自动生成方法,最后构建查询词领域自动分类模型,并提出了两种查询词领域自动分类算法:(1)基于矩阵分解的查询词领域分类算法。该算法使用概率潜在语义分析模型分析二元关系,生成查询词分类特征。实验表明该算法初始分类效果不理想,当加入先验知识并使用半监督的概率潜在语义分析后,性能有了很大提升。(2)基于张量分解的查询词领域分类算法。该算法在分析第一种算法存在问题的基础上,采用张量分解模型分析三元关系,生成查询词分类特征。最后,本文基于搜狗查询日志,使用LIBSVM对查询词领域自动分类模型进行了测试。结果表明:本文引入的用户信息确实有助于提升查询词分类效果;基于矩阵分解与基于张量分解的查询词领域分类算法都能有效地实现查询词领域分类;基于张量分解的查询词领域分类算法的性能明显优于第一种,更适合于搜索引擎查询词的领域分类。
其他文献
无线传感器网络负责感知、采集、处理和监控环境数据,但是容易受限于资源。压缩感知理论表明,通过求解最优化问题,稀疏信号可以从少量的非自适应线性投影中得到高概率的精确恢复
如今,智能手机行业飞速发展,尤其是Android智能手机更是得到了广泛普及,成为人们重要的交流工具。但是Android智能手机上恶意软件泛滥,给用户的信息安全带来巨大的威胁。软件检测
随着信息技术的迅猛发展,海量数据日益增长,传统的信号处理模式已经越来越不能够适应这种局面,信号处理能力也受到了极大的挑战。压缩感知理论应运而生。压缩感知理论能够从
随着Web2.0的不断发展,用户之间的互动成为网络新的发展趋势。社区问答系统为用户的交互提供了便利的平台,这使得社区问答系统必须拥有庞大的知识数据库并能对新提交问题做出
随着云计算技术越来越多地应用到信息产业的各个领域,对云环境下多种异构资源进行监测和管理日益重要。云计算平台具有虚拟性、层次性以及动态性等特点,相比其它大规模分布式网
随着电子管理系统的高速发展,每天都有大量的商业经营数据产生,运用数据挖掘算法从这些经营数据中提取商业信息变得越来越有价值。  根据历史交易数据,将商品按照利润相关的某
随着信息技术的发展,多标记分类方法的应用也越来越广泛,现有的多标记算法一般没有充分学习标记之间的相关信息,而标记之间的信息对提高算法的分类性能很有帮助,所以有必要对
在预算资源有限且不需在计算机和网络硬件花费过多经费的条件下,为了对师生提供有效地学习和教学服务,云计算环境是教育机构开发教学和学习系统一个非常好的选择。同时,它也是当
机构的工作空间是机构伸缩,旋转,扭转等机构所能达到的空间范围,它的大小和形状反映了机构的工作能力。工作空间的研究不仅有助于评价机构运动学上的工作性能,也是衡量机构设计合
随着制造工艺和集成电路技术水平的提高,电子设备正在朝着小型化,轻型化发展。可穿戴计算机成为人们的新宠。传统的可穿戴计算机设计方法是基于COTS技术的,这样会造成可穿戴计算