基于网络查询日志的个人搜索主题分析与探索

来源 :山东财经大学 | 被引量 : 0次 | 上传用户:cynthia0737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,搜索引擎使用率越来越高,由此产生的网络查询日志也呈现出爆炸性增长的趋势。网络查询日志蕴含着很多有价值的信息,其中搜索主题就是一种非常有价值的信息。搜索主题在优化搜索引擎和分析用户行为等方面有着重要作用。目前关于搜索主题方面的研究主要是基于整个网络查询日志对所有的用户做主题分析,没有对个人搜索主题情况进行研究。另外,通过现有的网络查询日志session划分的方法得到的划分结果不够精确,无法满足像搜索主题模型这样对session的划分精度要求很高的模型。针对以上问题,本文在前人研究的基础上进行了进一步研究与探索。针对session划分结果不精确问题,本文抽取查询时间间隔、查询项语义相似度和查询项之间的加减词作为特征属性,并采用朴素贝叶斯法对网络查询日志进行高精度session划分。为了对个人搜索主题进行分析,本文结合网络查询日志的特点和词突发现象,构建了两个模型:查询词与URL主题无关的搜索主题模型(TIM)和查询词与URL主题相关的搜索主题模型(TDM),并通过Beta分布描述主题的时间变化趋势。本文工作的创新点如下:第一,本文提出了的可以高精确度划分网络查询日志session的方法——朴素贝叶斯法。该方法通过将session划分问题转化为判断查询项是否为session边界的问题,然后采用朴素贝叶斯算法进行分类。查询项的特征属性有以下三个:session划分的时间间隔、查询项的语义相似度和查询项之间的加减词。为了提高查询项特征属性的可靠性,在计算查询项语义相似度的时候,采用了深度学习中词向量的表示方法,提出了Query2Vector模型,将查询项用向量表示,然后计算余弦相似度。并通过实验证明,本文中提出的session划分方法与目前常用的方法相比更有优势。第二,本文通过研究自然语言处理中的词突发现象,并结合搜索主题模型方面的研究成果,创造了利用网络查询日志中查询词和URL的突发现象获取个人搜索主题的差异的新方法。本文中将网络查询数据按用户id分为不同的文档,这样不同文档中词的突发性就会在主题中显现出来,从而体现不同用户的主题差异性。本文结合网络查询日志的结构特点构建了两个搜索主题模型,查询词与URL主题无关的搜索主题模型(TIM)和查询词与URL主题相关的搜索主题模型(TDM),并通过Beta分布描述主题的时间变化趋势。然后给出了模型的生成过程、推导方法和模型的参数估计方法。最后的实验结果也表明,本文提出的搜索主题模型能够有效地发现个人用户搜索主题的差异,并且与其他搜索主题模型相比具有明显的泛化性能优势。
其他文献
海藻酸盐(alginate,ALG)是从藻类和细菌中提取的无支链天然多糖。水中藻类非常丰富,因此海藻酸盐在自然界中的储量巨大。在工业生产中,ALG的年产量可达到约为三万吨。因为海藻酸盐具有无毒性、成凝胶性、成膜性、粘性、安全性、生物兼容性和生物降解性,所以广泛应用于食品、医药、农业和工业等众多领域。同时,海藻酸钠作为一种用途广泛的生物聚合物,可用于废水处理、有毒金属吸附、医药载体等。ALG也是一种
当煤矿发生突发事故时,避难硐室是井下受灾人员重要的可逃生庇护场所,为避险人员提供了紧急的安全区域,不仅大大减少了煤矿意外突发事故的伤亡人数,更有利于井下开展应急援救
有性生殖是高等真核生物繁衍后代的基本途径,精子与卵子的融合包括配子结合与膜融合两个过程,是有性生殖的关键步骤。哺乳动物精卵融合是一个多分子参与的过程,但其详细的细胞分子机制仍不明确。精子上的IZUMO1和卵子上的JUNO及CD9是精卵膜融合过程中已知不可或缺的膜蛋白。其中IZUMO1与JUNO相互识别介导精卵粘附,然而分别表达IZUMO1和JUNO的体细胞能互相结合但不能融合。CD9的功能未知。因
页岩气是指赋存于以页岩为主的岩系储层中的非常规天然气,相比常规能源具有可采储量较大和生产周期长的优势,是近年来能源开发的热点。由于页岩储集层孔隙度和渗透率较低,所
本文研究了带阻尼项的2DNavier‐Stokes方程和粘性Cahn-Hilliard方程指数吸引子的存在性,同时讨论了带阻尼项的3DNavier‐Stokes方程拉回吸引子的上半连续性。首先,考虑2D Navier-Stokes方程在含有阻尼项时它在有界区域上的指数吸引子。当阻尼项αuβu在b30和1/3£b£2时,方程分别存在弱解和强解,进一步验证了解半群存在有界吸收集以及满足条件C,从而得到
[研究目的]在全球范围内,乳腺癌作为女性发病率以及死亡率最高的恶性肿瘤之一,美国癌症协会(the American Cancer Society)统计的最新结果发现,乳腺癌占癌症相关死因的14%;在我国乳腺癌的发病率也呈逐年递增的趋势,并且发病年龄越来越年轻化[1]。大约65-75%的乳腺癌患者是雌激素受体(estrogen receptor)或孕激素受体(progesterone recepto
翻译重要的标准是忠实。当然,关于忠实的标准有不同的角度和层次,比如语义上,语言形式上,行文风格上等等。一般来说,内容的忠实被认为是最重要的。中国翻译家严复曾经提出“信”、“达”、“雅”的翻译标准,而这其中最为基本的一点就是信,即译文需忠实于原文。美国的翻译家尤金·奈达也先后提出动态对等和功能对等的理论,强调还原语言内容比还原外在形式更为重要。显然,忠实常常可以分为不同的层面,比如形式、语义、风格等
目的:研究Zn0.5Fe2.5O4@SiO2复合磁性纳米颗粒在交变磁场中对幽门螺杆菌(Helicobacter pylori,H.pylori)的体外抑菌效果及其应用于体内的生物安全性,探讨利用磁性纳米颗粒的
近几年,空间数据库查询技术在智能识别系统、地理信息系统等领域具有越来越主要的地位。在空间数据库中,近邻查询是重要查询类型之一,但现有的最近邻查询并不适合应用于实际生活中的所有问题,所以近邻查询的研究方向已由理想情况过渡到复杂的路网环境,研究对象也由数据点对象转换为线段对象。由于现有的近邻研究并没有查询对象为不规则图形的解决方法,因此本文重点解决在空间数据库中基于欧式环境、障碍环境以及路网环境的线段
随着实时光线追踪(real-time ray tracing)技术的兴起,实时绘制与真实感绘制的界限愈加模糊。被认定为未来图形学发展必然趋势的实时光线追踪技术,在当前的起步阶段,受限于目