【摘 要】
:
搜索引擎用户行为分析是网络信息检索技术的研究热点。通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的
【机 构】
:
华南理工大学软件学院,华南理工大学计算机科学与工程学院
【基金项目】
:
广东省科技计划资助项目(2007B01020049)
论文部分内容阅读
搜索引擎用户行为分析是网络信息检索技术的研究热点。通过分析用户点击行为,利用Web数据挖掘技术获取有用信息,提高搜索引擎的检索算法和检索服务的效率,把用户从大量无序的搜索结果中解放出来。本文针对传统并行计算模型在易扩展和易编程方面遇到的瓶颈,给出一种基于Ha-doop的海量日志数据处理模型,通过基于Hadoop的分布式文件系统HDFS与MapReduce并行计算模型提高系统扩展性和易编程性,并应用该模型分析了Sogou搜索引擎一个月内约2 200万条查询日志,分析结果对于掌握用户搜索行为,评测及改进搜索引擎检索、排序算法等均有较好的指导意义。
其他文献
目的:从居民疾病死亡率来探讨糖尿病与心脑血管疾病的相关性。方法:通过海门市人口死因资料,应用SPSS14.0软件包进行Pearson相关分析。结果:海门市居民糖尿病、脑血管疾病、心血管
本文根据在中国知网的文献检索结果,辨析了环境审计、资源环境审计、自然资源资产审计、自然资源资产离任审计、自然资源资产负债表等概念的区别与联系,进而研究了这些概念演
农用地定级估价是土地管理的重要组成部分,它主要包括两大部分:农用地的定级和农用地的估价,其中包括农用地的质量定级、转用定级和农用地的质量价格、转用价格。本研究在阐述农
资源禀赋是产品结构的基础,自然环境对产品结构有约束作用,产品结构合理化的必要条件是资源环境与经济社会协调发展。产品不同,资源的耗费量和污染物的排放量也不同,所以需要
鉴于地面沉降演化的地质系统渐变性特征,从主要致灾因子考虑建立地面沉降数值模型。基于情景分析设计3种地下水开采方案:方案一,保持2007年抽水条件不变;方案二,以2007年实际开采
儿童术后躁动的发病率高,具体发病原因尚不明确。综合术后躁动所引起的危险因素,阐述近年临床药物综合疗法及所采取的各项护理措施。术前访视充分沟通,术中减少引起躁动的各
为研究三维机织复合材料在拉伸-压缩循环载荷下的疲劳性能,对材料进行了应力比R=-1的疲劳试验。在不同的载荷水平下,分别进行了纬向和经向两类拉压疲劳试验。试验获得了试样
[目的]综合评价柴胡不同部位中的8种微量元素。[方法]采用因子分析方法对柴胡的花、叶、茎、根中微量元素含量数据进行分析,找出了柴胡中Ca、Mg、Na、K、Fe、Mn、Cu、Zn8种元
采用浸渍法制备了一系列MgO改性催化剂MgO/HMCM-22,利用X射线衍射、N2物理吸附-脱附、扫描电镜、傅里叶变换红外光谱、NH3及CO2程序升温脱附等技术对所制催化剂进行了表征.结
采用典型取样法,沿海拔梯度对五鹿山自然植被进行调查。结果表明:五鹿山主要群落类型为辽东栎(Quercus wutaishanica)群落、油松(Pinus tabulaeformis)群落、茶条槭(Acer gin