基于社会化标签的Web网页搜索的优化技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong483
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Web2.0技术的发展,以Del.icio.us和Flickr为代表的社会化标注类网站迅速崛起,在这些网站上,用户首先需要注册获取一个用户名,随后就可以发布并标注自己的资源,同时也可以标注其他人的资源。被标注的资源有很多种,例如:图片(Flickr),书签(Del.icio.us),视频(YouTube)等,对于用户对资源的标注目前人们习惯称之为社会化标签。随着社会化标注类网站的迅速发展,累积了越来越多的社会化标签资源,再加上社会化标签本身所具有的用户相关性强、真实度高等特征,如何更好地利用社会化标签已成为人们关注的热点。社会化标签体现了用户对资源内容的着重点或者兴趣点,往往能够较真实地反映大众的观感。社会化分类标签是广大用户使用自己的语言自由添加的,它比Web网页本身的标题更加丰富,其次,社会化分类比机器自动抽取出来的元数据更加准确。再有,社会化关系网络中的三种实体(用户,资源,标签)之间存在的结构关系。本文充分利用了社会化分类标签的这些特点,将其应用到了Web搜索技术的优化中,主要完成了以下三个方面的工作:第一,本文对如何从社会化标注类网站中大量抽取社会化标签进行了研究。抽取过程分为两个阶段:网页爬取和网页解析。网页爬取中通过对网页url的控制,成功爬取了大量包含标签资源的网页,网页解析中通过对爬取的网页分析,找取了这些网页中标签、用户和被标注url的特征,利用这些特征将这三种信息抽取了出来,并保存到了SqlServer数据库中。第二,对社会化标注类网站进行了模型化表示,将其构造成一个无向三元图。接着简要介绍了PageRank算法,并根据其思路,在社会化网络中提出了PageRank-like算法,利用此算法计算出web网页的受欢迎度。第三,使用经典的排序学习算法RankNet,将Web网页的受欢迎度同传统检索模型相结合,对传统排序结果进行了重排序,并对重排序后的结果进行了重排序,发现重排序后的结果明显优于传统排序结果。RankNet中使用的训练集和评测排序结果的测试集,是通过机器的方法在ODP中获取的。
其他文献
随着汽车持有量的不断增加,城市交通系统的负荷日益加重,导致汽车倒车引起的交通事故也越来越多,这些事故常常给驾驶员带来很大的经济损失。因此,研究高性能的辅助泊车装置是
随着互联网技术的改革和发展,网络拥塞问题也随之而来。AQM就是缓解这一问题的关键技术。其中,作为AQM算法中应用最为广泛的RED算法备受关注。但是,大量的研究结果表明,RED算
数控技术的发展是制造业发展的推动力,传统的数控系统通常采用封闭式的系统结构,系统的软硬件不易扩展,兼容性比较差,并且专用系统的技术垄断也阻碍了技术的交流和进步,针对这些问
互联网汇聚了极其丰富的数据资源,促使越来越多的最终用户对网络资源的集成需求,以构建满足个性化需求的增值型互联网情景应用。互联网情景应用是一种新型的互联网信息集成应
信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索,提高信息访问的效率
由于GPS定位精度的影响,当GPS位置数据显示到电子地图上时,会出现车辆轨迹曲线偏离实际行驶道路的现象。如果不对其进行修正,基于位置服务的应用将受到很大的影响。为了消除
图像超分辨率重建是指利用一幅或多幅低分辨率图像来获取对应高分辨率图像的一个过程,作为一种后处理技术,其通过恢复图像在采集过程中所丢失的细节信息,来达到提升图像质量
计算机软件的广泛运用,大大提高了社会生产力,同时也带来了诸多安全问题。特别是近年来移动互联网的飞速发展,安卓智能手机和Java语言的使用越来越多,安卓系统的开放性导致大
DDoS攻击攻击力强、破坏性大,是网络安全最主要的威胁之一。DDoS攻击通过占领大量网络主机形成巨大的攻击流量,对攻击目标进行攻击,消耗被攻击目标的网络带宽资源和系统资源,致其
智能视频监控技术是视觉计算领域一个前沿和热点的研究课题,在军用和民用领域都具有重要的应用价值。本文针对其在物品安全方面的应用,对运动目标跟踪和偷窃/遗弃物体检测两