论文部分内容阅读
伴随着Web2.0技术的发展,以Del.icio.us和Flickr为代表的社会化标注类网站迅速崛起,在这些网站上,用户首先需要注册获取一个用户名,随后就可以发布并标注自己的资源,同时也可以标注其他人的资源。被标注的资源有很多种,例如:图片(Flickr),书签(Del.icio.us),视频(YouTube)等,对于用户对资源的标注目前人们习惯称之为社会化标签。随着社会化标注类网站的迅速发展,累积了越来越多的社会化标签资源,再加上社会化标签本身所具有的用户相关性强、真实度高等特征,如何更好地利用社会化标签已成为人们关注的热点。社会化标签体现了用户对资源内容的着重点或者兴趣点,往往能够较真实地反映大众的观感。社会化分类标签是广大用户使用自己的语言自由添加的,它比Web网页本身的标题更加丰富,其次,社会化分类比机器自动抽取出来的元数据更加准确。再有,社会化关系网络中的三种实体(用户,资源,标签)之间存在的结构关系。本文充分利用了社会化分类标签的这些特点,将其应用到了Web搜索技术的优化中,主要完成了以下三个方面的工作:第一,本文对如何从社会化标注类网站中大量抽取社会化标签进行了研究。抽取过程分为两个阶段:网页爬取和网页解析。网页爬取中通过对网页url的控制,成功爬取了大量包含标签资源的网页,网页解析中通过对爬取的网页分析,找取了这些网页中标签、用户和被标注url的特征,利用这些特征将这三种信息抽取了出来,并保存到了SqlServer数据库中。第二,对社会化标注类网站进行了模型化表示,将其构造成一个无向三元图。接着简要介绍了PageRank算法,并根据其思路,在社会化网络中提出了PageRank-like算法,利用此算法计算出web网页的受欢迎度。第三,使用经典的排序学习算法RankNet,将Web网页的受欢迎度同传统检索模型相结合,对传统排序结果进行了重排序,并对重排序后的结果进行了重排序,发现重排序后的结果明显优于传统排序结果。RankNet中使用的训练集和评测排序结果的测试集,是通过机器的方法在ODP中获取的。