网页排序中的随机模型及算法

被引量 : 10次 | 上传用户:blowywang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的日益增长,搜索引擎已经成为互联网上最有效的信息获取工具.而在众多搜索引擎的背后,是信息检索技术,也即网页排序算法在起作用.网页排序根据所依赖的准则不同,又分为重要性和相关性两类排序.传统的研究方法是将两类问题分离开独立研究的.每类问题都对应着各自的算法,而算法之间没有共同点.通过我们研究发现,尽管这两类问题各不相同,但是都可以通过随机过程来模拟排序的过程.因此,在这个共同的基础上,我们分别讨论了两类排序问题中的随机过程模型,并设计了相应的算法.首先,在网页重要性排序中,我们通过分析用户浏览网页的行为建立了马氏骨架过程的框架.基于该框架发现,用户评价网页重要程度的标准包含两项:访问率和停留时问,而马氏骨架过程的平稳分布(在特殊条件下存在)可以恰当地反映这两项信息.同时在框架内,我们分析了三种不同的随机过程模型对用户行为模拟的合理程度,并设计了名为BrowseRank的一组新算法(本论文中提出了八种实现模型).通过与传统算法的实验对比,验证了随机过程框架的合理性和BrowseRank的高性能.并且其中一种实现模型在2008年国际信息检索大会(SIGIR)上一经提出,就受到学术界和工业界的高度关注.不仅论文被大会评为唯一一篇最佳学生论文,而且BrowseRank算法作为一项技术也被业界予以高度评价.各大新闻媒体(如CNET.com,WebProNews等)争相报道这一成果,并组织多次访谈节日,邀请各大搜索引擎的运营高层和研究人员从技术角度分析评价该算法,如WebProNews Video的访谈节目《MSN on BrowseRank》等.其次,在网页相关性排序中,我们主要针对排序结果联合问题建立了一个基于马氏链的监督学习框架.通过该框架,我们验证了对联合排序的两个方面的改进.首先是,监督学习方法对排序结果联合问题的必要性,通过将传统方法的监督化,使的原来很难解决的问题变的易于学习.其次是,马氏链方法在模拟排序信息传递过程的高效和高性能,将原来的NP-难问题转化为一个半正定规划问题,提高了效率.通过检验随机过程模型在两类排序问题中的有效性,我们总结出排序过程和随机过程的共同点:1)排序过程中待排网页之间的关系可以通过状态之间的跳转来模拟.2)排序过程就是一个将网页之间各种各样的关系因素综合起来考虑,并最终达到一个稳定状态的过程;而随机过程中,系统在状态之间跳转权衡,直到达到平衡,以马氏过程为例,其平稳概率分布就是跳转达到平衡后的分布.因此,将随机过程的思想应用到排序问题中是个合理的尝试,而我们在两类排序中取得的成果,也验证了这一想法,为以后更多的理解排序问题奠定了基础.
其他文献
《菊与刀》成书于二战尾声,是一部由美国人类学家鲁思·本尼迪克特撰写的有关日本人和日本文化的研究报告,对研究日本文化具有深远意义。文章通过分析《菊与刀》这本书中所描
管理控制的本质内涵不仅包括对企业内部资源的控制,还应包括对企业外部战略资源的控制,如对企业供应关系资本的控制。合作竞争成为现代企业处理其组织间关系的本质特征。管理
中医的营养食疗法主要建立在“脾胃论”学说的基础上。认为人类的康复及寿命的延长是食物调养增强患者抵抗力,补偿因疾病所引起的消耗和供给组织新生的必须物质。笔者仅从中医
<正> 我厂自1986年下半年以来,对生产工人实行全额计件工资制,把工资、奖金、加班费都捆在一起,按劳动的数量和质量进行分配。这一改革,就象在油锅里撒了一把盐,把工人的生产
利用廉价的非粮原料及采用新型高效的固定化发酵技术对于实现丁酸的工业化发酵生产具有重要意义。文中研究了纤维床生物反应器组成形式对固定化酪丁酸梭菌产丁酸过程的影响,
雷达的数字化是现代雷达的发展趋势,雷达数字化包括用数字部件代替大部分模拟部件,雷达信号波形的数字化产生、雷达波束的数字化形成、雷达信号的数字化处理等。米波圆接收阵
中医药在防治失眠方面积累了丰富的理论和实践经验。为拓展临床辨证思路提供更多依据,故主要从营卫、脏腑、病因3个方面,梳理近年来全国老中医药专家学术经验继承工作指导老
为了调节龙岩烟区植烟土壤酸度,提高土壤养分有效性,促进优质烤烟生长,于2010年12月至2011年1月共采集龙岩烟区具有代表性的植烟土壤366个,测定了土壤有效养分和pH值。采用传