论文部分内容阅读
随着互联网规模的日益增长,搜索引擎已经成为互联网上最有效的信息获取工具.而在众多搜索引擎的背后,是信息检索技术,也即网页排序算法在起作用.网页排序根据所依赖的准则不同,又分为重要性和相关性两类排序.传统的研究方法是将两类问题分离开独立研究的.每类问题都对应着各自的算法,而算法之间没有共同点.通过我们研究发现,尽管这两类问题各不相同,但是都可以通过随机过程来模拟排序的过程.因此,在这个共同的基础上,我们分别讨论了两类排序问题中的随机过程模型,并设计了相应的算法.首先,在网页重要性排序中,我们通过分析用户浏览网页的行为建立了马氏骨架过程的框架.基于该框架发现,用户评价网页重要程度的标准包含两项:访问率和停留时问,而马氏骨架过程的平稳分布(在特殊条件下存在)可以恰当地反映这两项信息.同时在框架内,我们分析了三种不同的随机过程模型对用户行为模拟的合理程度,并设计了名为BrowseRank的一组新算法(本论文中提出了八种实现模型).通过与传统算法的实验对比,验证了随机过程框架的合理性和BrowseRank的高性能.并且其中一种实现模型在2008年国际信息检索大会(SIGIR)上一经提出,就受到学术界和工业界的高度关注.不仅论文被大会评为唯一一篇最佳学生论文,而且BrowseRank算法作为一项技术也被业界予以高度评价.各大新闻媒体(如CNET.com,WebProNews等)争相报道这一成果,并组织多次访谈节日,邀请各大搜索引擎的运营高层和研究人员从技术角度分析评价该算法,如WebProNews Video的访谈节目《MSN on BrowseRank》等.其次,在网页相关性排序中,我们主要针对排序结果联合问题建立了一个基于马氏链的监督学习框架.通过该框架,我们验证了对联合排序的两个方面的改进.首先是,监督学习方法对排序结果联合问题的必要性,通过将传统方法的监督化,使的原来很难解决的问题变的易于学习.其次是,马氏链方法在模拟排序信息传递过程的高效和高性能,将原来的NP-难问题转化为一个半正定规划问题,提高了效率.通过检验随机过程模型在两类排序问题中的有效性,我们总结出排序过程和随机过程的共同点:1)排序过程中待排网页之间的关系可以通过状态之间的跳转来模拟.2)排序过程就是一个将网页之间各种各样的关系因素综合起来考虑,并最终达到一个稳定状态的过程;而随机过程中,系统在状态之间跳转权衡,直到达到平衡,以马氏过程为例,其平稳概率分布就是跳转达到平衡后的分布.因此,将随机过程的思想应用到排序问题中是个合理的尝试,而我们在两类排序中取得的成果,也验证了这一想法,为以后更多的理解排序问题奠定了基础.