论文部分内容阅读
入口页面(主页)查询结果只有一个,并且用户的查询词常常是简短的页面名称,由于它要求更高的精准度,一般认为是较为困难的.依据语言模型分析,挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域.同时考虑到非内容网页优先级(URI,type等)特征的重要性,建立综合内容域和非内容网页特征的检索模型,通过URL类型优先级(URL-type prior)的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系.据此提出基于相关子页面的入口页面提取算法PERS(page extrac