网页质量的评估和学习方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:shening
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技飞速发展、信息高度膨胀的今天,互联网已经成为推动生产力发展最重要的工具。而且,人们获取自己所需的知识和信息的方式也正逐渐发生变化,从以往的在图书馆翻阅书籍,向网络查询和浏览网页等过渡。因此,在近些年,搜索引擎已然发展成为如今网络信息的重要入口之一。除了搜索结果的相关性之外,网页质量也开始受到各个搜索引擎的关注,这是因为网页质量的高低会直接影响着用户浏览网络时的体验和感受。如何快速且准确的衡量网页质量的高低,成为搜索引擎发展过程中需要解决的一个核心问题。  但目前很多搜索引擎用来衡量网页质量的方法还非常有限,通常只有简单的网页文本分析和网页间链接分析,或者对部分大型网站的绝对信任等。这种方法不仅片面,而且很容易被作弊者攻击,使结果变得极其不准确,无法到达预期的效果。  其实,在现实情况中,有很多因素会影响一个网页的质量,例如:网页的外观是否美观、结构是否合理、内容是否丰富、信息是否权威等等。但是,因为可供选择的特征过多,如果不加以适当的选择和优化,非但不能提高网页质量预测的准确性,相反还会使预测的速度变慢、效率降低。  本课题将针对目前网页质量评估中存在的问题,提出改进方案。首先,分别通过网页外观、网站信息、网页内容、网页链接、反作弊分析,这五个方面综合考虑,提出一些可供选择和考虑的影响因素。然后,对这些因素进行逐一的分析,根据他们的重要程度和性能等衡量标准进行适当的筛选。最终,根据筛选所得的特征组合,训练出一个简单、快速、准确的机器学习模型,并依此模型建立一整套全面而系统的网页质量评估平台。  实验表明,本文提出的方法在网页质量的评估上达到了比较好的效果。同时,也从另一个方面分析了诸多因素对网页质量的影响程度,并对特征进行了适当的选取和组合,这对整个系统的效果和性能上有一定的提升。此外,还分析了目前提出方法的不足之处,并对进一步的研究进行了讨论和展望。
其他文献
步态是指人走路的样子,心理学实验以及解剖学理论表明其具有一定的人人相异性,可以用来进行身份识别。同时,步态具有可远距离获取、易于采集,非接触性、难于隐藏或伪装等特点
随着Internet逐步演化为一个全球最大规模的开放计算平台,面向服务的计算(SOC)成为了Internet开放环境下构建应用解决方案的一种重要计算范型。Web服务标准的出现为Internet环
随着网络融合的推进,用户需要一个智能的服务环境来动态聚合不同网络的能力。语义Web服务是基于本体的新一代Web服务技术,其开放和标准的服务接口是提供异构网络能力的一种新
中间件通过屏蔽底层操作系统、数据库管理系统和网络的差异,为上层应用提供贴切的业务服务。然而,随着中间件系统运行环境变得开放动态和业务系统会随着用户需求的变化发生变化
研究复杂实时反应式系统中的调度问题,是保障复杂实时反应式系统实时性和可靠性的重要手段,又能对实时调度理论等相关领域的发展起推动作用。复杂实时反应式系统以遍布在系统中
近些年来,新兴的分形几何学在不断地发展,并且在一些研究领域中得到了广泛的应用,如计算机、地理、交通等等。分形几何的最基本特征是自相似性,即每个局部按照一定的比例放大
空间数据库的研究始于20世纪70年代的地图制图与遥感图像处理领域,其目的是为了有效地利用卫星遥感资源迅速绘制出各种专题地图。随着地理信息系统、计算机辅助设计与制造、机
森林火灾是林业灾害中对社会、经济及环境发展影响范围最广和破坏性最大的一种自然灾害。森林火灾是一个极其复杂的自然现象,受众多自然因素和社会因素的影响,包括可燃物类型
迄今为止,研究者虽然对图像分类问题进行了大量研究,也取得了一些研究成果,但多数研究工作是基于开放领域的,类别粒度较粗,难以很好地满足特定应用场景下的精细分类需求。相对于传
人类发展的历史,就是解决问题的历史。计算机的出现,加快了人类解决问题的速度,也带来了与之相对应的问题。在一些反复出现的问题上,人们试图找出最优的解决方案,以期可以达