论文部分内容阅读
在科技飞速发展、信息高度膨胀的今天,互联网已经成为推动生产力发展最重要的工具。而且,人们获取自己所需的知识和信息的方式也正逐渐发生变化,从以往的在图书馆翻阅书籍,向网络查询和浏览网页等过渡。因此,在近些年,搜索引擎已然发展成为如今网络信息的重要入口之一。除了搜索结果的相关性之外,网页质量也开始受到各个搜索引擎的关注,这是因为网页质量的高低会直接影响着用户浏览网络时的体验和感受。如何快速且准确的衡量网页质量的高低,成为搜索引擎发展过程中需要解决的一个核心问题。 但目前很多搜索引擎用来衡量网页质量的方法还非常有限,通常只有简单的网页文本分析和网页间链接分析,或者对部分大型网站的绝对信任等。这种方法不仅片面,而且很容易被作弊者攻击,使结果变得极其不准确,无法到达预期的效果。 其实,在现实情况中,有很多因素会影响一个网页的质量,例如:网页的外观是否美观、结构是否合理、内容是否丰富、信息是否权威等等。但是,因为可供选择的特征过多,如果不加以适当的选择和优化,非但不能提高网页质量预测的准确性,相反还会使预测的速度变慢、效率降低。 本课题将针对目前网页质量评估中存在的问题,提出改进方案。首先,分别通过网页外观、网站信息、网页内容、网页链接、反作弊分析,这五个方面综合考虑,提出一些可供选择和考虑的影响因素。然后,对这些因素进行逐一的分析,根据他们的重要程度和性能等衡量标准进行适当的筛选。最终,根据筛选所得的特征组合,训练出一个简单、快速、准确的机器学习模型,并依此模型建立一整套全面而系统的网页质量评估平台。 实验表明,本文提出的方法在网页质量的评估上达到了比较好的效果。同时,也从另一个方面分析了诸多因素对网页质量的影响程度,并对特征进行了适当的选取和组合,这对整个系统的效果和性能上有一定的提升。此外,还分析了目前提出方法的不足之处,并对进一步的研究进行了讨论和展望。