论文部分内容阅读
近十年来,搜索引擎在人们的日常生活中扮演了越来越重要的角色。同时,对搜索引擎的能力也提出了严峻的考验。搜索引擎技术也一直是计算机产业的研究热点,作为一个相对较窄的领域,但却引来了无数人的持续研究,时间之长、影响之广泛,在计算机发展史上也是少有的。搜索引擎的好与坏,没有绝对客观的标准。排序算法的评估,出发点和终结点都是人的感知。所以评估是搜索引擎技术的基础性工作,也是核心工作之一。有评测才有鉴别,评判一个搜索引擎的优劣的途径不是开发人员的自评,更不能简单的依靠感觉,而应该是相互可比的评测。因此评价一个搜索引擎质量的优劣是目前的当务之急,也应该是各搜索公司应该予以重点关注的问题。准确的对搜索引擎质量予以评价,可以帮助搜索引擎技术飞速发展,也可以帮助搜索引擎改进算法,最重要的是可以令广大用户得到更好的搜索体验,更容易的找到所求,减少不必要的麻烦。论文采用基于人工标注的方法来实现对搜索引擎的评估工作。通过众包,解决了评估人员少、评估工作量小的难题;通过建立用户组来区分评估能力不同的用户,解决了评估任务与评估员的能力不符的难题;通过建立一套认证体系,让用户领取认证、获得认证,提高用户的评估能力,进而提高评估的准确率、数据的可利用性;通过拼装URL、解析页面、保存页面等,解决了无法保存现场、评估步骤复杂的难题;通过任务管理,令紧急的评估任务先评估,不紧急的任务随时暂停,解决了任务无法灵活调度的难题;通过任务池,展示优先级最高的任务,用户同一时间只可以领取一个任务,长时间则释放任务等,解决了评估任务分发、时间限制等难题;通过插入监控,事先建立好一套已知答案的case,并在评估人员评估时随机插入任务,解决了任务监控不足、监控成本较高、准确率难以计算等难题;通过自动加人,屏蔽已得到正确答案的题目,解决了评估人力浪费、成本无法控制的难题;通过评估数据报表下载,使用方可以得到相关性打分、对比打分等数据,解决了数据难以利用等难题。评估数据可以被用于计算DCG、NDCG、ERR等评估指标,通过数据直接的体现搜索引擎效果的优劣,评估数据还可以用于机器学习、持续评估、抽样调研等。为了证明本系统的有效性,论文展示了评估效果并进行分析,并与使用本系统之前的数据进行对比,证明了论文的方法是高效可行的。