论文部分内容阅读
随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网页信息检索测试集 CWT,并组织了SEWM中文网页检索评测,希望在国内外各个研究小组的共同参与下建立并完善CWT,一起推动中文网页信息检索技术的发展。
本文在信息检索评测领域有如下贡献:
1.实施并构建了大规模中文网页信息检索测试集CWT。本研究详细介绍了测试集的三个部分文档集、查询主题集和相关文档集的构建过程,实施过程致力于使测试集具有较高的质量。构建了三个测试集:CWT100g、CWT200g和CWT20g,包括285个主题提取主题和1,185个导航搜索主题,并对主题构建了相关文档集。该系列测试集在SEWM中文网页检索评测中被指定为测试集,供数十家研究机构使用。本文提出的构建测试集的方法为以后的研究提供了参考。
2.对CWT测试集的三个部分进行了分析,研究结果表明CWT测试集具有可用性,能作为进一步信息检索与评测研究的基础。首先,文档集在网站规模上近似服从Zipf分布,网页出度近似服从幂级数规律,与真实的Web特点相似;其次,TD查询主题大部分是4个汉字、2个词构成的词组,这与查询日志中的查询词统计规律相似,在一定程度上能反映真实的检索情况,TD主题难易度均匀分布,兼顾了难、中、易三类主题;最后,SEWM-2006和SEWM-2007的相关判断完整性分别约为80%和66%,基于它的评测结果是可靠的,而对相关文档集一致性进行分析得到的结论是:相关判断的第二个步骤“检查”是必要的。
3.组织了SEWM中文网页检索评测,将CWT测试集应用于评测中。我们给国内信息检索研究者提供了一个标准规范的评测平台,对从2004年开始的历届评测情况进行了总结,详细介绍了评测流程、评测任务、检索结果提交格式等,对评测结果进行了分析。评测相关的数据都放在评测网站http://www.cwirf.org上,包括历届的评测通知、评测指南、提交的检索结果及技术报告等。另外还提供了链接提取等工具,帮助信息检索研究者更好的使用CWT。