中文网页信息检索测试集的构建、分析及应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:wolfboy5566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网页信息检索测试集 CWT,并组织了SEWM中文网页检索评测,希望在国内外各个研究小组的共同参与下建立并完善CWT,一起推动中文网页信息检索技术的发展。 本文在信息检索评测领域有如下贡献: 1.实施并构建了大规模中文网页信息检索测试集CWT。本研究详细介绍了测试集的三个部分文档集、查询主题集和相关文档集的构建过程,实施过程致力于使测试集具有较高的质量。构建了三个测试集:CWT100g、CWT200g和CWT20g,包括285个主题提取主题和1,185个导航搜索主题,并对主题构建了相关文档集。该系列测试集在SEWM中文网页检索评测中被指定为测试集,供数十家研究机构使用。本文提出的构建测试集的方法为以后的研究提供了参考。 2.对CWT测试集的三个部分进行了分析,研究结果表明CWT测试集具有可用性,能作为进一步信息检索与评测研究的基础。首先,文档集在网站规模上近似服从Zipf分布,网页出度近似服从幂级数规律,与真实的Web特点相似;其次,TD查询主题大部分是4个汉字、2个词构成的词组,这与查询日志中的查询词统计规律相似,在一定程度上能反映真实的检索情况,TD主题难易度均匀分布,兼顾了难、中、易三类主题;最后,SEWM-2006和SEWM-2007的相关判断完整性分别约为80%和66%,基于它的评测结果是可靠的,而对相关文档集一致性进行分析得到的结论是:相关判断的第二个步骤“检查”是必要的。 3.组织了SEWM中文网页检索评测,将CWT测试集应用于评测中。我们给国内信息检索研究者提供了一个标准规范的评测平台,对从2004年开始的历届评测情况进行了总结,详细介绍了评测流程、评测任务、检索结果提交格式等,对评测结果进行了分析。评测相关的数据都放在评测网站http://www.cwirf.org上,包括历届的评测通知、评测指南、提交的检索结果及技术报告等。另外还提供了链接提取等工具,帮助信息检索研究者更好的使用CWT。
其他文献
提高摄像机标定精度,一直都是机器视觉在实际应用中最为关心的问题。高精度工业测量和新兴的3D打印技术等,对不可接触物体的精确建模提出了更高的要求,而摄像机标定的结果直接影
近年来,基于人体生物特征的身份识别技术越来越受到国内外学术界、企业界、政府以及国防军事部门的高度重视,并且产生了巨大的社会与经济效应。人体生物特征识别技术是指利用人
神经网络一直是模式识别领域中研究的热点。由于神经网络具有非常好的学习能力和泛化性能,以及其统一的结构、易于硬件实现和类似生物神经系统的工作实现机制等优点,神经网络已
随着计算机技术和普适计算技术的发展,情感的表达与感知作为人与人交互的辅助手段愈发突显其重要性。近年来,人们不再局限于计算机单纯的使用功能,更加希望挖掘计算机的更多
已有模型资源的有效重用是计算机图形领域面临的重要课题之一。本文以常见的室内景物作为研究对象,利用体感设备针对景物采集所得的RGBD数据的分割结果在三维模型库中检索相
随着计算机技术的飞速发展和广泛应用,海量信息的开放与共享日益增强,信息安全性日益成为突出问题。数据库系统作为信息存储的主要场所,保证和加强其安全性是迫切需要解决的研究
随着社会的进步和发展,人们不断涉及到很多复杂的实际应用问题。他们对计算机的计算速度和智能性提出了挑战。演化算法是用计算机模拟大自然的演化过程,特别是生物进化过程,来求
串匹配是计算机研究领域的一个经典问题,是许多网络安全系统的关键技术之一.随着信息量的急遽膨胀,应用系统要求更准确、更快速的对海量信息进行分析过滤,采用简单关键词来描
静校正在地震资料处理中十分重要。经野外一次静校正后,残余的静校正量可用剩余静校正方法求出。剩余静校正问题实质上是一个非线性优化问题。遗传算法是一种重要的非线性全
本文所研发的“基于GIS的多目标地球化学信息管理与综合评价系统”以国土资源部与上海合作开展的“多参数立体城市地质调查项目”为背景。 上海社会经济近十余年来发展速