论文部分内容阅读
随着信息化时代的迅速发展,信息检索逐渐被人们看作为一个关注的热门话题,而对与检索系统的评价来说,在信息检索技术的发展有了巨大的影响。如今,维吾尔文网页也逐步推动,扩大。在此基础上人们也在设计出维吾尔文信息检索系统,方便用户快速准确的查找信息,查阅资料。但是由于在维吾尔文信息检索领域缺少了测试集,限制了信息检索技术的进步。测试集的构建是评估工作的关键方法,构建的质量也影响了评估工作的准确性。 本文参考了国内外测试集构建方法,提出了一个新的,针对维吾尔文信息检索系统的测试集构建方法。在本篇论文中做了以下主要工作: (1)研究了通用的信息检索系统评价方法,构建了针对维吾尔文的测试集,采集整理从八个网页利用网络爬虫抓取下来的文本作为文档集,六个分类作为查询集,通过人工和可视化的方法建立的相关判断集。 (2)利用开源工具Processing和WordCram包来实现针对维吾尔文文本的标签云可视化呈现。提出了针对维吾尔文的文本可视化算法。 (3)设计出了一款基于Circle Packing模型的适合维吾尔文文本主题的分类可视化工具。并将此工具运用在了测试集构建方面和相关判断集结果呈现上。