维文文本检索评测集构建及可视化方法研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:Tianic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的迅速发展,信息检索逐渐被人们看作为一个关注的热门话题,而对与检索系统的评价来说,在信息检索技术的发展有了巨大的影响。如今,维吾尔文网页也逐步推动,扩大。在此基础上人们也在设计出维吾尔文信息检索系统,方便用户快速准确的查找信息,查阅资料。但是由于在维吾尔文信息检索领域缺少了测试集,限制了信息检索技术的进步。测试集的构建是评估工作的关键方法,构建的质量也影响了评估工作的准确性。  本文参考了国内外测试集构建方法,提出了一个新的,针对维吾尔文信息检索系统的测试集构建方法。在本篇论文中做了以下主要工作:  (1)研究了通用的信息检索系统评价方法,构建了针对维吾尔文的测试集,采集整理从八个网页利用网络爬虫抓取下来的文本作为文档集,六个分类作为查询集,通过人工和可视化的方法建立的相关判断集。  (2)利用开源工具Processing和WordCram包来实现针对维吾尔文文本的标签云可视化呈现。提出了针对维吾尔文的文本可视化算法。  (3)设计出了一款基于Circle Packing模型的适合维吾尔文文本主题的分类可视化工具。并将此工具运用在了测试集构建方面和相关判断集结果呈现上。
其他文献
传统的模糊支持向量机中的隶属度是由样本点到类别几何中心的距离来确定的,在较大程度上消除噪声点或孤立点的同时也削弱了类边缘支持向量对分类超平面的影响。直觉模糊支持向
当人们使用搜索引擎在互联网中检索信息时,查询词中会出现拼写错误,这严重阻碍了人们获得其所需信息。这些拼写错误可分为两类:打字错误和认知错误。其中,认知错误是指人们知道某
虽然IPv4对Internet的发展做出了巨大的贡献,并在四十多年的应用中证明了它的健壮性,但是随着Internet迅猛发展,网络规模爆炸式的扩张,IP地址空间严重不足,网络性能变差,路由
神经网络是机器学习中最重要的模型之一,它基于无次序、无规则的样本数据集,试图从中提取出描述此样本数据集特征的数学模型。其中,BP神经网络因其结构简单、算法易于实现且
目前,XML文档数据得到越来越多的应用,尤其是在Web应用中。随着XML基准的不断改进以及XML文档应用数量和规模的日益增大,在这些应用的测试中对XML文档数据的需求,无论是数量上,还
网络的发展如今已广泛应用在各个领域中,针对于高等院校的素质教育,教学改革和考试改革势在必行,应用WEB技术的在线考试则成为当前众多学校改革的发展方向。因此,专业系统软件应
支持向量机在处理概率空间上的实随机变量的大量分类问题中体现了许多优势,然而它难以处理现实生活中客观存在的非概率空间上的非实随机变量的分类问题。基于此,本文提出了一
随着IT技术的发展,生物识别技术已经成为一个研究的热点领域。各国政府都纷纷资助生物识别技术方面的研究,该领域方面的学术会议吸引了政府和业界众多的参与者,理论研究的成果正
随着现代科技的发展,计算机被越来越多地应用于日常生活中,随之产生的是各类院校中计算机基础课程的广泛普及。计算机基础课程主要训练常用办公软件(Office)的操作技能,具有实践
随着经济的全球化、信息化和服务化,IT建设逐渐由技术转向业务,而业务交付不及时、缺少统一规划、应用间共享困难、功能个性化不足、开发低成本和高要求的矛盾导致企业应用系统