【摘 要】
:
在以往的维吾尔文全文检索系统中,由于维吾尔文本身构词方式及形态的灵活多样性,不可避免地需要进行词干切分,并以词干作为索引项建立索引,然而切分工具本身的不足和局限性,
论文部分内容阅读
在以往的维吾尔文全文检索系统中,由于维吾尔文本身构词方式及形态的灵活多样性,不可避免地需要进行词干切分,并以词干作为索引项建立索引,然而切分工具本身的不足和局限性,使得对一部分的词干无法准确识别或识别错误,间接地降低了检索系统的检索效果。为了解决以上问题,本文根据维吾尔文的构词特点,通过切分适当长度的字符n-gram来构建索引,并在该索引之上建立了N元语言模型,同时在建立语言模型过程中,为了解决单个文档模型的数据稀疏问题,选取合适的平滑算法对文档语言模型和语料库语言模型分别进行优化,为使检索结果更加准确,在评分过程中采用了多个模型混合的评分策略。最后,利用Lucene开源工具实现了一个基于字符N元模型的维吾尔文全文检索系统,并通过python爬虫抓取维吾尔文新闻语料进行检索测试,测试结果表明使用参数为2000的Dirichlet平滑算法的字符长度为3和字符长度为4的混合一元模型具有最好的检索效果,同时该方法较传统的方法有所提升。
其他文献
测试用例是软件测试技术中的核心角色,测试用例的人工生成不能满足现代软件开发的需要,使得测试用例自动生成成为研究热点。在测试用例自动生成方法中,有基于规格说明和基于
随着大规模存储技术、互联网及数字通信业务的迅速发展,电子出版、数字图书馆、互联网网站以及移动通信正在引发着不断膨胀的文本海啸。这种快速、无序的信息增长对于信息的使
并行测试主要目的就是提高测试系统运行效率,多个测试任务同时运行,降低设备闲置时间,系统资源得以有效利用。并行测试中的任务调度的优化是并行测试技术的核心问题,建模和分
目前,数据挖掘技术越来越为人们所重视。而分类是数据挖掘领域当中一个非常重要的问题,聚类算法和支持向量机在处理分类问题上都表现地非常的出色,成了当今数据分类的两种十分有
在药物研发过程中,需要通过从海量化合物数据库中筛选出质量较高的药物先导物来实现药物设计成功效率的增加,因此,类药性的概念应运而生,药化学家们通过这一概念对分子结构特征和性质进行研究,并总结出了类药性预测指标。另外,化合物的构造活性关系研究也是药物设计的重要方式之一,在发现和研究新的药物的过程中,研究化合物活性与研究化合物类药性同样重要。在大多传统的化合物活性研究中,通过动物活体测验和检测方式对化合
近年来,随着计算机信息化进程的发展,越来越多的视频设备以及技术应用到人们的学习以及日常生活中。视频会议、视频搜索引擎技术以及视频数据查询等等技术的应用,在包括电影
无线传感器网络覆盖协议是无线传感器研究领域的一个重要内容,节点密集部署,会造成过多的能量消耗和大量的数据冗余,覆盖控制可以使无线传感器网络的空间资源得到优化分配,更
车载网络系统已广泛运用于汽车行业,它替换了传统庞大的布线系统。CAN总线是使用最广泛的网络标准之一,它支持分布式实时控制并具备高性能与高可靠性的特点。然而伴随着汽车
基于内容的图像检索就是指在用户给定查询图像的条件下,根据图像的内容从大规模的图像库中搜索出与查询图像一致或相似的图像,但是图像低层视觉特征和高层语义之间的“语义鸿