中文全文检索技术研究

被引量 : 0次 | 上传用户:DotNetStu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索技术是信息处理的各领域中的重要技术。本文对全文检索技术进行了以下几方面的研究: 1、介绍了国内外检索技术的发展过程,讨论了普通文本检索、概念信息检索、超文本信息检索、多媒体信息检索、数据挖掘等的技术特点。 2、研究了全文检索技术的两种主要索引方法的特点和实现过程。其中基于字表的检索方法由于具有无需分词、实现容易的优点,因而在实践中被广泛采用。然后针对该算法存在的“索引库较大、匹配速度不高和查全率较高而查准率较低”等缺点,引入了第二种检索方法:基于词表的检索方法。 3、研究了中文自动分词技术,这是中文全文检索钟的关键技术。对其中的几种方法,如机械匹配法(即MM法)、特征词库法、约束矩阵法、语法分析法和理解切分法等做了详细的比较和分析,并归纳出各自特点。其中MM法由于实现简单,并且是其它方法的基础,本文对其进行了着重介绍。 4、在MM方法的基础上,本文对一种利用基于字、词和词组的混合模型来实现中文全文检索的方法进行了探索和研究。该算法的基本原理是:把所有的单字、词还是词组都作为语词,建立汉语词语二叉树。分词时,读取二叉树右边的内容,并比较左节点的长度,得到有意义的最小长度的语词。然后又在这种算法的基础上进一步讨论了一种改进的MM法以减少词语的歧义切分。 5、设计了校园网内Web页面的搜索引擎,该引擎的主要特点是:将搜索引擎主要分为前端和后端,后端获取Web文档,然后分词,建立和更新索引;前端提取索引库中的内容,向客户提供检索服务。在该系统中利用网络蜘蛛,扫描校园网中所有HTML文档,寻找所有与检索关键字相关的页面。并将向量空间的思想运用到其中,即可提取出其中的资源中心,即检索结果。
其他文献
嵇康是魏晋时期竹林七贤中的代表人物之一,也是魏晋时期重要的思想家之一。在司马氏以封建名教治天下时期,他提出了以“越名教而任自然”为核心的自然主义思想,在当时真所谓惊世
唐山工业文化的形成与发展和中华民族的探索、奋进、复兴、进取与创新的进程相吻合。洋务运动是唐山近代工业发展的起点,洋务人士在"寓强于富"的探索中兴办的一些民用工业,使
砖由于施工方便、价格低廉等优点而在建筑中广泛应用。但随着建筑节能的发展,传统实心砖已不能满足保温的要求,为了更好地促进重庆市及周边地区建筑节能的开展,必须开发出满足保
政治人格是政治主体在一定传统政治文化和现实政治环境的双重影响下,逐渐形成的一种政治生活中的持久性心理特征的总和,是政治主体内在动力系统(隐性)与外在政治形象(显性)的统
本研究首次利用蜜蜂形态学标记、MDHⅡ同工酶标记及RAPD分子标记对意大利蜜蜂品种下的美国意大利蜜蜂(美意)、澳大利亚意大利蜜蜂(澳意)、本地意大利蜜蜂(本意)、平湖浆蜂等
本文围绕着中国社会文化由传统向现代的转型中,家族文化对“人”的制约与戕害,研究家族的解体构成的象征意义,探讨在家族生命群像背后隐匿的精神空间、拯救力量和消解能力。
核心素养与课程改革的深化有着直接关联。舞蹈美育教育要有质量,应该围绕核心素养而展开。本文从核心素养视角出发,结合高职舞蹈美育课程的教学现状,提出了新时期以培养高职
根据嵌入式学科化服务兴起的背景,分析泛在知识环境对图书馆学科服务的影响,探讨嵌入式学科服务的内涵、特点以及高校图书馆嵌入用户物理空间与虚拟空间的学科服务方式。
数字阅读是基于数字文本知识和数字媒介信息获取的一种阅读活动和文化现象。数字阅读的基本理论问题包括概念、主体、客体、过程、类型以及数字阅读空间。文章从三类概念的辨
文章对学科馆员与嵌入式学科馆员的相关性进行了界定,结合国内外高校嵌入式学科服务理论与实践现状,就服务模式、服务内容、服务形态、服务战略几方面的差异性进行了总结归纳