基于Lucene搜索引擎的中文全文信息检索技术的研究

被引量 : 0次 | 上传用户:yang176239053
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源的急剧增长,人们对于如何快速有效地从海量的网络信息中,抽取出对其有价值的、潜在的信息,使之能有效地被应用在管理和决策中给予了越来越多的关注。信息检索技术帮助用户从海量的信息中提取出他们所需要的有用信息,节省了用户的时间,提高了用户的工作效率。信息检索中的中文检索与西文检索在实现的机制和原理上基本一致,但由于汉语本身的特点,必须引入对于中文语言的处理技术,而中文分词技术就是其中很关键的部分。论文首先阐述了与中文全文信息检索相关的关键技术,包括:信息检索的概念、中文分词算法的概念、文档相关度排序算法的概念。论文系统地比较分析了四种主要的中文分词算法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法,总结了它们各自的优缺点及其在中文分词各个评价因素上的优劣特性。论文在Lucene原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索Pagerank以及主页加分方式,改进了原有的排序算法。论文的主要工作是基于Lucene搜索引擎,设计并实现了一个中文全文信息检索原型系统。提出了对于算法和系统的各种改进,即索引预处理、关键词提示的操作优化、引入停止词分词算法、正向最大匹配算法的改进、逆向最大匹配算法的改进。通过实验,将改进后的词典分词方法与Lucene的自动切分方法:一元分词法和二元分词法进行比较后,验证了基于本文提出的改进的词典分词方法的优势。论文采用了基于用户行为的二次检索,Pagerank以及主页加分方式,改进后的文档相关度排序算法利用了用户对文档的主观评价,显著地提高了搜索系统的准确度。最后,论文对基于Lucene搜索引擎的中文全文信息检索系统的实现方法进行了总结,并对未来进一步的研究工作进行了展望。
其他文献
<正> 北京市总工会法律服务中心于2000年3月挂牌成立,是全国工会系统首家法律服务机构,是全国工会系统惟一一家承担职工法律援助的机构。中心作为法律服务机构,专门为职工和
随着我国社会管理体制改革的深入,原来由政府和企事业单位统包统揽的社会管理与服务职能开始分化并逐渐回归于社区。居委会作为城市社区的基本单元,是大量社区工作主要的承载
在中国传统教育思想中,理学家的教育思想一直倍受人们关注。本文所讨论的南宋时期理学家的童蒙教育思想就是其中的重要组成部分。南宋时期政治相对稳定,经济繁荣发展,学术思
关于电子计算机的一些发展,已经置会计人员处于一个需作出抉择的重要关头,这对内部会计和外部会计均已日益明显。对于管理会计和公共会计,过去几年发生事件的影响比过去所有
混凝土构件内部缺陷的判断,目前还是以规范为标准,以检测技术员的经验判断为主。而某些混凝土构件在地下或水下,属隐蔽工程,如混凝土灌注桩,其施工程序繁、技术要求高、施工
创建文明城市活动,是构建社会主义和谐社会的有效载体,是加强党的执政能力建设的具体实践,同时也是密切党与人民群众联系的重要途径。深入开展创始文明城市活动,是推进社会主
随着现代科学技术的不断发展,高新技术在军事领域得到了广泛应用,现代战争进入了高技术战争的时代。战争对部队的机动性、流动性的要求也愈来愈高。军用方舱就是在这种情况下
论述了沈阳市首例CAF涡凹气浮与生物接触氧化工艺相结合,在制革废水处理中的应用.制革厂废水经预处理、气浮和生化工艺处理后,CODcr、SS、Cr5+、S2-去除率达85%~99.8%,出水水
<正>2019年1月30日,住建部办公厅印发《关于支持民营建筑企业发展》的通知,从推进统一建筑市场体系建设,优化招投标竞争环境,畅通民营建筑企业沟通渠道等6方面,支持民营建筑
目的 :旨在为防治大鼠半乳糖性白内障提供实验依据 ,进而为探索防治老年性白内障提供一定的理论依据。方法 :分别给予纯系 Wistar大鼠 4~ 5周龄腹腔注射 SOD,SOD和 Zn,SOD、 Z