基于Lucene的中文自然语言搜索引擎

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:liang__fei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet技术的飞速发展,信息的发布与共享超越了时空的限制,人类进入一个前所未有的“信息爆炸”时代。互联网信息的极速膨胀提供给用户海量的信息资源的同时,也带来了寻找信息的困难。如果没有一个强有力的工具来帮助人们寻找、发掘有用的信息,人们就会被湮没在信息的海洋中,迷失方向。搜索引擎正是为了解决网络“信息迷航”问题而诞生的技术。它以一定的策略在因特网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。它成为连接用户和互联网的最佳纽带,起到网络信息导航的作用。然而由于搜索引擎技术涉及数据库管理、信息检索、人工智能、自然语言处理、机器学习等诸多学科,各商业公司都不愿意将自己的搜索技术公布于众,这使得搜索引擎的应用,受到了某种程度的限制。然而,开源工具Lucene的出现,使得搜索引擎开发者可以简单、快捷、并且有针对性地实现相当强大的搜索功能。首先,本文针对Lucene中的中文分析器不符合汉语的习惯,造成检索查全率、查准率以及检索性能不够理想,实现基于标准中文词库和前向最大匹配算法的中文分析器。实验证明:该分析器的分词结果更符合汉语的习惯,并且在检索速度方面性能提升了2-4倍,在检索召回率方面性能提升了59%。其次,本文对用户查询接口进行改进,实现基于自然语言理解的查询接口。对用户提交的以自然语言表述的问题进行分词处理,去除相关辅助词,最后提取出核心词进行查询。为更准确对用户提交的自然语言进行分词,本文采用两种相结合的双向扫描的方法,再利用利用词句切分概率对歧义字段进行处理。另外,本文通过对网页相关度、PageRank算法[1]Lucene评分系统进行研究,提出将PageRank算法引入Lucene评分系统,让系统能够将更重要的网页更好的返回给用户。同时利用simhash算法[2]来计算返回页面之间的相似度,检测过滤相似网页。并且通过对排序算法的研究,改进原有快速排序。最后,完成自然语言搜索引擎原型系统的设计和实现。原型系统对上海交通大学网络资源进行整合。试验证明,改原型系统具有较好的性能和实用性,为后续相关的研究工作提供了良好的平台。
其他文献
从苗圃地选择、种子处理、播种方法、苗期管理等方面总结核桃播种育苗技术;从嫁接砧木选择、接穗采集、嫁接方法、技术要点、嫁接苗管理、苗木分级等方面总结核桃苗木嫁接技
多孔水泥混凝土作为一种新型路用材料,其均匀的孔隙-骨架结构使路面/轮胎噪声得到很好的宣泄,抑制单极子噪声源的产生,能够很好的缓解水泥混凝土路面上的交通噪声,降低对周围
“自然”的文化哲学外延,在19世纪浪漫主义时期达到了顶峰。代表了“自由”和“个性解放”的“自然”,丰富了浪漫主义诗学的哲学内涵。因而在浪漫主义诗人的眼里,自然是有感
在能源和环境问题日益凸显的今天,在乡镇住宅中推广使用太阳能技术有非常好的社会效益、经济效益和环境效益。我国太阳能资源丰富,具有良好的建设太阳能住宅建筑的自然条件,
<正>由疑惧引发的质疑"一带一路"提出的时间是2013年下半年,当时正值俄罗斯与欧盟激烈争夺乌克兰。中国领导人此时提出的"一带一路"构想引起俄罗斯智库专家的疑惧,他们的第一
<正>中国证监会2010年1月8日晚宣布,国务院已原则同意开展证券公司融资融券业务试点和推出股指期货品种。虽然融资融券业务在世界上一些成熟的资本市场已经开展多年,但对中国
语言是交际与思维的工具,也是文化的重要组成部分,对外汉语教学是一种语言教学,也是一种文化教学。随着全球化的日益加深和汉语热的不断升温,对外汉语教学中的文化因素越来越
本文在分析城市交通信号控制研究现状和交叉口交通信号控制原理、评价方法的基础上,结合Matlab中的模糊工具箱设计了两级模糊控制器,对单个交叉口交通信号进行模糊控制仿真;
园林是城市文化的载体之一,从文化的角度探讨唐长安城园林体系内皇家园林、寺观园林、私家园林和曲江公共景区的历史背景、风格特点与发展变迁。
目的牙周病是人类最常见的慢性感染性疾病。近年来,许多国内外的专家研究证实牙周感染可能是引发全身系统疾病(如:心血管疾病、糖尿病,呼吸系统疾病、消化道疾病、骨质疏松、