基于后缀数组与Lucene的搜索引擎研究与设计

被引量 : 0次 | 上传用户：cchomonkey

【摘要】

：

搜索引擎已经成为人们从浩如烟海的互联网上及时、全面、准确获取信息的有效工具。但其实用性还远没有达到人们的要求,甚至公认技术领先的Google,常常也会大量返回与用户想要

【作者】

：

张楠

【发表日期】

：

2009年期

【关键词】

：

后缀数组 Lucene 中文分词搜索引擎

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

搜索引擎已经成为人们从浩如烟海的互联网上及时、全面、准确获取信息的有效工具。但其实用性还远没有达到人们的要求,甚至公认技术领先的Google,常常也会大量返回与用户想要结果不相关的内容。准确的说,搜索结果的质量较低是目前突出的问题,这包括查准率和结果相关性两个方面。用户的需求是以最快的速度获得与查询最相关的信息。围绕这个问题涉及高效的组织中文分词,进而开始全新的索引器设计。本课题将后缀数组技术引入搜索引擎中,优化并应用后缀快速排序算法,解决了全文索引的时间问题。全文索引便于统计特定词汇(包括短语)在全文中的词频,位置等附属信息,为精准权重设置,返回给用户最相关的结果提供了数据支持。以倒排文件构建索引器是目前使用的技术,但这第一步就需要中文分词。由于未登录词的大量出现,它的识别成为评价一个分词系统好坏的重要标志。本文应用Manber和Myers提出的同时构造后缀数组与LCP数组算法,给出了基于后缀数组的无词典分词方法,提高了无词典分词的分全率,较好的解决了未登录词切分和歧义消除问题。由于无词典分词的固有缺点,所抽出的部分词条并非真实词条,对只出现一次的词,即使是常用词,也束手无策。考虑到基于词典的分词方法,对于词典中的词有准确的分全率和分准率,但不能够识别未登录词和消除歧义。结合后缀数组统计分词在这方面的优势,给出了词典与后缀数组相结合的中文分词方法,提高了分词的精度,较好的解决了中文分词问题。课题实践部分是研究开源框架Lucene的索引设计和开发模式,开发了2个实际项目。1)实现一个局域网内的桌面搜索工具,检索各种常用类型的文档：局域网内的数据共享和索引,可供网内用户搜索不同节点机上的资源并下载到本地。2)求索在线书店项目,应用封装了Lucene的Compass构建的图书搜索模块。项目获得校大学生科技创新基金的最高资助,并分别获得2007年腾讯创新大赛互联网应用创新设计项目创意优秀奖,2008西安大学生创业大赛优胜奖,软件类第四名。

其他文献

注册会计师承担破产管理人实务操作存在的问题分析

注册会计师的主要职能就是依照法律进行相关的审计工作,在最新的破产法中,已经明确赋予了注册会计师对破产企业承担破产管理人实务的法定职能。文章首先从理论角度阐释了注册

期刊

注册会计师破产管理人问题建议

外墙外保温建筑瓷砖饰面泛碱分析及防治

通过大量工程实例分析和相关材料簏工试验，对外墙外保温建筑瓷砖饰面施工后，局部泛碱产生的原因及防治措施进行研究和探讨。建筑材料内部存在大量的游离离子、结构毛细孔和水的

期刊

瓷砖饰面层泛碱防治

虾青素研究进展

虾青素是一种极具潜力的色素和抗氧化剂,在水产养殖、食品和医药化工行业具有广阔的应用前景。本文对虾青素的生物学功能、生物来源及应用等方面进行了论述

期刊

虾青素

新型抗癫痫药物对癫痫患儿睡眠呼吸的影响

目的探讨新型抗癫痫药物对癫痫患儿睡眠呼吸的影响。方法采用临床随机对照的方法,选取2010年2月-2014年6月在新疆医科大学第一附属医院确诊为原发性癫痫并有规律服用奥卡西平

期刊

癫痫儿童药物睡眠呼吸相互影响

美国社会福利制度及其借鉴

<正>美国是世界上最发达的资本主义国家,其贫富差距也很大,大量失业者、流浪汉、无业移民的生活相当清贫,尤其是在金融危机的影响下,困难家庭和困难群体在不断扩大。为了让这

期刊

社会福利制度困难群体困难家庭低保对象廉租房制度

专利药品价格影响要素的实证分析——基于美国1999年至2010年的数据分析

随着医疗改革的不断深入，专利药品价格已成为国内外学界和产业界关注的焦点。本文利用1999年至2010年美国面板数据对专利药品价格影响要素进行了实证分析，结果显示，专利保护期限

期刊

专利药品价格影响要素美国实证分析

水浴疗法对运动员体能恢复影响的研究进展

水浴疗法作为一种积极的体能恢复策略,如今在国外的运动训练领域越来越流行,其中包括冷水浸泡、冰浴和冷热水浴。这些方法能够使训练后运动员的心率、血压、呼吸、新陈代谢、

期刊

水浴疗法冷水浸泡冰浴体能恢复

2003—2011年中山市天那水挥发性化学成分分析

整理分析2003年至2011年间检测的430份天那水挥发性化学成分数据。天那水使用数量前3位行业分别为家具业、玩具业和五金业。挥发性化学成分检出最多的为苯系物,前3位分别是甲

期刊

天那水挥发性化学成分职业危害

高效液相色谱法测定血液中盐酸安非拉酮浓度

目的：采用ＨＰＬＣ法测定盐酸安非拉酮血药浓度，旨在为盐酸安非拉酮在体内的血药浓度分析和法医学中毒检测提供方法。方法：色谱柱采用ＹＷＧ－Ｃ１８Φ４．６×１５０ｍｍ１０μ，流动相为甲醇－０．０１ｍｏｌ／Ｌ，醋酸铵（３５：６５，用氨水调ｐＨ７．５），茶碱为内标，

期刊

盐酸安非拉酮高效液相色谱法血药浓度

火麻仁品种与药用部位本草考证

目的:通过对火麻仁的本草考证,明确火麻仁药材品种及入药部位,为临床用药提供文献依据。方法:考证历代本草著作,结合现代研究资料进行分析。结果:火麻仁的基原植物古今一致,

期刊

大麻火麻仁果实种仁本草考证

基于后缀数组与Lucene的搜索引擎研究与设计

其他学术论文