Lucene全文检索技术在专利服务平台中的研究与应用

被引量 : 0次 | 上传用户:sophie8112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从生物医药专利信息服务平台的实际应用需求出发,在深入研究了Lucene全文检索工具包及相关技术基础之上,扩展了Lucene分词模块,改进了Lucene默认的排序算法,并扩展了Lucene的多格式文档处理模块,使本文设计的专利系统支持常用的多种专利文档格式的检索,并最终将以上研究应用于本文介绍的专利服务平台中,有效地改善了专利检索系统的性能。本文主要工作如下:(1)对Lucene全文检索工具包进行了深入研究,分析了各种常见格式文档处理技术的现状,着重研究了中文分词技术和Lucene的排序机制,为Lucene全文检索技术更好的在专利服务平台中的科学应用,提供了充分的理论依据;(2)针对专利文献特点及专利文献自动分词的难点,提出了一种基于规则和后缀数组相结合的自动分词方法,扩展了Lucene分词模块,实验证明该方法有效地提高了专利分词的查准率和查全率;(3)针对专利文献的特点,改进了传统的TF-IDF公式,提出了一种对位置信息进行加权来计算特征词权重的方法,对检索结果进行了自定义排序,实验证明该排序方法能很好地匹配更相关的文档;(4)为了能够让本文的专利检索系统既不局限于纯文本格式的检索,又不用将文档转换成中间格式,本文设计了一个通用的接口,借助第三方开发的解析工具对不同格式的专利文档(如PDF文档、WORD文档、HTML文档等)进行处理,将其转换成Lucene能够处理的格式,使本文设计的专利检索系统支持对多种格式专利文献的检索;(5)最后将Lucene全文检索技术应用于专利服务系统中,实验及实际使用证明本文实现的专利检索系统,在检索结果排序、查全率、查准率、响应时间等方面得到了有效地提高,极大的改善了专利检索系统的性能。
其他文献
借助计算机和信息可视化技术,信息可视化快速进入了图形动态可视化阶段。而作为知识组织工具,叙词表的可视化进展还显落后,只是从传统图形显示发展到电子版和网络版式叙词表
作为法兰克福学派的代表人物,弗洛姆以逃避自由理论为基础,进一步揭示了现代人性格结构中的病态状况,并由此展开了对现代工业化社会的批判。他提醒我们,尽管资本主义的经济有
本文介绍了燃煤电厂同时脱硫脱硝技术及臭氧高级氧化技术脱除多污染物的研究、发展及其在环境污染治理方面的应用,分析了臭氧氧化反应的机理。通过实验研究了臭氧气相脱除烟
中国道路交通经过30年的快速发展,相当数量的道路进入了大修阶段,大量的废旧沥青混合料将在沥青路面翻修养护及重建过程中产生,废旧沥青混合料的再生利用成为公路行业重要和
<正> 无疑,讨论20世纪中国音乐历史发展, 自然会相关中西音乐文化关系。而言及中西音乐文化关系,则又几乎通贯一个世纪,可以说,在临近世纪末的时候再度讨论,就像背负起一个历
<正>维吾尔族音乐的瑰宝、新疆十二木卡姆的搜集整理工作是在新中国成立后正式展开的。在这一过程中,京剧艺术家、"四大名旦"之一的程砚秋先生,为抢救工作起到了不可磨灭的推
<正>学校德育工作是一项整体性的系统工程,抓好德育工作需要有一支全员育人的教师队伍,还需与社会家庭互相配合,形成合力,充分挖掘和科学地组合各种教育因素与教育力量,从而
当前,全球经济一体化竞争日趋激烈,企业管理的发展也先后经历了经验管理-科学管理-文化管理三个阶段。目前,企业间的竞争已经不再是某一层面地竞争,而是全局和整体实力的竞争
作为雷达等导航设备的重要补充,VHF数字通讯系统AIS(Automatic Identify System)可以在30Km的范围内,准确向周围船只报告本船的船名、船长、船宽、吃水、航向状态等重要的航
学位