论文部分内容阅读
本文从生物医药专利信息服务平台的实际应用需求出发,在深入研究了Lucene全文检索工具包及相关技术基础之上,扩展了Lucene分词模块,改进了Lucene默认的排序算法,并扩展了Lucene的多格式文档处理模块,使本文设计的专利系统支持常用的多种专利文档格式的检索,并最终将以上研究应用于本文介绍的专利服务平台中,有效地改善了专利检索系统的性能。本文主要工作如下:(1)对Lucene全文检索工具包进行了深入研究,分析了各种常见格式文档处理技术的现状,着重研究了中文分词技术和Lucene的排序机制,为Lucene全文检索技术更好的在专利服务平台中的科学应用,提供了充分的理论依据;(2)针对专利文献特点及专利文献自动分词的难点,提出了一种基于规则和后缀数组相结合的自动分词方法,扩展了Lucene分词模块,实验证明该方法有效地提高了专利分词的查准率和查全率;(3)针对专利文献的特点,改进了传统的TF-IDF公式,提出了一种对位置信息进行加权来计算特征词权重的方法,对检索结果进行了自定义排序,实验证明该排序方法能很好地匹配更相关的文档;(4)为了能够让本文的专利检索系统既不局限于纯文本格式的检索,又不用将文档转换成中间格式,本文设计了一个通用的接口,借助第三方开发的解析工具对不同格式的专利文档(如PDF文档、WORD文档、HTML文档等)进行处理,将其转换成Lucene能够处理的格式,使本文设计的专利检索系统支持对多种格式专利文献的检索;(5)最后将Lucene全文检索技术应用于专利服务系统中,实验及实际使用证明本文实现的专利检索系统,在检索结果排序、查全率、查准率、响应时间等方面得到了有效地提高,极大的改善了专利检索系统的性能。