Lucene文本分析器的改进

来源 :信息技术 | 被引量 : 0次 | 上传用户:adward006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Lucene默认只能分析并索引HTML和TXT文档的缺点。通过引入PDFBox和POI等开源工具实现对DOC、XLS、PPT和PDF等文档的文本抽取,然后利用Lucene索引这些提取出来的文本,将文本和文档其它信息添加到Lucene的Document对象。从而使Lucene可以分析并索引DOC、XLS、PPT和PDF等格式的文档,实验结果表明通过改进Lucene文本分析器可以极大提高Lucene检索的通用性。
其他文献
RSA算法是一种公钥密码算法。RSA是一个基于数论的非对称密码体制,RSA的安全性是依赖于大整数素因子分解的困难性问题。其经历了各种攻击,至今未能被完全攻破。
简要介绍了视景仿真技术,对视景仿真系统组成与实现方法进行了分析,结合可视化软件与模型工具完成了三维视景的生成及其与实体模型的集成,对可视化进行了初步研究。
介绍了一汽马自达M6轿车电子防盗系统故障的具体检查方法。并同时培出了各种故障的故障代码。
Google Earth软件是目前对3D建模技术支持较好的软件。城市景观3D建模技术在城市规划、突发事件应急等许多领域都有重要的应用。分析了向Google Earth发布3D模型的技术并就其