论文部分内容阅读
数字化时代的发展使得大量信息涌现在人们面前,尤其是通过网络传播的电子信息。人们开始面临这样一个问题:信息利用率低,快速浏览海量信息难。如何快速有效的从大量信息中获取可用数据开始变得重要。实际上,人们无法通过阅读所有的电子信息来获取需要的信息进行分析,传统的信息获取技术只是简单的、非智能的查找,迫切需要信息压缩提炼工具来高效获取信息。而随着文本挖掘技术的发展,人们拥有了更多的信息获取方法和途径,尤其是文本解析、碎片化和信息检索技术。本文所阐述的行业文献自动分析系统就是以文本挖掘主流程为主线来进行设计实现的,论文提出了使用pdf2htmlEX碎片化PDF文档的方案;采用tesseract-OCR解决其不能解析图片文字的限制;并通过对文本集进行解析、分词处理、结构化分析和存储,最后实现了关键字抽取和带标注浏览。本文的研究重点侧重于文本解析、中文分词、信息检索和关键字提取技术上,系统采用兼容了MyEclipse的EOS开发平台开发,构建的主要模块有:文本管理模块、文本解析模块、文本分析模块和展示模块。最终得到一个关键字列表,用户可检索或直接在列表中点击浏览文献。本文对文本挖掘技术做了一定程度的总结归纳,对文档解析技术做了较为细致的研究;对目前流行的JAVA中文分词器做了对比实验并得出了相关结论;并对它们与Lucene的兼容性能做了比较实验和分析;对Ansj分词器和Lucene实现的关键字提取做了对比分析。本系统通过对PDF文件的解析,抽取PDF文本信息,通过结构分析和碎片化、分词索引、同义词归并最后抽取出文本关键字,实现对关键词的有效抽取和挖掘,系统最后将分析结果展示在可视化界面,用户可根据条件检索出相关关键字信息,实现了带标注的PDF文档浏览,为行业文献的深度分析和挖掘提供依据和服务。