行业文献自动分析系统的设计与实现

来源 :武汉理工大学 | 被引量 : 8次 | 上传用户:zx2353
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字化时代的发展使得大量信息涌现在人们面前,尤其是通过网络传播的电子信息。人们开始面临这样一个问题:信息利用率低,快速浏览海量信息难。如何快速有效的从大量信息中获取可用数据开始变得重要。实际上,人们无法通过阅读所有的电子信息来获取需要的信息进行分析,传统的信息获取技术只是简单的、非智能的查找,迫切需要信息压缩提炼工具来高效获取信息。而随着文本挖掘技术的发展,人们拥有了更多的信息获取方法和途径,尤其是文本解析、碎片化和信息检索技术。本文所阐述的行业文献自动分析系统就是以文本挖掘主流程为主线来进行设计实现的,论文提出了使用pdf2htmlEX碎片化PDF文档的方案;采用tesseract-OCR解决其不能解析图片文字的限制;并通过对文本集进行解析、分词处理、结构化分析和存储,最后实现了关键字抽取和带标注浏览。本文的研究重点侧重于文本解析、中文分词、信息检索和关键字提取技术上,系统采用兼容了MyEclipse的EOS开发平台开发,构建的主要模块有:文本管理模块、文本解析模块、文本分析模块和展示模块。最终得到一个关键字列表,用户可检索或直接在列表中点击浏览文献。本文对文本挖掘技术做了一定程度的总结归纳,对文档解析技术做了较为细致的研究;对目前流行的JAVA中文分词器做了对比实验并得出了相关结论;并对它们与Lucene的兼容性能做了比较实验和分析;对Ansj分词器和Lucene实现的关键字提取做了对比分析。本系统通过对PDF文件的解析,抽取PDF文本信息,通过结构分析和碎片化、分词索引、同义词归并最后抽取出文本关键字,实现对关键词的有效抽取和挖掘,系统最后将分析结果展示在可视化界面,用户可根据条件检索出相关关键字信息,实现了带标注的PDF文档浏览,为行业文献的深度分析和挖掘提供依据和服务。
其他文献
无线局域网(WLAN)是计算机网络与无线通信技术相结合的产物。无线局域网采用无线的方式实现终端间的连接,与有线局域网相比更加复杂。近年来,无线局域网研究中的主要热点和难点
随着计算机技术的日新月异的发展,视频图像信息在人类认知世界的各个领域发挥着越来越重要的作用。由于人眼受到生理、心理和神经系统调节的限制,分辨率是相当有限的,所以在人眼
自兴起之日起,因特网就一直保持着迅猛增长的势头。随着多媒体业务日益普及,用户对因特网的要求也不再仅仅满足于简单的文件传输,而是要求网络提供安全、快速和多样化的服务。传
无线传感器网络主要以采集环境数据,并为用户提供环境信息的数据服务为主。随着应用的深入和感知数据的多样化,传感器感知到的环境数据中将包含着大量的敏感数据和隐私数据,怎样
基于内容的图像检索己成为当今的一个研究热点。锦峰[16]于2004年提出了一个基于区域的图像检索系统,该系统根据颜色的差异将图像分割成各个区域,将各个区域的特征集做为图像的
学位
当今,随着微处理器制造与集成技术的不断进步与发展,以多核处理器为节点而构成的集群系统以其较高的性价比日渐成为主流的并行计算平台。与此同时,现代科学与工程计算中大规模数
任何没有信息扩张的密码体制都可以看作是置换的结果。而起源于雷达信号设计的Costas阵列,作为一种特殊的置换矩阵,与置换一一对应,经降维所得Costas序列是一种特殊的置换。
流体系结构是近年来提出的一种源于媒体处理的高性能体系结构。这种结构针对流媒体应用的计算、访存和通信特征,采用大规模的运算阵列和多级存储体系结构,通过显式管理片上数据
近几年,越来越多的研究人员模拟和应用自然界生物的免疫系统的信息处理能力解决工程和科学问题,并取得了卓越的成就;但相对于人工神经网络和模糊系统以及进化算法的发展,还只是刚