基于插件的文本抽取系统的设计与实现

来源 :电子技术 | 被引量 : 0次 | 上传用户：wojiushishashou47

【摘要】

：

为了使全文检索系统支持多种文件格式的检索，必须先对待检索的文件进行文本抽取以转化为便于建立索引的纯文本。针对多格式的文本抽取问题，文章设计了一种基于插件的支持多格式

【作者】

：

苏宇戴上静石春凌青吴刚

【机构】

：

中国科学技术大学自动化系

【出处】

：

电子技术

【发表日期】

：

2004年期

【关键词】

：

文本抽取多格式插件文件类型识别编码转换多进程任务分配算法 text extraction multi-format plugins file typ

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了使全文检索系统支持多种文件格式的检索，必须先对待检索的文件进行文本抽取以转化为便于建立索引的纯文本。针对多格式的文本抽取问题，文章设计了一种基于插件的支持多格式的文本抽取系统，该系统采用文件后缀名和魔数(magic number)结合的方式自动识别文件类型，以统一接口调用已存在的针对单一类型文件的抽取插件，对得到的纯文本进行编码转换以使得最终的输出编码统一，系统还针对目录输入设计了多进程并行优化以利用CPU多核优势，使用贪心算法优化任务分配以使总运行时间尽可能短。该系统易于扩展，编程接口简单。实验结果表明，该系统能正常抽取文本内容和元数据，且其抽取效率高于Apache的Tika等开源文本抽取系统。

其他文献

吉林省农家书屋建设现状调查及存在问题分析1

本文就吉林省农家书屋的建设情况进行了调查，指出了存在的问题，提出相应的发展对策。

期刊

吉林省农家书屋现状对策

浅谈全媒体时代报纸编辑如何转型

在全媒体时代的今天，报纸面临着“没落或重生”的挑战，在报纸艰难转型努力跟上时代需求的同时，如何提高自身职业素养以适应报业转型，是当下每位报纸编辑关注的问题。下面，笔者就这

期刊

报纸编辑转型

唐代文人的赏石美学及其生态智慧

唐代文人的赏石美学包含两个层面:一是从灵石崇拜到形态审美,人与自然之间建立纯粹的审美关系;一是从形态审美到精神审美,主要包括石之象征自然山峰、蕴含隐逸色彩、浸染理想

期刊

唐代文人赏石人与自然生态精神

浅谈中国写意画内涵

在我们的绘画创作中常常被一些似乎非常熟悉的问题所疑惑。比如有关中国画“写意”的内涵就是我们既熟悉，而又难以说透的问题。本文试图通过对中国传统绘画与西方绘画的审美特

期刊

传统写意境界审美

温日知《屿浮阁集》的文学价值--以诗歌中的自然描写为中心

《屿浮阁集》是明代陕西三原文人温日知的诗赋集。集中含赋作四首，余皆为诗歌。总体看来，温日知诗歌情感真挚、语言质朴，与当时公安派的诗歌趣味相契合，尤其于自然描写最擅胜场，大

期刊

温日知《屿浮阁集》自然描写文学价值Rizhi WenYuFuGeJinatural descriptionthe value of literat

解读默多克小说《黑王子》中的自我价值实现

艾丽斯·默多克是英国当代为数不多的集小说家与哲学家于一身的才女,其小说哲理深邃、情节生动、手法独特,代表作《黑王子》是其小说艺术与哲学思考的完美融合。该小说通过讲

期刊

默多克《黑王子》伪去自我爱善自我实现MurdochThe Black Princeunselfinglovegoodnessself-re

农村中学语文作文教学困境及其消解

作文教学问题是中学语文教学过程中的重点，然而这种处于中心地位的教学形态，却在农村中学遭遇困境，给农村中学教师带来诸多困难，文章结合农村中学具体环境与特点，就作文教学提出建

期刊

农村中学作文教学困境消解

浅谈走出多媒体技术在物理实验教学中的误区

多媒体给教学带来了很大的方便，但是在物理实验教学中，要结合教学内容不能盲目选择多媒体。本文通过分析多媒体在物理实验教学中的误区，归纳总结了如何有效地把多媒体和物理实验

期刊

多媒体物理实验

“心的工程”--浅谈后进生的转化

后进生的转化并不是一件简单的工作，这是一项“心的工程”。教师要用“平常心”、“匠心”、“爱心”去换取后进生的“动心”，从而达到转化的效果。

期刊

后进生教师平常心匠心爱心

浅谈高效课堂教学中的导学预习

今年我校引鉴福安一中的高效课堂教学模式,结合我校实际学情,打破传统的教学模式,倡导试行高效课堂教学改革.经过一学期的摸爬滚打,我觉得要真正落实好高效课堂教学模式,让学

期刊

高效课堂教学改革预习

基于插件的文本抽取系统的设计与实现

与本文相关的学术论文