文本信息抽取优化关键技术研究与系统实现

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:xuxinhuiaishu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的快速发展,企业在日常经营和信息化建设过程中产生大量富有价值的数据信息。如何从海量分散的数据中快速且准确地分析出真正有用的信息是当前数据挖掘领域的重要研究内容。文本信息抽取技术正是数据挖掘领域的核心问题之一。在一些语义明确的场景下,基于规则的信息抽取方法在抽取的准确率和召回率方面都有优异的表现。对于较大规模待抽取数据,提升信息抽取系统效率的关键技术是提高正则表达式的匹配速度。在此背景下,本文对基于正则表达式匹配的信息抽取技术进行了深入研究,通过对当前正则表达式匹配加速相关的几种经典算法的比较和分析,针对原始DFA算法状态跳转查找表中存在的问题,提出了基于字符分组的查找表压缩算法的设计方案,并依托实验室FPGA硬件平台实现了对正则表达式匹配速度的优化,并对基于该优化方案的信息抽取系统进行了设计和实现。本文首先介绍了信息抽取系统的主要任务、常用方法和评价标准,又介绍了正则表达式匹配技术的常用方法和匹配过程的研究现状。然后通过分析现有正则表达式匹配技术的技术瓶颈,提出一种基于字符分组的正则表达式匹配优化算法,并对算法的性能进行测试和分析。实验结果表明,经过字符分组优化后的查找表算法,相较于原始查找表结构,可以实现30%左右的空间压缩率以及超过50%的单个字符平均匹配周期的缩短幅度。本文基于上述优化算法,对信息抽取系统进行了设计与实现。该系统主要以裁判文书领域内抽取司法文书、环保部处罚文书及证监会处罚文书关键信息为例,将文本中的主要信息抽取后结构化存储至数据库中。本文对此系统进行了功能验证和性能测试。实验结果表明,对于符合规范的数据样本,本文提出的方法具有较高的准确率和召回率,在一定程度上提高了此类系统的抽取性能。
其他文献
报载,日本一家有代表性的大企业新日本制铁公司,最近作出一项决定:停止购买由公司负担的业务用贺年卡。停购公费贺年卡只是新日铁公司开展"虚礼自肃"运动的内容之一。新日铁
本文从大学毕业生择业过程中产生的心理误区入手,分析其产生的原因,提出高校应从面对现实客观求职、理性评价自我、树立竞争意识主动求职、引导大学生价值取向与单位录用人才标
本文研究了色彩在电视节目中的应用,首先讨论了色彩的感知规律以及电视色彩的功能,然后详细分析了电视节目中色彩设计的关键问题。 This paper studies the application of
“体验教学”是一种适应新经济时代人才培养需求的新的教学理念。以营造“体验”环境,建构由低级向高级过渡渐次递进的“体验”历程为手段,在课程教学体系建设、教学形式、教学
慢性肝炎的诊断、分级和分期翟为溶,王泰龄,周晓军,张泰和慢性肝炎是病程在半年以上的肝内弥漫性炎症性疾病。这类常见病可由多种原因引起,由于病程较长、病因不一,其病变及相应的
提出了珠光体离散成核相变动力学模型,导出了珠光体离散成核相变动力学表达式。随后利用Ansys分析软件,用立体图像演示了珠光体相变动力学,并任意切割截面,将得到的单位面积
本文用1900-1994年的资料,以统计分析的方法,对太阳黑子,厄尔尼诺及西北太平洋势带气旋“活动的相互 关系,进行初步探讨,归纳出几点有参考价值的结论。
<正> 多年来,国际国内通用的慢性肝炎的诊断及分类标准是1968年欧洲肝病学会第二届学术大会上提出的,随着肝炎研究的进展,文献上出现了不少新的诊断名称,以至形成某种程度的
教师阻力,影响到高职院校课程改革的效果。应正视高职院校中教师阻力的各种表征,它是一个受多重因素影响的复杂现象,体现出高职院校课程建设的艰巨性,也说明了改革过程的复杂性,需
通过分析太阳黑子、赤道平流层纬向风与西北太平洋上热带气旋的关系发现,赤道平流层纬向风的准两年振荡与西北太平洋上热带气旋确实具有很好的关系,这种关系受到太阳活动的调