基于正则表达式的信息抽取系统在国防技术监测中的应用

来源 :北京理工大学学报 | 被引量 : 0次 | 上传用户：cicihaicic

【摘要】

：

从应用的角度提出了一种用于半结构化文本的基于正则表达式的信息抽取方法.通过对单个样本Web页面生成DOM(document object model)树生成信息抽取任务的规则.抽取规则采用正

【作者】

：

杨桢赵燕平朱东华

【机构】

：

北京理工大学

【出处】

：

北京理工大学学报

【发表日期】

：

2006年z1期

【关键词】

：

WEB信息抽取文档对象模型抽取规则正则表达式半结构化

【基金项目】

：

国家自然科学基金资助项目(70471064),北京理工大学基础研究基金(BIT-UBF-200308G10)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

从应用的角度提出了一种用于半结构化文本的基于正则表达式的信息抽取方法.通过对单个样本Web页面生成DOM(document object model)树生成信息抽取任务的规则.抽取规则采用正则表达式的形式记录目标信息的页面特征,通过规则的执行完成信息的抽取.该方法采用了基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的生成和执行.由于在实际大批量的抽取工作中能够避免多次生成页面DOM树,因此批量信息抽取的速度提高了约10倍.

其他文献

两个离心压气机叶轮的设计与性能比较

采用离心压气机计算机辅助集成设计系统，设计了两个不同子午形面和叶片角的离心压气机叶轮．对这两个离心压气机叶轮内部流场进行了三维粘性计算，给出了计算结果．计算结果表明，在一

期刊

离心压气机叶轮三维粘性计算子午形面叶片角centrifugal compressor impeller three-dimensional Nav

探析基于网络技术的测震系统应用

据统计,地球上每年约发生500多万次地震,即每天要发生上万次的地震。其中绝大多数都太小或太远,以至于人们感觉不到;人们感觉不到的地震,必须用地震仪才能记录下来;不同类型

期刊

地震测震系统网络技术组成地震部门应用

材料力学教学改革探索

本文论述在材料力学课程教学改革中的一些尝试,从教学内容、教学体系、教学方法、教学手段等诸方面作了一些探索,结合当前的课程教学改革取得了良好的效果.

期刊

材料力学教学改革教学体系教学方法

立体选择性还原的硼试剂及其在手性药物合成中的应用

硼试剂在药物化学合成中广泛应用．综述了可参与立体选择性还原反应的手性硼试剂、烷基硼试剂和硼氢化钠衍生物在手性药物合成中的应用，并讨论这些试剂用于工业化生产的潜力．

期刊

硼试剂立体选择性手性药物boron reagent stereoselectivity chiral drug

三维Stokes问题Bernadi-Raugel元的超收敛

考虑三维Stokes问题的一种混合有限元超收敛,采用满足Babuska-Brezzi条件的Bernadi-Raugel元,对三维空间中的立方体进行正则剖分,通过构造插值后处理算子以及应用Bramble-Hib

期刊

STOKES问题混合有限元Bernadi-Raugel元超收敛后处理stokes problem mixed finite elements Be

宽带多速率通用数字调制器的设计与实现

设计了宽带通用调制器结构，分析了该调制器硬件实现的关键技术，给出了基带脉冲成形数字滤波器、多速率插值的CIC滤波器及时钟信号产生的具体实现方法．利用矢量信号分析仪对调制

期刊

数字调制成形滤波器CIC滤波器调制器digital modulation pulse shaping filter CIC filter modu

浅析铁路通信工程接入网技术与应用

如今,在经济全球化进程的不断深入以及一带一路政策的大力实施下,我国基础设施的建设得到极大发展,在各类基础设施中,铁路建设占据着十分重要的位地位。目前,我国的铁路运输

期刊

铁路通讯工程接入网技术与应用

星火科技城里风光好

历时10年的星火计划实施给中国造成了一个特殊的经济群落。这个星火经济群落大体有以下几个特点:一是以农村经济为主,逐步向城市经济渗透,量大、面广,遍布全国各地;二是摆脱

期刊

星火科技市场体系星火计划依靠科技农村经济运行机制市场经济计划经济经济的经济渗透

富勒烯金属有机配合物的研究进展

介绍了近几年来富勒烯金属包合物、富勒烯球体与金属键联形成的配合物、富勒烯有机衍生物与金属原子形成的配合物以及富勒烯-有机金属配合物形成的共晶的研究进展．

期刊

富勒烯金属配合物内包外接共晶metallofullerene endohedral fullerene exohedral fullerene c

三氧化二砷对人胃癌细胞株nm23及PCNA基因表达的影响

目的：研究三氧化二砷对人胃癌细胞株nm23及PCNA基因表达的影响。方法：将体外培养的人胃癌细胞株分2组，实验组给予三氧化二砷5μmol／L，对照组未作任何处理，于给药后1、3、5及7d通过

期刊

三氧化二砷基因表达胃癌细胞株

基于正则表达式的信息抽取系统在国防技术监测中的应用

与本文相关的学术论文