基于文档结构的信息抽取规则的描述语言比较研究

来源 :河北大学学报:自然科学版 | 被引量 : 0次 | 上传用户:obzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于文档结构的信息抽取工具很多,XWrap,W4F,Lixto以及自主开发的PQagent是其中比较有代表性的几个.这几个工具采用了不同的规则描述形式,XWrap,W4F,Lixto使用的是自定义的规则描述形式,PQagent采用了通用的规范XQuery来描述规则.现将XWrap,W4F,Lixto使用的规则描述形式与PQagent采用的XQuery进行比较,说明了采用XQuery描述抽取规则的优越性.
其他文献
以流体机械能守恒定律为依据,建立了流动相在液相色谱系统中的流体动力学模型P=k1+k2 qu,并以典型的液相色谱系统证明了其正确性,即流动相的体积流量和其在色谱流动系统中产
指出了"不精确概念的表示理论(Ⅰ),(Ⅱ)"一文中命题3.3中性质5,X≈αRYXUYC=U,X∩YC=Φ和命题2.1存在的2个错误,并给出了相应的修正.
实验采用分子烙印技术合成了对农药三唑醇有特异性作用的分子烙印聚合物(molecularly im-printed polymer,MIP).通过平衡吸附实验,评价了其对三唑醇的亲和力和选择性.与非烙
简要介绍了入侵检测技术,研究将数据挖掘技术应用于网络异常检测,应用数据挖掘中的关联分析方法和序列模式分析的方法提取网络审计数据中的正常或异常的行为模式,这种模式用
众多的电信业务组成了一个复杂的产品体系.电信企业需要借助高效的信息化系统来管理这个产品体系,以便实现企业的经营目标。本文将简单探讨中国网通与英国电信及华为公司就电信
在对用高压高频电源驱动的介质阻挡放电时空动力学研究的过程中,针对高压高频信号难以测量的问题,采用高压自屏蔽的方法,解决了高压漏电流引起的分压电阻过热的问题,实现了高