基于树自动机的Web信息抽取

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:binga2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,传播信息的重要方法之一便是Web,如何准确快速地在庞大的互联网中获取信息,目前已经有很多的科研工作者将此作为研究方向。在这样的背景之下,便产生了Web信息抽取技术。Web信息抽取技术不仅能够从互联网上获得用户需要的信息,另外也能够将获得的信息作为创建数据挖掘系统和智能查询系统的基础。因此,信息抽取技术具有十分广阔的应用前景。信息抽取(IE)是指从一系列的文档中提取出特定的信息。当前大部分信息抽取工作是从半结构化文档XML或HTML中提取信息,目前现有的技术是基于字符串的提取方法,像有限自动机归纳方法。不过,这种方法并没有利用到XML文档的树形结构。在本文中,我们引入了树自动机技术,来代替字符串的提取方法。本文首先介绍了Web信息抽取的相关技术分类和评价指标,并分析了树自动机、文法推理及信息抽取技术。在有秩树自动机推理方面,本文在k-testable推理算法的基础上,提出了g-testable和gl-testable算法,提高了抽取的召回率和准确率,并基于此设计了一个基于有秩树自动机的Web信息抽取系统原型。最后,通过在基准数据集和大型数据上的实验表明,该方法确实要明显优于基于字符串的信息抽取方法。
其他文献
随着中国航天的快速发展,尤其是卫星控制向深空探测、交会对接等领域的扩展,导致星载控制软件的规模越来越大、复杂度越来越高。此外,卫星研制模式由单件定制和试验性生产,向
统计表明,大约75%的人脸图像为非正面的人脸图像,对于人脸识别及其相关问题来说,姿态估计是一个重要的前处理过程。在过去的十几年里,虽然人脸识别问题的研究取得了巨大的进步,但
近年来,各种先进的数字化医疗设备在城市医疗机构大量使用,大大提高了城市的医疗水平,这些设备大多是基于PC机设计的,具有成本高、功耗大、不利于携带等特点,而很多边远乡镇地区医
图像识别一直是计算机图形学中的热门研究领域之一。本文重点研究背散射人体隐藏物识别技术,对其涉及的人体图像预处理、隐藏物特征提取、隐藏物识别等关键技术进行深入研究。
轨道交通的快速发展和规模经济效益,决定了轨道交通的发展趋势。清分系统是集监控和信息处理于一体的综合业务信息处理及管理系统,是网络化运营中重要的一个核心环节。清分系统
作为一种新兴的信息处理模式,云计算(Cloud Computing)在互联网行业飞速发展的背景下,逐渐成为当今的研究热点。云计算以虚拟化技术为支撑,根据用户需求提供动态可扩展的服务,随
被动锁模及调Q脉冲光纤激光器以其光束质量高、稳定性好、系统紧凑、结构简单等特点,在光通信、生物诊断、材料加工、国防等领域具有广泛的应用。可饱和吸收体是被动锁模及调Q
计算机断层成像(ComputerTomography,CT)技术是当今医疗诊断最常用的技术手段之一。它通过测量X射线在不同方向上穿过人体断层时的累积衰减系数,计算出它们在整个断面上的分布
随着Web技术在各行各业的广泛应用,Web服务器上存在大量的日志文件,通过Web日志挖掘,可以发现用户访问Web页面的模型和访问习惯。然而,经典Apriori算法在处理大规模数据时存
微型博客是一种日益兴起的新型社交网络,在微博中,用户之间不仅可以建立好友关系,还可以进行学术交流、通过签到分享自己在不同地点所参与的事件以及对热点问题进行关注和讨论。