半结构化Web信息抽取研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:hunyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。如何从中快速高效的获得想要的信息成为迫切需要解决的问题,Web信息抽取技术应运而生。目前,已经产生了各种各样的方法来生成包装器,但这些方法有不同的局限性,在精确度、健壮性和通用性方面难以达到很高的要求。因此,信息抽取的研究重点就是如何构建良好的包装器。本文首先对现有的信息抽取技术和XML技术进行分析与研究,提出一个基于XML技术的Web信息抽取系统。通过该系统用户能够将HTML页面中感兴趣的信息点抽取出来,并用结构化和扩展性强的XML来表示抽取结果。该系统具有较好的通用性和灵活性,用户能够快速定制应用于不同领域的Web信息抽取包装器。本文应用XPath技术在数据定位方面的特点,提出一种基于DOM的XPath生成算法。本文利用XSLT作为抽取规则的描述语言,并使用XPath来定位待抽取信息点。对于Web信息抽取的问题利用本文提出的Web信息抽取方法能够较好地解决,同时,系统的召回率和准确率能够达到较高的百分比。
其他文献
电信运营商骨干网管理是整个运营商网络管理的核心。但是目前基于SNMP协议的网络管理系统存在着收敛速度慢、占用目标网络带宽大、拓扑发现精度低、故障定位难等缺点并且缺乏
随着计算机技术和人工智能的发展,许多行业的管理手段和生产方式逐步由人工转变成自动或半自动方式,自动识别系统发挥了重要的作用,尤其在不能直接获取仪表数据的化工、冶金等行
文章的工作内容主要由两部分构成,第一部分主要是前向安全性在代理签名方案中的应用算法研究;第二部分主要是前向安全性在聚集签名方案中的应用算法研究.第一部分改进了一般
竞争的加剧使得企业和组织致力于提高自身的管理水平和生产效率,随着信息技术在各领域中的广泛应用,越来越多的企业或组织开始利用信息技术来达成这一目标。其中工作流技术作
特征描述作为上下文推理预测的先行步骤,它对原始数据进行一定的语义抽象并为后续推理预测模型提供直接的输入数据,所描述的特征样本数据的优劣将直接影响到最终推理预测的结果
H.264/AVC标准是一种高性能的视频编解码技术,它是由国际电信联盟ITU-T和国际标准化组织ISO/IEC联合组建的联合视频组JVT共同制定的新数字视频编码标准。该标准在ITU-T标准中
随着云计算与大数据的快速发展,传统网络架构逐渐不能满足互联网业务的高速增长。‘SDN(软件定义网络)控制与转发相分离的核心理念可以为网络提供更好的全局视野和集中管控,
随着计算机技术和互联网的高速发展,计算机系统和网络的安全问题受到人们越来越多的关注。而计算机系统和网络安全的诸多威胁中,恶意代码无疑是危害最大的,这也成为网络安全
分类是数据挖掘领域的一个重要技术。在数据独立同分布的假设下,分类技术根据已有的带有类别标签的训练样本建立分类模型,并利用该模型尽量准确地对新的数据样本进行预测与分类
随着无线传感器网络应用领域越来越广,其部署问题已经成为传感器网络研究的热点问题之一。它反映了无线传感器网络的成本和感知能力。一个好的部署策略能很大程度地增强网络