基于条件随机域的Web信息抽取研究

来源 :南华大学 | 被引量 : 0次 | 上传用户:liangxinnet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网资源的迅速增长,仅仅依靠浏览器以及基于关键字检索查询的搜索引擎,已远不能满足互联网用户的信息需求,Web信息抽取应运而生。本文以条件随机域模型为主要研究内容,研究了结构新颖的条件随机域模型,选择了一种适合Web信息抽取的条件随机域,提出了基于该模型的Web信息抽取系统。本文的工作和特点如下:鉴于目前国内对线性链式条件随机域这一简单模型研究和应用得比较多,但是对结构复杂,能对数据更好建模的条件随机域模型研究得很少,本文在前人的基础上研究了两类结构新颖的条件随机域模型,对这些模型的数学表达式、算法进行了系统的研究,为下一步工作打下了坚实的理论基础。CRF模型相比HMM,可以加入远距离、重叠性等特征。虽然CRF模型在国内已得到广泛应用,但所研究的模型多是基于马尔可夫假设的线性链模型,该模型不能够表达节点间的长距离依赖关系,所以很少有对在模型中加入长距离特征的研究。本文对这个问题进行了专门研究,提出了长距离依赖条件随机域模型,并基于该模型进行了Web文本信息抽取实验,结果表明长距离特征确实对提高模型的抽取性能有很大帮助。近年来,利用统计模型进行Web信息抽取的研究越来越多,但大部分抽取系统存在共同的缺陷:一方面可扩展性较差,特征函数都内置在源代码中,对于有不同需求的抽取者来说,几乎不能定制自己的特征函数;另一方面为了获得较好的抽取性能,模型需要大量的训练页面,而标记训练页面是非常耗时耗力的。本文结合XML技术的可扩展性和方便交流性,提出了XML条件随机域模型。该模型将标签集,特征函数都存放在一个独立于源代码的XML文件中,特征函数用XPATH表达式表示,这样有不同需求的抽取者,不需对源代码进行了解,就可以很方便的编写自己的特征函数;另外提出了一种三角边特征,该特征能充分表达Web页面的层次结构特征,使模型只需少量训练页面就能达到较好的性能。最后提出了基于XCRF进行Web信息抽取的模型,实验结果表明抽取性能良好,XCRF更适合于Web信息抽取。
其他文献
诊断设备能否精确地瞄准实验靶球以实现自动化控制是惯性约束核聚变(ICF)系统中的公共诊断平台急需解决的问题之一。根据ICF工程检测要求,构建了一套三维精确定位机器视觉系统
学位
入侵检测是近十年发展起来的一种动态监测、预防或抵御系统入侵行为的安全机制。目前入侵检测有许多模型和方法,而神经网络和模式识别等技术的引入使网络安全的智能检测研究
随着互联网技术的迅速发展,互联网对人们生活的影响力越来越大,用户对从互联网中获得全面、权威、地域性信息的需求越来越强烈,比如生活在深圳的人对深圳的信息的兴趣更大。
无线传感器网络是一个多学科交叉的新型热点研究领域,应用前景广阔,受到国内外研究人员的高度关注,并得到了快速的发展。在无线传感器网络快速发展的同时,也出现了许多亟待解
随着科技的不断进步,面向工程的科学计算也越来越复杂,模型愈加复杂、代码愈加庞大等,使得任务计算对设备性能要求愈来愈高,单一的机器或集群已经不再满足任务需要。网格作为
我国的郭守敬望远镜(大天区面积多目标光纤光谱天文望远镜,简称LAMOST)自开始正式巡天计划以来,每个观测夜会产生数万条光谱。随着时间的推移,将会产生海量光谱数据。本文的
图像在日常生活以及科研领域都有着无比深刻的影响,是人们的主要信息来源。由于设备的限制,很多时候不能得到人们想到的高分辨率的清晰图像,为了满足人们的需求,图像放缩算法
为了满足存储器单位面积存储容量不断增长的需求,基于硅通孔(Through-silicon-via,TSV)连接的三维存储器(Three-Dimensional Memories,3DMemories)得到了广泛的应用和发展。但三
随着全球经济及科学技术的发展,汽车越来越多,并且都在朝着低排放的标准发展,排放的有毒气体已经越来越少了,但是还是有很多的汽车并没有实现真正的低排放。现阶段,汽车尾气还是环
学位
随着网络技术、软件技术、通信技术、嵌入式操作系统的不断发展与成熟,以移动技术领航的3G通信技术在未来几年也必将成为一种趋势,各大软件解决方案提供商、智能设备提供商也