基于GHMM的Web文本信息抽取技术研究与系统设计

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wang525659571
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。如何获取有用的Web信息则是大家面临的共同问题,Web信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上,还并未考虑网页文本的特殊性。另外,信息抽取也很少涉及语义的理解。目前,信息抽取常用的模型是隐马尔可夫模型,它因易于建立、适应性强、抽取精度高等优点而日益受到研究者的关注,但该模型仅适用于普通文本,对含有更多其他信息的网页来说也并不合适。通过对网页的分析,Web文本信息通常包含更多输出属性比如:词条,版面以及格式属性。考虑到传统隐马尔可夫模型的状态转移过程中仅将单一词条属性作为观测输出特征,我们将多重属性(包括词条,版面以及格式属性)作为隐马尔可夫模型观测输出特征,从而引入广义隐马尔可夫模型。对于纯文本,传统的HMM是以单一语句为信息抽取的基本单位,其假设的状态转移序列(从左到右,然后从上到下)对含有多媒体的二维空间的网页来说也并不合适。通过对网页的分析,我们发现网页的视觉版面结构由不同的块组成,而且这些块之间还有一定的逻辑关系。本文利用基于可视化的网页分割算法(VIPS)对网页进行分块,得到一种更适用于网页的基于版面结构的状态转移序列。由于任一时刻出现的观测输出矢量概率不仅依赖于系统当前状态,而且依赖于系统在前一时刻所处的状态,所以本文提出了基于二阶Markov链的改进的广义隐马尔可夫模型。另外,针对网页的语意分析,本文采用了一种基于角色标注的命名实体识别方法,其基本思想是:针对网页文本,结合角色表的规则,采用改进广义隐马尔可夫模型进行角色标注,在角色序列的基础上,进行字符串识别,最终实现命名实体的识别,进而实现了从Web网页的结构及语义两方面对信息的抽取。本文通过对当前招聘网站上海量的招聘信息进行定题Web信息挖掘和信息抽取,开发了基于GHMM的Web文本的抽取系统WebIE。本文首先介绍了Web文本信息抽取技术的基本概念,然后通过对Web页面的分析,根据Web页面的特点并结合角色标注的实体识别技术,从Web页面结构和语义两方面,应用改进的GHMM模型对Web信息进行抽取。最后,通过实验说明改进的广义隐马尔可夫对于网页信息抽取有很好的效果,同时也提出了系统的不足和未来的发展研究方向。
其他文献
异构多核架构是当今处理器发展的主要方向,在单核处理器发展陷入瓶颈的情况下,同构多核处理器通过增加片内核心数量,提高指令执行并行度,达到了提高运算速度的目的。在此基础上,异
信息资源是国家的一种重要战略资源,其存储、开发、利用水平是国家信息占有能力、知识储备能力和科学技术能力的重要标志。高校是国家信息资源建设中的一支中坚力量,是国家信息
在介绍了基于颜色特征的图象检索技术的预备知识和关键技术后,论文重点研究了颜色直方图和一种用于对灰度图象进行检索的灰度直方图算法。针对传统颜色直方图采用的颜色空间
支持向量机具有很强的泛化能力,具有维数不敏感与收敛到全局最优等优点。由于其分类具有较高的精度,因而在文本、图像及Web分类等方面得到广泛的应用,但是关于支持向量机学习算
绿色设计的提出,为大量企业突破生产中能源消耗大、资源利用率不高、对环境造成的影响严重等一系列问题带来了希望,对其研究已成为热点,但很少涉及含多类型不确定性参数及其智能
本论文从工程实践角度论述了如何开发基于PCI总线的PCI-to-ISA板卡。本文首先分析PCI总线的电气规范和PCI总线协议,讨论PCI总线的数据传输及PCI总线配置空间的组织和功能,提
学位
二维条形码在物流运输、身份识别、广告行销和电子商务等很多方面具有广泛的应用前景。但由于其格式多变并且背景复杂,目前尚没有一种很好的定位技术可以在多种材料(如塑料、
安全可靠的数据传输和快速有效的数据恢复是目前无线传感器网络(Wireless Sensor Networks, WSN)所面临的最大挑战。作为无线传感器网络应用的关键技术,无线传感器网络中的编
人体运动分析技术由于其广泛的应用前景成为计算机视觉领域研究的焦点之一。目前,对于运动人体的研究主要集中在运动检测、人体跟踪和简单行为的识别等问题上。如何准确且高