论文部分内容阅读
随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。如何获取有用的Web信息则是大家面临的共同问题,Web信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上,还并未考虑网页文本的特殊性。另外,信息抽取也很少涉及语义的理解。目前,信息抽取常用的模型是隐马尔可夫模型,它因易于建立、适应性强、抽取精度高等优点而日益受到研究者的关注,但该模型仅适用于普通文本,对含有更多其他信息的网页来说也并不合适。通过对网页的分析,Web文本信息通常包含更多输出属性比如:词条,版面以及格式属性。考虑到传统隐马尔可夫模型的状态转移过程中仅将单一词条属性作为观测输出特征,我们将多重属性(包括词条,版面以及格式属性)作为隐马尔可夫模型观测输出特征,从而引入广义隐马尔可夫模型。对于纯文本,传统的HMM是以单一语句为信息抽取的基本单位,其假设的状态转移序列(从左到右,然后从上到下)对含有多媒体的二维空间的网页来说也并不合适。通过对网页的分析,我们发现网页的视觉版面结构由不同的块组成,而且这些块之间还有一定的逻辑关系。本文利用基于可视化的网页分割算法(VIPS)对网页进行分块,得到一种更适用于网页的基于版面结构的状态转移序列。由于任一时刻出现的观测输出矢量概率不仅依赖于系统当前状态,而且依赖于系统在前一时刻所处的状态,所以本文提出了基于二阶Markov链的改进的广义隐马尔可夫模型。另外,针对网页的语意分析,本文采用了一种基于角色标注的命名实体识别方法,其基本思想是:针对网页文本,结合角色表的规则,采用改进广义隐马尔可夫模型进行角色标注,在角色序列的基础上,进行字符串识别,最终实现命名实体的识别,进而实现了从Web网页的结构及语义两方面对信息的抽取。本文通过对当前招聘网站上海量的招聘信息进行定题Web信息挖掘和信息抽取,开发了基于GHMM的Web文本的抽取系统WebIE。本文首先介绍了Web文本信息抽取技术的基本概念,然后通过对Web页面的分析,根据Web页面的特点并结合角色标注的实体识别技术,从Web页面结构和语义两方面,应用改进的GHMM模型对Web信息进行抽取。最后,通过实验说明改进的广义隐马尔可夫对于网页信息抽取有很好的效果,同时也提出了系统的不足和未来的发展研究方向。