论文部分内容阅读
互联网迅猛发展,使得互联网成为一个庞大的信息源。结构化数据作为网络中比较常见的数据形式之一,具有多种网页呈现方式,对于这些数据的抽取,往往需要大量的人工操作,这给数据的抽取工作带来了很大困难。因此,为了实现自动获取网页中的结构化数据信息,基于结构化数据的挖掘成为数据挖掘领域中的一个主要研究方向。目前,该领域已经进行了大量针对网页信息抽取的研究,出现了很多关于数据价值评估的理论以及抽取网页中结构化数据的算法。 本文主要面向富含数据的两种页面--列表页和详情页,在已有的结构化数据抽取算法基础上,针对多数据区域抽取的效率问题、图表数据的识别和WEB表之间的实体关系挖掘等三个方面的问题,研究并提出了相应的改进算法。其中,第一种改进的算法主要面向包含嵌套型数据的列表页,解决了提高处理多数据区域时的效率问题。该算法在已有的平坦数据挖掘算法基础上,加入了数据区域挖掘算法,根据构造出的嵌套数据列表页标签树,找出所有数据区域并进行统一处理,对所有子树应用简单树匹配和部分树对齐算法,生成全局模式,进而抽取出所有的数据记录;第二种改进的算法主要针对识别图表形式的结构化数据所进行的研究,是作为第一种方法的补充研究。首先通过结构化数据抽取算法获得富含结构化信息的图表所属数据区域,其次应用图像信息二值化算法以及OCR算法,将图表内容转化为文本,之后将转化出的文本再应用结构化信息抽取算法,得到页面中完整的有价值信息;第三种改进的算法着重于数据表格内部及表格之间实体关系的挖掘。这种方法在已有实体关系挖掘算法的基础上,加入实体关系候选项的反馈过程,先计算出超链接信息的置信度并找出候选关系,再计算此候选关系的可信度,将大于规定阈值的候选关系定为新的关系并加入到循环中,从而解决了原算法容易忽略超链接信息的问题,达到全面准确的挖掘出实体关系的目的。 上述三种方法实质是针对面向数据抽取的不同阶段设计的。第一种和第二种方法针对数据本身进行数据抽取,第三种方法不仅面向多页面数据抽取,同时也为之后的数据集成阶段做准备。三种方法相辅相成,填补了原算法的一些不足,提高了数据抽取的效率。三种算法的研究与实现主要基于所在实验室的房地产决策与评估系统项目平台,因此具有广泛的实际应用意义。