论文部分内容阅读
人类社会的发展经历了农业社会、工业社会、信息社会,正朝着智能社会发展。从某种角度上说,人类社会目前处于由信息社会向智能社会过渡的阶段。在这个阶段,信息依然是主流,是基础。人们的学习、生活和工作在很大程度上都依赖于互联网上的信息资源。网上的信息资源的载体形式多样,有文字、音频、视频、图形图像。但是,目前计算机对信息载体的理解能力还很低,而且计算机对信息载体的分析技术以文字处理较为成熟,语音处理、图形图像识别、以及视频识别都还处于起步阶段。另外,人们想在浩瀚的信息海洋中搜集信息,仅仅依靠人工的力量是不可行的,需要借助计算机快速的处理能力。因此,人们搜集信息的方式就主要表现为借助计算机,抽取互联网中Web文档的文本信息。信息抽取技术为人们搜集信息提供了极大的帮助,从很大程度上使人的角色发生了转变,从机械地信息复制者转变为制定规则的决策者。但是,在面向专业服务网的信息聚焦系统中,由于信息源网站数量巨大,人工地制定网页的解析规则(即信息抽取规则)是一个既花时间又很枯燥的工作。如何使人和机器优势互补,既发挥人的决策能力,又发挥机器的快速处理能力,使信息抽取的准确率和效率更高,这是本文研究的主要内容。本文提出了一个模板化Web文档的主题信息自动抽取的框架,该框架把主题信息自动抽取逻辑上分成了三个模块:抽取规则生成模块、主题信息抽取模块、自动反馈监测机制模块。其中最为重要的是抽取规则生成模块,它是整个框架的驱动基础。论文着重讨论了抽取规则生成模块的相关算法实现。抽取规则生成的整个过程分为三个阶段:文档预处理阶段、主题区域定位阶段和主题信息精确定位阶段。在Web文档预处理阶段,首先利用HTMLParser将Web文档转化为DOM树,再使用无关结点过滤算法,无效结点过滤算法对部分噪音信息进行过滤。在主题区域定位阶段,主要对主题信息所在的区域块进行定位,它分为两个子阶段,一是动态区域块定位,由于主题区域必然是动态区域块,所以首先利用DOM树匹配算法计算两个模板化文档对应的DOM树最大匹配值,分离出动态区域子树和静态区域子树,进而实现动态区域块的定位;二是非主题链接块过滤,首先定位出DOM树的重复区域,然后通过统计重复区域链接文字和非链接文字的个数过滤非主题链接块。在主题信息精确定位阶段,通过分析各个主题信息的多方面的特征制定出对应的启发式规则,根据启发式规则算法定位主题结点,并获得主题结点在DOM树中的路径作为抽取规则。本文最后给出了模板化Web文档的主题信息自动抽取系统的主界面,同时给出了两个新闻网站的信息抽取结果。另外,本文用析全率和析准率两个指标对信息抽取系统的性能进行了评价,结果表明该系统能够有效地代替人工进行模板化Web文档的主题信息的自动抽取工作,而且抽取效果很好,具有很好的应用推广价值。