论文部分内容阅读
互联网的高速发展导致网络上出现了大量的Web文档,而且这个数字还在快速增长。然而由于Web信息的异构性和动态变化性,数量巨大的Web资源往往导致用户无法快速捕捉其中的有用信息。如何从庞大的互联网资源中及时准确地对信息进行过滤、抽取出对用户有用的知识以形成一个统一的知识库便于查询检索,已经成为人工智能和互联网研究中的一个重要课题。Web信息抽取的任务便是从Web文档中抽取出用户感兴趣的信息。Web信息抽取以半结构化的Web文档作为输入,从海量的Web文档中的无序信息中抽取出用户所需要的信息,并将抽取出来的信息以结构化的形式存入数据库中以便用户检索和分析处理。而这些抽取出来的信息,由于去除了噪声,作为信息源将能有效地提高以网页分类聚类、信息检索、问答系统、Web挖掘等系统的性能。网页为用户提供了众多的信息,其中夹杂着大量的噪声信息,如由机器自动生成的隐藏信息和由人工手动添加的冗余信息,而仅有部分信息即核心信息是用户所关心的。大量的噪声信息给Web信息抽取带来了困难。在本文中,Web文档中的信息被分为核心信息、冗余信息和隐藏信息,Web信息抽取进而转化成去除网页中的噪声信息,包括冗余信息和隐藏信息。本文利用网页信息在网页集中所呈现分布特点,结合DOM树结构与统计理论,提出了基于信息熵的Web信息抽取方法,它能够自动识别出噪声信息,并保留关键信息。该方法将网页解析成DOM树以去除隐藏信息,在对叶子节点的文本进行分词并统计其分布情况,利用本文提出的不同信息熵计算标准包括平均熵标准(the Mean Entropy Criteria)和联合熵标准(the Joint Entropy Criteria)分别计算出各叶子节点的平均熵和联合熵,从而得到叶子节点ADMJ (The Absolute Difference between Mean Entropy Criteria and Joint Entropy Criteria)值;然后按DOM树结构对叶子节点进行分块聚集,向上递归求得标签<body>的ADMJ值,并以此作为阈值区分噪声与非噪声。为了验证方法的有效性,我们在多个国内外知名网站的网页集上进行实验,并与其它一些方法作对比,实验结果表明本文方法具有较好的抽取效果。