基于信息熵的Web信息抽取技术研究

被引量 : 9次 | 上传用户:thsoft1970
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的高速发展导致网络上出现了大量的Web文档,而且这个数字还在快速增长。然而由于Web信息的异构性和动态变化性,数量巨大的Web资源往往导致用户无法快速捕捉其中的有用信息。如何从庞大的互联网资源中及时准确地对信息进行过滤、抽取出对用户有用的知识以形成一个统一的知识库便于查询检索,已经成为人工智能和互联网研究中的一个重要课题。Web信息抽取的任务便是从Web文档中抽取出用户感兴趣的信息。Web信息抽取以半结构化的Web文档作为输入,从海量的Web文档中的无序信息中抽取出用户所需要的信息,并将抽取出来的信息以结构化的形式存入数据库中以便用户检索和分析处理。而这些抽取出来的信息,由于去除了噪声,作为信息源将能有效地提高以网页分类聚类、信息检索、问答系统、Web挖掘等系统的性能。网页为用户提供了众多的信息,其中夹杂着大量的噪声信息,如由机器自动生成的隐藏信息和由人工手动添加的冗余信息,而仅有部分信息即核心信息是用户所关心的。大量的噪声信息给Web信息抽取带来了困难。在本文中,Web文档中的信息被分为核心信息、冗余信息和隐藏信息,Web信息抽取进而转化成去除网页中的噪声信息,包括冗余信息和隐藏信息。本文利用网页信息在网页集中所呈现分布特点,结合DOM树结构与统计理论,提出了基于信息熵的Web信息抽取方法,它能够自动识别出噪声信息,并保留关键信息。该方法将网页解析成DOM树以去除隐藏信息,在对叶子节点的文本进行分词并统计其分布情况,利用本文提出的不同信息熵计算标准包括平均熵标准(the Mean Entropy Criteria)和联合熵标准(the Joint Entropy Criteria)分别计算出各叶子节点的平均熵和联合熵,从而得到叶子节点ADMJ (The Absolute Difference between Mean Entropy Criteria and Joint Entropy Criteria)值;然后按DOM树结构对叶子节点进行分块聚集,向上递归求得标签<body>的ADMJ值,并以此作为阈值区分噪声与非噪声。为了验证方法的有效性,我们在多个国内外知名网站的网页集上进行实验,并与其它一些方法作对比,实验结果表明本文方法具有较好的抽取效果。
其他文献
对不同Al含量的42CrMo锻件进行了晶粒度检查和冲击试验,结果表明,Al含量较高的锻件晶粒度较高,而Al含量较低的锻件冲击吸收功较高。
目的:观察手法复位小夹板外固定配合骨伤药酒治疗桡骨远端骨折的临床疗效。方法:将50例桡骨远端骨折患者随机分为对照组与实验组两组,每组25例。对照组采取手法复位小夹板外固
玻璃和玻璃陶瓷由于它们多样的物理化学性能,在很多不同的技术和光学领域有着大量的应用。含Zn的玻璃有着高玻璃转化温度(大概700℃),低热膨胀系数(大概4ppm/K)和很好的化学稳定
本研究主要的研究目的是从气候和生态学上寻找中国五针松组濒危植物的濒危机制,并为五针松组濒危植物的保护提出有意义的建议。本论文收集了五针松组植物地理分布资料和气象
<正>山楂无论在保健食品方面的应用还是在医药方面的应用皆比较成熟,虽然有南山楂和北山楂之分,但在利用成分上却相差无几。本文以广西山楂(南山楂)为例,着重对广西山楂的资
2012年全球经济低迷对中国经济实体产生了巨大的冲击,作为物流装备行业的一个重要部分,叉车行业也充满着阵阵寒意。根据行业数据统计,与2011年相比,2012年中国叉车市场销量下
随着信息时代的到来以及计算机技术的推广和应用,而档案管理作为医院管理工作的重要组成部分,对医院管理具有重要的意义。近年来随着信息化技术在医院档案管理应用,并形成了
区域经济发展的不平衡是许多国家在经济发展中所要面临的问题,我国也不例外,经济发展长期处于不平衡状态,特别是少数民族聚居区的经济发展和汉族聚居区还有不少差距。这种状况不
当下,作为家具生产工具的木工机床产品其加工能力要求越来越高。在国外,多用途、自动化程度高的数控木材加工中心已经取代了不少老式的低端的木工机床,在家具制造行业中充分
目的 探讨手术治疗肩关节后脱位合并肱骨近端骨折的治疗策略及疗效。方法搜集2012年6月至2016年6月我院手术治疗肩关节后脱位合并肱骨近端骨折患者8例。所有患者均采用胸大肌