基于DIV标签树的网页主题信息抽取方法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:marker1900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,因特网上的信息资源以爆炸式的速度在不断增长。面对如此巨大的互联网信息库,如何快速、有效、经济地得到某个主题的所有相关信息就成了当前一个十分热门的研究课题。由于CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已越来越受到人们的重视。针对CSS+DIV布局的新闻网页,本文提出了一种新的基于DIV标签树的网页主题信息抽取方法,主要包括以下三个过程:HTML解析过程:通过读取网页源代码获取HTML文档,从文档中抽取每一个DIV标签对,DIV标签对可以嵌套,每一个DIV标签对对应着一棵DIV标签树,因此将嵌套的DIV标签树抽取出来作为被嵌套的DIV标签树的子树,从而将HTML文档转换成DIV森林。噪声过滤过程:过滤掉DIV标签树中不包含主题信息的噪声结点。剪枝过程:首先建立STU-DIV模型树,然后通过主题相关度分析,判定并剪掉与主题信息无关的DIV标签树。基于本文所提出的网页主题信息抽取方法,本文设计并实现了一个新闻网页主题信息抽取系统原型。通过对多个新闻网站的网页进行主题信息抽取实验,结果表明本文所提抽取方法具有较好的正确性和完整性,获得了较好的新闻主题信息抽取效果。
其他文献
本研究在柯萨奇病毒B3(coxsackievirus B3,CVB3)基因组P1编码区与P2编码区之间插入一段has-miRNA-205-3p和has-miRNA-205-5p(简称miR-205)的靶序列,得到重组病毒v205T,并比较
微网是一种由负荷和分布式电源共同组成的系统,即可以孤岛运行也可以联网运行,微网内部的发电装置主要是由电力电子装置负责能量转换,并提供必须的控制。对大多数正在蓬勃兴
长期以来,边坡滑坡灾害一直困扰着人类的安全生产活动。由于露天矿山长期大规模高强度的采矿活动所形成的高边坡,更是滑坡灾害的高发地,加上矿区人员和设备相对集中,边坡灾害
急腹症是一类以急性腹痛为突出表现,需要早期诊断和紧急处理的腹部疾病。常见的外科急腹症包括:急性阑尾炎、急性胰腺炎、急性胆囊炎、胆结石、肠梗阻等。妊娠合并外科急腹症
目的对1例Waardenburg综合征2型先证者及其家系成员进行基因测序分析,探讨其可能的分子生物学病因,进一步探讨Waardenburg综合征2型的分子遗传学特征。方法对所收集家系进行
针对粮食烘干系统中所用大型除尘装备不易运输与安装的问题,采用离散的思想,将大型除尘设备分成容易运输和吊装的小单元,单元之间可以通过快速地定位和连接固定实现快速安装