基于超链接和DOM结构树的网页标题实时抽取方法

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户：shibin19860211

【摘要】

：

网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题

【作者】

：

张兵汤进罗斌

【机构】

：

安徽大学计算机科学与技术学院,安徽省工业图像处理与分析重点实验室

【出处】

：

计算机与现代化

【发表日期】

：

2015年8期

【关键词】

：

超链接网页标题发布时间实时信息抽取 hyperlink Web page title publication time real-time

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。

其他文献

莒县水权水市场建设实践

为缓解莒县水资源供需矛盾,实现水资源的可持续利用,根据莒县水资源短缺的现状,探讨了莒县水权水市场建设的必要性,提出了水权水市场建设的相关建议,为开展莒县水权水市场建

期刊

莒县水权水市场水利建设

基于超链接和DOM结构树的网页标题实时抽取方法

其他学术论文