基于超链接和DOM结构树的网页标题实时抽取方法

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:shibin19860211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。
其他文献
为缓解莒县水资源供需矛盾,实现水资源的可持续利用,根据莒县水资源短缺的现状,探讨了莒县水权水市场建设的必要性,提出了水权水市场建设的相关建议,为开展莒县水权水市场建