论文部分内容阅读
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难.针对HTML的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTML文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容.对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78﹪的准确率。