论文部分内容阅读
虽然网页设计者一般将相关内容放在同一页面,但是网页通常包含如广告、导航栏、版权信息等与页面主题关系不大的信息,同时也可能包含多个主题.如果将整张网页作为最小不可分割的基本信息实体进行处理,会受到较多干扰;如果能对页面进行语义分割,识别出相关语义区域进行处理,可以提高网页信息获取的精度和效率.本文研究树编辑距离,Web页面语义区域划分和基于树编辑距离的页面语义区域识别。