论文部分内容阅读
随着网络信息的不断增多,网页信息不仅成为用户的重要信息来源,同时也是数据挖掘、信息检索等研究的重要数据来源。为提供高质量的文本信息源,页面去噪已经成为网页处理中不可忽视的步骤。随着网页制作技术的不断提升,页面中的视觉元素日益增多,网页节点信息愈加丰富。视觉信息已经成为页面去噪中不可忽视的重要部分。从用户的角度,在浏览网页时,视觉的信息网页能够第一时间反映页面中模块的重要程度。传统的页面去噪技术过多地忽略了页面的视觉特性,面对现今复杂的页面结构,去噪效果大大下降。文中在综合视觉信息和节点信息的基础上,提出了