论文部分内容阅读
面向敏感网页识别,设计并实现了一种网页内容获取方案。该方案主要包括HTML(Hypertext Markup Language)源文件的获取、文本获取、图像获取及穿插其中的HTML源文件解析等4部分内容。测试结果表明,无论是中文网页还是英文网页,本设计方案均能获得网页上的文本和图像内容信息,所获取的内容可以满足后续敏感网页识别的应用需求。