基于增量式爬取和非文本内容评估的网站无障碍检测系统

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lyyzk09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无障碍检测是保障网页内容无障碍访问的基础。在对政府网站的检测过程中,我们发现曾经达到无障碍访问要求的网站中,部分网页新增了存在障碍的内容,例如图片没有替代文本。因此,为了保障检测结果的正确性,需要检测系统能够及时地对网站新增的内容进行检测。  对于这种情况,传统的检测方法是抓取整个网站进行无障碍检测,但是,在一段时间内,政府机构网站新增加的网页数量有限,远低于网站总网页数目,将整个网站的数据抓取下来进行检测不仅费时费力,而且,短期内抓取众多的政府网站的数据也是不现实的。针对上述问题,本文提出了一种基于网页分类的增量式网页抓取方法。它是通过分析网页的内容特征和结构特征,采用机器学习的分类方法将网页分成索引页面和内容页面,进而通过索引页面发现新增网页的方法。  另外,通过分析我们抓取的网页发现政府网站使用的网页模板是相对固定的,而引起网站访问障碍的大部分是网站中的非文本内容,因此对网页中非文本内容的检测成为无障碍检测的重点。本文通过分析非文本内容的替代内容与它周边文本或作用对象的文本的相关性,通过人工辅助检测的方法来确定非文本替代内容的有效性。  最后,本文介绍了开发本系统所使用的技术、软件包并展示了系统的运行效果。通过将系统与现有的网页内容无障碍检测工具进行对比,凸显了本系统检测方式灵活、检测技术手段多样的特点。
其他文献
随着互联网技术的高速发展,网络中积累了大量的数字图像和视频数据,这些数据为人们的使用带来了新的技术挑战。为此,许多专家学者对图像分类、图像检索、目标识别等领域进行
随着互联网技术与信息产业的发展,以及各种图片分享类网站的出现,如今我们已经步入图像时代。图像是一种直观的媒体资源,在日常生活中扮演着重要角色。图像分类是计算机视觉
随着嵌入式系统网络化、智能化应用的不断扩展,传统软件实时操作系统作为支撑软件已无法满足需求。基于硬件化、软硬件协同等手段,在FPGA、SOC等器件上实现硬件实时操作系统已
随着互联网的飞速发展,在线社群图像的规模呈爆炸式增长,面对日益庞大的图像数据,如何对图像库进行有效的组织、管理和检索成为亟待解决的问题。标签是当前标注这些网络图像
实值优化问题在工程和学术领域有广泛的应用背景,许多问题最后都可以被定义成实值优化问题来求解。随着系统越来越复杂,需要优化的参数越来越多,优化问题解空间的维度越来越
MapReduce作为一种有效的数据分析和处理解决方案已被广泛应用于大规模数据处理领域。随着MapReduce应用的扩大,越来越多的服务提供商对外提供MapReduce商业服务。服务提供商
我们生活在一个相互关联的世界。大多数数据或信息对象、组件等是内部关联或者相互作用的,形成了无数的、巨大的、相互关联的复杂网络。不失一般性,相互关联的网络称为信息网
随着电子商务的发展和社交平台的广泛应用,以社交网络平台为载体的社交电商成为人们购物的新渠道。社交平台的用户使用量逐年递增,社交电商的潜在用户数量也随之递增。由此,
排序学习是当前信息检索与机器学习领域研究的热点问题之一,它在诸如文档检索、协同过滤、自然语言解析等领域有广泛的应用。排序学习的目标就是应用机器学习技术自动地从训
随着云计算发展,软件开发作为一种服务已经受到越来越多的关注。为了让独立软件开发商(ISV)能够将精力集中在核心业务应用的开发上,更加方便、灵活、快捷地构建SaaS系统,平台