论文部分内容阅读
随着互联网大数据时代的到来,传统的搜索引擎已经无法满足人们查找各种各样类型信息的需求,于是网络爬虫诞生了。爬虫是对搜索引擎的补充和发展,可以让我们通过定制化的程序从互联网中查找我们所需要的数据。但是爬虫程序经常会遇到验证码的问题,有一些新型的验证码很难识别,比如极验(Geetest)验证码。本文的研究目的是为网络爬虫用户提供一个极验验证码的识别接口,因此设计了基于卷积神经网络的极验验证码识别系统。
本文所设计的系统的主要功能是:提供极验滑块式验证码和极验点选式验证码两种类型验证码的 Http 识别接口,爬虫用户在抓取数据过程中遇到这两种验证码时,可以通过调用 Http 接口完成验证过程。本文的主要工作包括:极验滑块式验证码的识别、极验点选式验证码的识别以及搭建服务器提供Http接口。
极验点选式验证码的识别难点在于文本定位分割和分类识别,本文提出使用 Faster-RCNN 目标检测框架对极验点选式验证码进行文本定位分割,针对验证码背景图片特点,通过简化网络结构、选择最为合适的 RPN 卷积核以及提出对复杂负样本进行重新训练等方法,在保证单张图片定位时间的情况下提高了文本定位的精确率。
本文采用卷积神经网络对定位后的文本进行分类识别,使用过采样的方法对数据集进行了均衡化处理,并通过加入样本扩增、批标准化和提供多个预测值等方法大幅提高了文本分类的准确率。
极验滑块式验证码的识别难点主要是对人拖动滑块过程的模拟,首先获得人拖动滑块的数据,然后对数据进行分析,设计算法模拟拖动过程完成识别。
本文通过搭建网络服务器,提供了两种类型验证码的 Http 识别接口,网络爬虫用户可以通过调用该接口来完成两种类型验证码的验证过程,而且系统没有平台限制,使用任何语言开发爬虫程序都支持Http接口的调用,极大的方便了网络爬虫抓取数据的过程。
本文所设计的系统的主要功能是:提供极验滑块式验证码和极验点选式验证码两种类型验证码的 Http 识别接口,爬虫用户在抓取数据过程中遇到这两种验证码时,可以通过调用 Http 接口完成验证过程。本文的主要工作包括:极验滑块式验证码的识别、极验点选式验证码的识别以及搭建服务器提供Http接口。
极验点选式验证码的识别难点在于文本定位分割和分类识别,本文提出使用 Faster-RCNN 目标检测框架对极验点选式验证码进行文本定位分割,针对验证码背景图片特点,通过简化网络结构、选择最为合适的 RPN 卷积核以及提出对复杂负样本进行重新训练等方法,在保证单张图片定位时间的情况下提高了文本定位的精确率。
本文采用卷积神经网络对定位后的文本进行分类识别,使用过采样的方法对数据集进行了均衡化处理,并通过加入样本扩增、批标准化和提供多个预测值等方法大幅提高了文本分类的准确率。
极验滑块式验证码的识别难点主要是对人拖动滑块过程的模拟,首先获得人拖动滑块的数据,然后对数据进行分析,设计算法模拟拖动过程完成识别。
本文通过搭建网络服务器,提供了两种类型验证码的 Http 识别接口,网络爬虫用户可以通过调用该接口来完成两种类型验证码的验证过程,而且系统没有平台限制,使用任何语言开发爬虫程序都支持Http接口的调用,极大的方便了网络爬虫抓取数据的过程。