基于卷积神经网络的极验验证码识别系统研究与设计

来源 :东华大学 | 被引量 : 0次 | 上传用户:BrokenDoor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网大数据时代的到来,传统的搜索引擎已经无法满足人们查找各种各样类型信息的需求,于是网络爬虫诞生了。爬虫是对搜索引擎的补充和发展,可以让我们通过定制化的程序从互联网中查找我们所需要的数据。但是爬虫程序经常会遇到验证码的问题,有一些新型的验证码很难识别,比如极验(Geetest)验证码。本文的研究目的是为网络爬虫用户提供一个极验验证码的识别接口,因此设计了基于卷积神经网络的极验验证码识别系统。
  本文所设计的系统的主要功能是:提供极验滑块式验证码和极验点选式验证码两种类型验证码的 Http 识别接口,爬虫用户在抓取数据过程中遇到这两种验证码时,可以通过调用 Http 接口完成验证过程。本文的主要工作包括:极验滑块式验证码的识别、极验点选式验证码的识别以及搭建服务器提供Http接口。
  极验点选式验证码的识别难点在于文本定位分割和分类识别,本文提出使用 Faster-RCNN 目标检测框架对极验点选式验证码进行文本定位分割,针对验证码背景图片特点,通过简化网络结构、选择最为合适的 RPN 卷积核以及提出对复杂负样本进行重新训练等方法,在保证单张图片定位时间的情况下提高了文本定位的精确率。
  本文采用卷积神经网络对定位后的文本进行分类识别,使用过采样的方法对数据集进行了均衡化处理,并通过加入样本扩增、批标准化和提供多个预测值等方法大幅提高了文本分类的准确率。
  极验滑块式验证码的识别难点主要是对人拖动滑块过程的模拟,首先获得人拖动滑块的数据,然后对数据进行分析,设计算法模拟拖动过程完成识别。
  本文通过搭建网络服务器,提供了两种类型验证码的 Http 识别接口,网络爬虫用户可以通过调用该接口来完成两种类型验证码的验证过程,而且系统没有平台限制,使用任何语言开发爬虫程序都支持Http接口的调用,极大的方便了网络爬虫抓取数据的过程。
其他文献
  喷头是人工喷泉的基本组成设备,由步进电机或伺服电机驱动的全方位摇摆的数控喷头则是国际上技术含量最高的喷泉技术。本文对应用于数控喷头的步进电机控制系统进行了设计。文章介绍了现场总线技术,对系统中用到的CAN总线从它的结构、优点和应用等方面给予了详细论述;对步进电机的工作原理和运动控制做了阐述,并深入研究了步进电机在升降速过程中脉冲频率曲线的设计;编制了控制器的DSP程序,程序采用C语言编程,模块
学位
本论文分析了永磁无刷直流电动机的工作原理以及30kW永磁无刷直流电机对控制系统的要求;设计了基于DSPTMS320LF2407的电机控制系统。它与传统的控制方式相比具有更快的运算速度和易于实现实时控制算法的优点;同时,专用的PWM输出和保护使系统更加简单、可靠。通过分析比较五种PWM斩波方式(on-pwm,pwm-on,H_pwm-Lpwm,H_pwm-L_on,H_on-L_pwm)可知
[db:内容简介]
随着大时代文化的持续发展以及大众审美的不断提高,陶瓷装饰逐渐成为人们用来装饰环境的重要选择,而浮雕,作为陶瓷装饰艺术重要的装饰手法之一,具有独特的美学意义。浮雕艺术在陶瓷领域的应用,甚至创造了更具有独特审美情趣的艺术作品。陶瓷浮雕为何能在中国传统陶瓷艺术中发展下来?它的素朴典雅体现在哪?又分别以什么样的面貌呈现在中国历史的各个阶段?本文就以中国古代的陶瓷浮雕发展为主要研究对象,力求做到精密严谨,将
行车记录仪和倒车影像是汽车驾驶中非常重要的辅助系统,行车记录仪能够记录汽车行驶全过程的视频,帮助人们记录自己在道路上的驾驶情况,记录的信息具有全面性和客观性,可以为交通事故提供鉴定依据,保障驾驶人的权益不受侵害。同时,也可以帮助交警快速、公平地处理交通事故,营造安全畅通的交通环境。汽车倒车影像是汽车泊车或倒车时的安全辅助系统,能以影像显示告知驾驶员周围障碍物的情况,减小驾驶员的视野盲区,提高驾驶的
柔性关节机器人具有质量轻、负载自重比高、适用性好等特点,而被广泛应用于工业各个领域。本文以柔性关节机器人为控制对象,在关节电机输入力矩有限与没有速度测量装置的情形下,深入研究了其控制律的设计方法,并提出了相应的饱和输出反馈设计思路,研究成果将为实际应用中的柔性关节机器人控制器设计提供指导意见。  首先,根据柔性关节机器人的机械结构作出合理的假设,利用拉格朗日方程法推导出柔性关节机器人的动力学模型。
电渣重熔(ESR)系统是一个多变量、大惯性、含有时滞的复杂系统,随着科技发展,熔炼方式在不断进步,控制方法也有了很大发展,但是大部分电渣重熔控制系统使用的是传统的 PID 算法进行控制,控制的稳定性和精度有待提高。因此,对电渣重熔系统采用先进控制算法对工业生产有重要意义。基于此背景,本文对电渣重熔控制系统进行研究,采用熔速控制和电压摆动控制相结合的熔炼方式,重点对电压摆动过程进行建模,然后设计先进
学位
随着信息科技的高速发展,人们越来越习惯于从互联网上获取想要的信息。在线社交网络正是其中一种重要途径,它改变了人们交流和信息交换的方式。近年来,Twitter,新浪微博等社交媒体广受欢迎,用户数量呈爆炸式增长。庞大的用户群体和紧密的连接关系,使得社交平台的影响力远远超过了传统媒体。  大数据时代的到来,给人们提供了前所未有的机会去接触海量的数据,这也促进了在线社交网络中信息传播的研究。但是,社交活动
随着大数据和云计算等新技术的不断更新与升级,数据中心作为为其提供数据处理、备份以及传输等服务的基础设施以及下一代网络技术的创新平台规模也在逐渐扩大,其结果是每年的能耗大幅上升。而另一方面,传统大供配电网正面临新能源的大规模接入、负荷峰谷差逐渐增大的挑战,且单向供应模式导致的低水平供电和简单的电价方案使得数据中心的供能问题偏向低效、低经济性。再加上同一机构下的数据中心多数呈跨区域分布,各地电价又各不
学位
随着移动互联网的发展和人工智能、大数据时代的到来,人们在享受着信息服务带来的便利的同时,也出现新的难题:信息过载。面对信息过载问题,推荐系统应运而生。协同过滤是推荐系统中应用最广泛的算法,随着用户和项目的不断增长,用户和项目交互数据的稀疏性严重制约着该算法的推荐效果。而推荐系统的性能于企业而言意味着精准营销,增加收入,对用户来说则是提升使用体验,降低选择成本,因此,研究如何提升推荐系统的效果具有重