浅谈对强干扰下图形验证码的识别

来源 :科技致富向导 | 被引量 : 0次 | 上传用户:hfrr0828
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】随着互联网的飞速发展,一部分不道德的人便利用自动程序在公众BBS上批量注册帐号并散发海量广告,妨碍网站正常用户的浏览并给服务器加重了负担。为了区分开自然人与机器,人类发明了图形验证码。本文主要讨论了对图形验证码进行机器光学字符识别的技术及难点,从而给出图形验证码的发展方向。
  【关键词】图形校验码;像素;点阵;中文输入法
   1.图形验证码的校验方式
  图形验证码(Completely Automated Public Turing test to tell Computers and Humans Apart, CAPTCHA)是区分用户端就是是机器操作还是人工访问的一种有效工具。在有图形验证码的环境下,机器如需模拟人工访问,则需利用光学字符识别(Optical Character Recognition, OCR)技术实现的暴力破解。因为人眼可以看到的图片对于计算机来说是必可见的,所以这种方法并没有绝对禁止的途径,只有利用人脑的模糊识别能力远比计算机强的特点对验证码图片添加一系列干扰要素,从而让人眼能识别的同时机器识别程序厄不能。
   2.图形验证码的主要干扰技术
  2.1 添加噪声干扰:在图形验证码的图片上随意添加与字符同一颜色或不同颜色的干扰点或干扰线。
  2.2 字符位移,图形验证码的字符不處于同一水平线上,或字符之间的空隙不相同。
  2.3 字符自身的调整,如拉伸、扭曲、旋转。
  2.4 使用不同的字库,如使用汉字作为验证码的字符。
  2.5 使用问答的形式,图形验证码中显示的是问题,而需使用者回答的是问题的正确答案。
   3.图形验证码的降噪
  为图形验证码添加噪点以抗识别已经是通用的做法。网络上几乎所有噪点都符合一个特征:噪点与底色的对比度必然比字符与背景的对比度低。该特征产生的原因是当字符与背景色对比最强烈时才容易被人眼所捕捉。同时还有一类杂色的干扰线。
  对于这类干扰要素,我们所使用的方法是根据亮度直接转成黑白二值位图。这不单止是所有OCR的必经步骤,还能通过设置正确的阀值清楚掉大量的噪点和几乎所有杂色干扰线。经过以上操作,能明显去除图形验证码上的大部分干扰但也很明显并不是所有的噪点都能如此简单的清理掉。这时我们必须对图片上每一个黑点进行扫描,以期去除剩下的噪点。我们对噪点的辨别方式如下:如果一个黑点(左边x,y)附近的8个点(分别为(x-1,y-1),(x-1,y),(x-1,y+1),(x,y-1),(x,y+1),(x+1,y-1),(x+1,y),(x+1,y+1),)里,只有两个或少于两个点是黑点,那么该点(x,y)为噪点。通过这一系列的处理,可基本消除。
   4.图形验证码的字符抽取
  我们所设计的切割算法是从左边第一列开始向右扫描,遇到有黑点时记录下该列号,接着从下一列开始继续向右扫描,当发现一列全为白点时再次记录该列号。假设去噪步骤的结果是完美的,那么理想的整个列切割程序将如下:
  (a)进入左边第一列。
  (b)自顶向下扫描本列:如发现有黑点存在则记录列号同时向右移动一列并转入步骤(c),如未发现则向右移动一列重新执行本步骤。
  (c)自顶向下扫描本列:如发现全列都没黑点则记录列号同时向右移动一列并转入步骤(d),如发现黑点则向右移动一列重新执行本步骤。
  (d)检查是否已记录够10个列号:如已足够则退出循环,如未足够则向右移动一列并重新执行步骤(b)。
  当列切割程序执行完毕则进入行切割。行切割则是指定的列号范围内逐行扫描,当遇到黑点时记录行号并进入下行继续扫描,当遇到一行全为白点的行时记录行号并进入下一个列片段重新从第一行开始扫描。假设去噪以及行切割步骤的结果是完美的,那么理想的整个行切割程序将如下:
  (a)进入第一个列片段(如列号1、2为一个片段,3、4为下一个片段)。
  (b)进入上面第一行。
  (c)自左向右扫描本行:如发现黑点则记录行号同时向下移动一行并转入步骤(d),如未发现则向下移动一行并重新执行本步骤。
  (d)自左向右扫描本行:如发现全行无黑点则记录行号同时向下移动一行并转入步骤(e),如发现黑点则向下移动一行并重新执行本步骤。
  (e)检查是否已记录够10个行号:如已足够则退出循环,如未足够则进入下一个列片段并重新执行步骤(b)。
  经过上述步骤可得出10个行号与10个列号,用第1、2行号与第1、2列号则可得出第一个字符的具体位置,而第3、4行号与第3、4列号则可得出第一个字符的具体位置,依次类推,我们可以得出在降噪步骤完美实现的前提下5个字符的具体位置。
   5.图形验证码的字符抽取
  实际操作中因为降噪有可能造成不同验证码图片中某一字符的轮廓出现特一定的丢失,基本不可能出现与样本完全相同的情况。假设切割出的大小还是相同时,我们只需把两者中所有元进行对比,如果相同超过85%,我们则可认为是同一字符。
  还有另外一种情况是当噪点与字符相连并无法通过降噪步骤顺利清除,或者降噪步骤把一些属于字符的信息也消除掉了,势必造成切割出来的图片大小与设想中不同。
   6.图形验证码识别上的难点
  6.1 降噪上的难点如前文所述,降噪是否顺利是决定能否正确分割的前提。现在已经开始有部分验证码字符使用了渐变色效果。渐变色效果意味着字符颜色有一定的亮度范围。一旦当较大面积的噪点或干扰线颜色的亮度与字符颜色亮度近似的话机器便难以区分。也就是说即使人眼看上去的颜色不同,但当亮度近似时我们所使用的降噪方法无法正确处理。
  6.2 分割上的难点在于验证码字符间不留空隙的设计已经逐渐被不少图形验证码程序运用起来了。在字符宽度以及旋转角度毫无规律的情况下难以识别。
  6.3 识别上的难点则会更多。我们在对识别进行探讨时发现,对在一个不足20*20像素大小的黑白二值位图里的点阵进行旋转、拉伸或扭曲都是难以实现的。所以一旦验证码每个字符都进行过了不同的形变处理的话,对比的成本便会很高。另一方面,只识别26个英文字母加10个数字时,因样本量小效率很高。当导入中文字符时则识别效率大大下降。对一些需要进行计算、判断的验证码的题目,自动程序无法有效进行识别与判断。
   7.图形验证码的发展方向
  根据上述研究结果,对字符进行小角度的旋转加上拉伸或扭曲是对抗对照识别的有效办法。因验证码所占图像像素极少,在一个特定的范围内对字符进行任何形变都会造成较大程度的失真。所以即使在识别程序有着明确且具有针对性的形变修正下依然难以获得足以应用的识别率。小角度的旋转不单止不会对肉眼的识别造成障碍,同时会让字符的特征得以大量的改变,加上对字符执行一定的形变操作后字符的长宽比改变,不能用于粗略判断出字符的范围及水平位置。第二种策略是利用汉字做字符的验证码。英文加数字总共就36种字符,而使用汉字则在2个英文字符的空间内至少塞进2000多种可能性(只使用GB2312的情况下),这意味着在字体已知的条件下使用汉字则会令用于识别的样本大小上升60倍以上,并且识别程序的正确识别率会大大降低。但缺点是只能面对熟识中文的用户并且需要客户端具有中文输入法,应用范围相对狭小,同时用户输入速度降低感受变差,不适合用于经常需要验证的操作。第三种策略是使用问答形式进行。可以预见,识别程序基本无法实现自动识别。但这种策略的缺点更加明显,因用户需要对题目进行计算与判断,故当问题库设计功夫不到家时,用户的使用速度最低,使用体验最差。综上所属,现阶段的图形验证码的使用应该还是以字符的编造为主。■
  
  【参考文献】
  [1]韩力群.人工神经网络理论、设计及应用,化学工业出版社,2001.
  [2]周开利,康耀红.神经网络模型及其MATLAB仿真程序设计.清华大学出版社,2004.
其他文献
近年随着全国成品油需求猛增,炼油企业出厂任务日益繁重,火车鹤管是油品装车主要设备,故障的消除,设备平稳的运行,是保证出厂的关键.本文论述鹤管液压系统中通过对液压油正确
【摘 要】化工工艺管道的安装是一项要求非常高的技术,管道安装质量的好坏不仅关系到整个体工产品输送的质量与效率,而且它还对整个化工产品输送过程的安全性产生直接的影响。因此,在安装化工工艺管道的过程中,其安装组织及质量管理是非常重要的内容。   【关键词】化工工艺管道;安装;组织管理   1.管道施工方案的确定  在确定施工方案之前,首先要根据蓝图及现场施工情况,确定项目基本工程量,做到全盘工程了
【摘 要】随着计算机网络技术的发展及测量智能化仪器广泛使用,现代工程测量技术替代了传统测绘技术。本文就我国工程测量技术的发展进行初步探讨。  【关键词】工程;测量技术;发展     0.引言  八十年代以来出现许多先进的地面测量仪器,为工程测量提供了先进的技术工具和手段,如:光电测距仪、精密测距仪、电子经纬仪、全站仪、电子水准仪、数字水准仪、激光准直仪、激光扫平仪等,为工程测量向现代化、自动化、
【摘 要】梗丝在线膨胀技术在烟草行业普遍使用,本文系统评价了可能影响梗丝在线膨胀效果的关键工艺参数,并对其进行了系统试验,测试的结果表明:①一定范围内,压梗对提高梗丝在线膨胀效果不利。②一定范围内,切梗厚度与在线膨胀呈正相关关系。③适当提高在线膨胀前梗丝含水率,对提高在线膨胀效果有利。④一定范围内,增加膨胀前蒸汽量对梗丝膨胀效果有利。⑤闪蒸使用文丘里管比使用直管在线膨胀效果好。  【关键词】梗丝在
【摘 要】本文闡述了压缩机干气密封的工作原理、结构、装配及密封工艺气、仪表风系统的配备,分析了影响压缩机干气密封使用寿命的因素,并提出了对策。  【关键词】压缩机;干气密封;使用寿命   1.干气密封的工作原理  干气密封是20世纪60年代末从气体动压轴承的基础上发展起来的一种新型非接触式密封,主要由旋转环(合金钢)、静环(碳环)、密封圈、弹簧、弹簧座和轴套等组成。旋转环密封面经过研磨和抛光处理
【摘 要】分析路面检查井井周下沉的原因,结合施工实际,提出解决检查井井周下沉的措施。  【关键词】检查井;井周;下沉;原因;防止措施;效果   随着机动车的飞速增长,道路交通量的不断扩大,无形中加剧了道路损坏程度,导致了维修费不断增加;为了改变道路状况,结合我市道路情况,积极探索用新的施工工艺改善道路状况,延长道路维修周期。检查井周围不均匀下沉、松散、坑槽是道路损坏及行车不顺畅的主要原因之一,从
【摘 要】控制技术的发展不断在促进卷烟机性能的提高,也使卷烟生产企业对卷烟机性能有了新的追求。烟草机械制造行业的发展战略是跟踪战略,走的是引进、消化、吸收、提高与创新的路子,基础研究和实验条件相对薄弱,新时期怎样发展具有中国特色的卷烟设备,应对入世后国外卷烟设备对国内市场的冲击?是当前国内烟机制造企业面临的一个重要课题。  【关键词】卷烟;自动控;技术改造   当前,随着机电一体化技术的迅速发展
【摘 要】目前,我国城市化已经进入全新的发展阶段。城市化快速发展不可避免带来人口、资源、环境等方向的问题,在这样的形式下,城市规划必须以科学观为指导思想,实现经济发展与人需要的和谐,只有确立这样的新思维才能在实践中充分发挥规划建设管理在快速城镇化进程中的保障作用,才能充分发挥规划的龙头作用。  【关键词】城市;规划;可持续发展  人们通常把在一定时期内实现城市的经济和社会发展目标,确定城市性质、规
【摘 要】在水泥工业生产中,由于各种机械磨损,大量的钢材被消耗掉。据统计,我国水泥产量约10亿吨/年,每年水泥工业消耗钢材在200万吨左右。其中机械磨损消耗钢材占90%以上,即180万吨左右。因此,合理选择耐磨材料,对于减少磨损、降低钢材消耗、节约能源促进可持续发展,具有十分重要的意义。同时,也是提高企业经济效益的重要途径。  【关键词】水泥机械;耐磨材料     1.机械磨损的类型  在水泥生
【摘 要】园林小品是园林景观环境不可缺少的要素之一,它与建筑、山水、植物要素等共同构筑完整的园林景观,体现园林环境的性格和品质。因此,在园林景观中,创造优质的园林小品,对丰富与提高环境空间的品质与强化空间的特色具有重要的意义  【关键词】园林绿化;湿地公园;园林小品   1.城市湿地公园定义及分类  1.1湿地的定义  “湿地(wetland)”最早的定义是:被间歇的或永久的浅水层所覆盖的低地。