日期:
来源:W挖挖W收集编辑:验证码
这里采用python PIL及Tesseract-Ocr对简单验证码进行识别处理,经过多次尝试,感觉此种验证码处理方法识别正确率很差,稍微有点干扰的验证码就不能正常识别出来;
下面图片是本次实验使用的原始验证码图片:
这是本次使用的原始验证码图片
接下来分三步来处理此验证码:
第一步:灰度处理,可简单理解为把彩色照片处理为黑白照片
这里对比效果不是很明显
第二步:二值化,可简单理解为把经过灰度处理后的照片只保留黑或白两种颜色
经过二值化处理的照片
第三步:降噪,从上图可明显看见,经过二值化处理的照片,有很多很明显的噪点,这些照片如果不处理不好,对能否正确识别有很大影响
经过降噪处理后,噪点明显减少
像这种简单的验证码稍微处理下还是能识别出来,下图就是识别出来的字条串
准确识别出EQOL
下图就是实现代码,很少,才三十来行