反反爬虫(1) :破解图片/文字验证码(翻过这座山,让世界听到你的故事)
作者:互联网
文章目录
验证码
全自动区分计算机和人类的公开图灵测试 (Completely Automated Public Turing test to tell Computers and Humans Apart),简称 CAPTCHA,俗称 验证码。
由于这个测试是由计算机来考人类,而不是标准图灵测试中那样由人类来考计算机,所以也被称为反向图灵测试。
验证码可以有效防止恶意注册,刷票,论坛“灌水” 等有损网站利益的行为。验证码的原理很简单:人类有主观意识,能够根据要求执行操作,而计算机却不能。
最初,验证码是一张带有字符的图片,用户只需要将图片中的字符输入到文本框中即可,但这种简单的验证码很快就被绕过了。于是人们向图片中加入了一些混淆的元素,如斜线,彩色斑点等。接着出现了一些基于用户操作的验证码,也就是行为验证码。常见的有滑动验证码,拼图验证码和文字点选验证码等。
字符验证码
字符验证码是指用数字,字母,汉字和标点符号等字符作为元素的图片验证码。字符验证码是常见的验证码类型。它将人类视觉和计算机视觉的差异作为区分用户身份的依据。
OCR识别
我们曾在前边的文章中使用 百度AI开放平台文字识别 成功地从图片中识别电话号码,那么是否可以用来识别验证码图片中的文字呢? 将网站中的验证码保存到本地,然后调用 百度OCR 进行识别:
相较于之前的电话号码来说,本次所面对的验证码是带有彩色背景斜线和噪点,而且图片中字符颜色和背景色并没有强烈反差,这些因素都会影响识别效果。
要想提高识别的成功率,我们必须对图片进行处理,例如降低斜线和噪点对文字的干扰,增强背景色与字符颜色的反差。
也就是说,我们需要对图片进行灰度处理(去掉彩色)和二值化处理(降低干扰,增强颜色反差)。
灰度处理
from PIL import Image
im = Image.open(r"C:\Users\Administrator\Desktop\code.png")
im = im.convert('L')
im.show()
这时候整张图片变成了灰色,但字符颜色与背景颜色并不明显,对识别没有明显帮助。接下来,我们对图片进行二值化处理,并尝试识别处理后的图片。
二值化处理
二值化处理其实就是根据 阈值 调整原图的像素值,将大于阈值的像素点颜色改为白色,小于阈值的像素点颜色改为黑色,这样就能够达到增强颜色反差的目的。
def handler(grays, threshold=170):
"""
二值化处理
:param grays: 待处理的图片
:param threshold: 默认阈值为 160, 可根据实际情况调整
:return:
"""
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
anti = grays.point(table, '1')
return anti
彩色的验证码图片在经过灰度和二值化处理后变成了如下的样子
OCR识别
处理后的图片轮廓清晰,字符与背景颜色反差大。此时我们再次调用 百度OCR 对图片进行识别
本次识别的效果还是不错的,那么我们多获取一些验证码图片尝试一下
对于随机的 8张略微复杂的验证码,OCR 的效果就不忍直视了。在实际应用中,图片验证码的识别成功率达到 75% 才能够满足爬虫工程师的需求。面对这样的问题,我们是否还有其他的解决方法呢?
打码平台
打码平台的主要功能就是提供验证码识别,目前主流的打码平台都支持数字、汉字、英文字母、图片、座标、答题等各种形式的验证码的智能识别,机器与人工相配合,平均识别时间 1~3秒,有着非常高的识别率
本次我们以 超级鹰 打码平台为例,展示打码平台的使用!
-
注册账号登录网站
-
查看接口开发文档,在超级鹰的文档中,我们可以很容易找到 接口地址,请求方式,参数设置等信息
-
编写代码
import base64 import requests def vaifyCode_API(path): # 图片处理 with open(path, 'rb') as f: img_content = f.read() img = base64.b64encode(img_content) # 参数构造 data = { 'user': '账号', 'pass': '密码', 'softid': '软件ID', 'codetype': '1902', # 验证码类型 'file_base64': img, # 图片base64字符串 } url = 'http://upload.chaojiying.net/Upload/Processing.php' # 发起请求 data = requests.post(url=url, data=data).json() # 返回识别结果 return data.get('pic_str') result = vaifyCode_API('1.jpg') print(result)
-
识别结果
小结
添加了干扰信息的字符验证码可以有效增加识别难度和错误率。除了斜线和噪点外,还可以使用字符扭曲,角度旋转和文字重叠等方法。
对于复杂验证码的识别,本文仅介绍了打码平台的使用,此外我们还可以借助深度学习来对验证码进行识别工作。
标签:字符,OCR,爬虫,验证码,翻过,识别,二值化,图片 来源: https://blog.csdn.net/qq_36078992/article/details/110329707