python实现简单验证码识别_python

概述准备工作首先找到确定这次要识别的验证码然后从某网站上下载大量同类型的验证码，人工标记上每个验证码的数值，由于此验证码识别容易就只标记了20个开始预处理图片图片是彩色的，我们要先让其变得简单变成灰度图像。“灰度图像上每个像素的颜色值又称为灰度，指黑白图像中准备工作

首先找到确定这次要识别的验证码

然后从某网站上下载大量同类型的验证码，人工标记上每个验证码的数值，由于此验证码识别容易就只标记了20个

开始预处理图片

图片是彩色的，我们要先让其变得简单变成灰度图像。

“灰度图像上每个像素的颜色值又称为灰度，指黑白图像中点的颜色深度，范围一般从0到255，白色为255，黑色为0。所谓灰度值是指色彩的浓淡程度，灰度直方图是指一幅数字图像中，对应每一个灰度值统计出具有该灰度值的象素数。”

这里就是用的是python的一个PIL的库安装如下

pip install pillow

使用 from PIL import Image 加载我们下载好的图片将图片灰度化

img=img.convert("L")

得到了数值范围为0-255的图片由于图片的白色和黄色难以分清所以要卡一个阈值使得两种颜色可以分开来多次尝试卡的是220。小于220的变成白色大于220的变成黑色，就完成了图片的二值化。

def ez_map(thresold):    res=[]    for i in range(256):        if i<thresold:            res.append(1)        else:            res.append(0)    return res def pre_hd_ez(path,out_path):    img=Image.open(path)    img=img.convert("L")    #二值    thresold=230    table=ez_map(thresold)    # img=img.convert("1")    img=img.point(table,'1')    img.save(out_path)    return img

接下来要把无关紧要的点处理了，如下图所示可以看下一个像素点周围的颜色，来对其颜色进行修正。如下图中间的黑色很可能白色更适合他。可以通过一层来判断也可以通过多层来判断，我们管这个步骤叫做降噪。

白	白	白
白	黑	白
白	白	白

代码存在硬编码不规范地方日后会进行更正

def get_jz_color(img,x,y,level,layer):    color_Now=img.getpixel((x,y))    zero=0    one=0    all_point=0    for i in range(0-layer,0+layer+1):        if x-i<0 or x+i>=img.size[0]:            continue        for j in range(0-layer,0+layer+1):            if y-j<0 or y+j>=img.size[1]:                continue            if i==0 and j==0:                continue            if img.getpixel((i,j))==0:                zero+=1            else:                one+=1            all_point+=1    # return color_Now    # print(color_Now)    # return 0    #  0 黑    # return color_Now    if color_Now==0:        if one/all_point>7/8:            return 1        else:            return 0    if color_Now==1:        if zero/all_point>4/8:            return 0        else:            return 1    print(color_Now)def pre_jz(img,out_path):    img_after_table=[]    for x in range(img.size[0]):        img_after_table.append([])        for y in range(img.size[1]):            num_color=get_jz_color(img,x,y,0,1)            img_after_table[x].append(num_color)    draw = ImageDraw.Draw(img)    for i in range(img.size[0]):        for j in range(img.size[1]):            draw.point((i,j),img_after_table[i][j])    img.save(out_path)    return img

此时我们得到了黑白分明的图片

分割

由于图片四个数字在图片上是等分的，我们可以直接对图片进行分割得到每个数字一个图片。

def pre_split_img(img,num,name,out_base_path):    imgs=[]    wIDe=img.size[0]    # print (wIDe)    high=img.size[1]    one=int(wIDe/4)    for i in range(num):        img1=img.crop((i*one,0,(i+1)*one,high))        imgs.append(img1)        if out_base_path:            name1=''.join(name)+str(name[i])            img1.save(out_base_path+'/'+name[i]+'/'+name1+'.png')    return imgs

将分割好的图片按照之前标记的结果分成0-9 存到0-9不同的文件夹里面

接下来我们有了各个数字图片的样本。

如何和新来的图片进行匹配？

我们要找到能代替某个数字图片的方法，比如把0这个图片分成6份每一份计算出黑色像素点/总像素点的值然后对多有0的图片都如此 *** 作，分别取分割出来的6份中第一份的平均值，这样的到了能代表0这个图片的6份数值存起来后面用。

def get_block_score(img):    sum=0    black=0    for i in range(img.size[0]):        for j in range(img.size[1]):            if img.getpixel((i,j))==0:                black+=1            sum+=1    return black,sum#  计算特征值def get_features_vaule_by_img(img):    wIDe=img.size[0]    one_wIDe = int(wIDe/2)    high=img.size[1]    one_high=int(high/3)    score_lsit=[]    for i in range(3):        for j in range(2):            img_one=img.crop((j*one_wIDe,i*one_high,(j+1)*one_wIDe,(i+1)*one_high))            black,sum=get_block_score(img_one)            score_lsit.append(black*1.0/sum)    return score_lsitdef get_features_vaule(dir_path):    arry_size=6    score_lsit_res=[]    for i in range(arry_size):        score_lsit_res.append(0)    sum_file=0    for root, dirs, files in os.walk(dir_path):        for f in files:            if not '.png' in f:                continue            img=Image.open(os.path.join(root, f))            sum_file+=1            score_lsit=get_features_vaule_by_img(img)            for i in range(arry_size):                score_lsit_res[i]=score_lsit[i]+score_lsit_res[i]    # 求平均值    for i in range(arry_size):        score_lsit_res[i]=str(score_lsit_res[i]/sum_file)    value='\n'.join(score_lsit_res)    fs=open(dir_path+'feture.txt','w')    fs.write(value)    fs.close()

识别图片

此时我们拿来一个新的验证码

让这个新的验证码经过灰度化，二值化，分割，在每个数字分割6份计算黑点/总点的占比，将计算好的 6个值与我们之前给0-9计算的这个值分别进行比较找出和0-9最相似的数字这个数字就是我们想要的结果

完整代码如下获取二维码的网站已经特殊处理

import requests,osfrom PIL import Imagefrom PIL import ImageDrawimport mathdef download_image():    url='xxx'    for i in range(0,20):        import time        time.sleep(1)        res=requests.get(url).content        f=open('D:\project/ocr/image/'+str(i)+'test.png','wb')        f.write(res)        f.close()# download_image()def makefile():    for i in range(0,10):        os.makedirs('D:\project/ocr/yangben/'+str(i))def ez_map(thresold):    res=[]    for i in range(256):        if i<thresold:            res.append(1)        else:            res.append(0)    return res def pre_hd_ez(path,out_path):    img=Image.open(path)    img=img.convert("L")    #二值    thresold=230    table=ez_map(thresold)    # img=img.convert("1")    img=img.point(table,'1')    img.save(out_path)    return imgdef get_jz_color(img,x,y,level,layer):    color_Now=img.getpixel((x,y))    zero=0    one=0    all_point=0    for i in range(0-layer,0+layer+1):        if x-i<0 or x+i>=img.size[0]:            continue        for j in range(0-layer,0+layer+1):            if y-j<0 or y+j>=img.size[1]:                continue            if i==0 and j==0:                continue            if img.getpixel((i,j))==0:                zero+=1            else:                one+=1            all_point+=1    # return color_Now    # print(color_Now)    # return 0    #  0 黑    # return color_Now    if color_Now==0:        if one/all_point>7/8:            return 1        else:            return 0    if color_Now==1:        if zero/all_point>4/8:            return 0        else:            return 1    print(color_Now)def pre_jz(img,out_path):    img_after_table=[]    for x in range(img.size[0]):        img_after_table.append([])        for y in range(img.size[1]):            num_color=get_jz_color(img,x,y,0,1)            img_after_table[x].append(num_color)    draw = ImageDraw.Draw(img)    for i in range(img.size[0]):        for j in range(img.size[1]):            draw.point((i,j),img_after_table[i][j])    img.save(out_path)    return imgdef pre_split_img(img,num,name,out_base_path):    imgs=[]    wIDe=img.size[0]    # print (wIDe)    high=img.size[1]    one=int(wIDe/4)    for i in range(num):        img1=img.crop((i*one,0,(i+1)*one,high))        imgs.append(img1)        if out_base_path:            name1=''.join(name)+str(name[i])            img1.save(out_base_path+'/'+name[i]+'/'+name1+'.png')    return imgs# img=pre_hd_ez('D:\project/ocr/image/0/6809.png','D:\project/ocr/image/0/res.png')# pre_jz(img,'D:\project/ocr/image/0/res1.png')# makefile()def get_block_score(img):    sum=0    black=0    for i in range(img.size[0]):        for j in range(img.size[1]):            if img.getpixel((i,j))==0:                black+=1            sum+=1    return black,sum#  计算特征值def get_features_vaule_by_img(img):    wIDe=img.size[0]    one_wIDe = int(wIDe/2)    high=img.size[1]    one_high=int(high/3)    score_lsit=[]    for i in range(3):        for j in range(2):            img_one=img.crop((j*one_wIDe,i*one_high,(j+1)*one_wIDe,(i+1)*one_high))            black,sum=get_block_score(img_one)            score_lsit.append(black*1.0/sum)    return score_lsitdef get_features_vaule(dir_path):    arry_size=6    score_lsit_res=[]    for i in range(arry_size):        score_lsit_res.append(0)    sum_file=0    for root, dirs, files in os.walk(dir_path):        for f in files:            if not '.png' in f:                continue            img=Image.open(os.path.join(root, f))            sum_file+=1            score_lsit=get_features_vaule_by_img(img)            for i in range(arry_size):                score_lsit_res[i]=score_lsit[i]+score_lsit_res[i]    # 求平均值    for i in range(arry_size):        score_lsit_res[i]=str(score_lsit_res[i]/sum_file)    value='\n'.join(score_lsit_res)    fs=open(dir_path+'feture.txt','w')    fs.write(value)    fs.close()            def pre_img_pipeline():    for root, dirs, files in os.walk('D:\project/ocr/image'):        # 遍历文件        for f in files:            img=pre_hd_ez(os.path.join(root, f),'D:\project/ocr/image1/'+f)            img=pre_jz(img,'D:\project/ocr/image2/'+f)            pre_split_img(img,4,f.replace('.png',''),'D:\project/ocr/yangben')    for i in range(10):        get_features_vaule('D:\project/ocr/yangben/'+str(i)+'/')# pre_img_pipeline()# 获取0-9的特征值def get_base_features_vaules(path):    res={}    for i in range(10):        fs=open(path+str(i)+'/feture.txt','r')        value=fs.read()        values=value.split('\n')        values=[float(feature_value) for feature_value in values]        res[i]=values        fs.close()    return res# 拉去待识别数据def download_pending_image():    url='xxx'    for i in range(1):        import time        time.sleep(1)        res=requests.get(url).content        path='D:\project/ocr/pending/'+str(i)+'test.png'        f=open(path,'wb')        f.write(res)        f.close()        img=Image.open(path)        return path,img# 关联性计算# 求向量点积def add_vectors(a,b):    res = 0    for i in range(len(a)):        res += float(a[i])*float(b[i])    return res# 求向量的模def module_vectors(a):    return math.sqrt(sum([float(x)**2 for x in a]))# 求向量夹角余弦值def get_cos(a,b):    add_a, add_b = module_vectors(a),module_vectors(b)    if add_a!=0 and add_b!=0:        return add_vectors(a,b)/(add_a*add_b)    return 0#  # 计算一个数字的值def sb_vaule(pending_score_List,base_features_map):    res=[]    max_score=-10.0    max_key=None    for key,values in base_features_map.items():        IDx=0        scores=0        scores=get_cos(pending_score_List,values)        if scores>max_score:            max_score=scores            max_key=key        IDx+=1    return max_keydef run():    #取基础信息     base_features_map=get_base_features_vaules('D:\project/ocr/yangben/')    path,img=download_pending_image()    img=pre_hd_ez(path,'D:\project/ocr/pending/deal/first_step.png')    img=pre_jz(img,'D:\project/ocr/pending/deal/second_step.png')    imgs=pre_split_img(img,4,'','')    res=''    for img_one in imgs:        pending_score_List=get_features_vaule_by_img(img_one)        # 计算一个数字的值        res_one=sb_vaule(pending_score_List,base_features_map)        res+=str(res_one)    print(res)    run()

总结

以上是内存溢出为你收集整理的python实现简单验证码识别全部内容，希望文章能够帮你解决python实现简单验证码识别所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/langs/1159054.html