博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
验证码破解技术四部曲之使用Tesseract(二)
阅读量:6715 次
发布时间:2019-06-25

本文共 826 字,大约阅读时间需要 2 分钟。

代码下载

本节的代码可以通过进行下载。

图像直方图

首先看验证码的样子,

test1test2test3

可以看到这几个验证码最大的特点就是字母比较深,而周围的背景很浅,把图像转换成黑白颜色,可以显示的更加的明显。

//按黑白读取图像Mat mat = imread("test1.jpg", 0);cv::imshow("initial_mat", mat);cv::waitKey(0);

test1_gray

可以看到所有背景的灰度值,都会小于字母的灰度值,为了让tesseract更准确的识别,可以把图像进行二值化,也就是把背景都改成纯白色,把字母都搞成纯黑色。那么如何确定分割的阈值呢?比较好的方法是画出图像的直方图。

//画出直方图Histogram1D histogram1d;cv::imshow("histogram1d", histogram1d.getHistogramImage(mat));cv::waitKey(0);

histogram1d

直方图的横坐标代表灰度值,纵坐标代表指定灰度值的点数。

图像阈值

接下来,开始对图像进行阈值,这里选择的灰度值位150,灰度下于150的设置为白色,灰度大于150的设置为黑色。

//阈值Mat threshold_mat;cv::threshold(mat, threshold_mat, 150, 255, cv::THRESH_BINARY);cv::imshow("threshold_mat", threshold_mat);cv::waitKey(0);

threshold_mat

Tesseract识别

把图片进行阈值后,就可以进行识别了,直接调用tesseract的API就好了。

//使用tesseract识别char buffer[255];OCRDecoder decoder;decoder.decodeGrayMat(threshold_mat, buffer);cout<<"result:"<
<

运行程序,可以看到识别出了结果:

result

转载地址:http://whelo.baihongyu.com/

你可能感兴趣的文章
想开发 Android 分支?没门!
查看>>
《Web异步与实时交互——iframe AJAX WebSocket开发实战》—— 2.2 相关关键技术及工作原理...
查看>>
《Nmap渗透测试指南》—第1章1.5节Mac OS安
查看>>
重磅,企业实施大数据的路径
查看>>
linux之cp/scp命令+scp命令详解
查看>>
Spark 源码分析 -- BlockStore
查看>>
《C语言编程初学者指南》一1.7 创建并运行第一个C程序
查看>>
学习和使用 PHP 应该注意的10件事
查看>>
《Ember.js实战》——2.5 Ember.js对象模型
查看>>
《响应式Web图形设计》一第13章 响应Web设计中的图像
查看>>
shiro session 监听
查看>>
定时任务框架Quartz的新玩法
查看>>
段前缀的使用(0504)
查看>>
.NET Framework 源码
查看>>
开源大数据周刊-第6期
查看>>
centos上一键安装jdk、tomcat脚本
查看>>
排序算法 时间、空间复杂度
查看>>
flex容器主轴上的部分元素单独设置位置
查看>>
window10安装Ubuntu虚拟机踩坑系列
查看>>
JavaScript倒计时
查看>>