1、Windows版本Tesseract各版本下载,本教程用的版本是tesseract-ocr-setup-4.00.00dev.exe(【注意】要3.0以上才支持中文)。
项目github地址:Tesseract
2、各版本对应字库要识别简体中文需要下载chi_sim.traindata字库(【注意】根据版本下载对应字库)。
3、jTessBoxEditor官网下载,用来训练字库的,带FX的版本才支持中文。
作者:戎码虫
链接:https://www.jianshu.com/p/3326c7216696
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
===============================
1、准备图片**
彩色图片进行灰度化处理,在线png2tif地址将图片转换成tif格式,或者画图打开,另存为tif文件前后两个图片放在同个目录中,用于后面生成box文件。
image.png
【注意】如果存在多张图片,则需要合并 tif,在Box Editor中
点击Tools->Merge Tiff
按住shift键选择多个tif文件,并把合并生成的tif文件放到新目录中,重新命名;样本图像文件格式必须为tif\tiff格式,否则在Merge样本文件的过程中会出现 Couldn’t Seek 的错误。
tif文件命名格式[lang].[fontname].exp[num].tif
tif命名规则:lang为语言名称,fontname为字体名称,num为图片序号;
比如我们要训练自定义字库 leo、字体名normal,则命名为:
leo.normal.exp0.tif
2、生成box文件**
切换到合成的tif文件夹下,执行命令,生成box文件
tesseract tif文件名.tif -l 字体库 box文件名 makebox
tif文件名与box文件名保持一致
tesseract leo.normal.exp0.tif -l eng leo.normal.exp0 makebox
【注意】以简体中文字库识别,用其他字库解析不出来