Tesseract-OCR 训练字库

1、Windows版本Tesseract各版本下载，本教程用的版本是tesseract-ocr-setup-4.00.00dev.exe（【注意】要3.0以上才支持中文）。
项目github地址：Tesseract

2、各版本对应字库要识别简体中文需要下载chi_sim.traindata字库（【注意】根据版本下载对应字库）。

3、jTessBoxEditor官网下载，用来训练字库的，带FX的版本才支持中文。

作者：戎码虫
链接：https://www.jianshu.com/p/3326c7216696
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

===============================

1、准备图片**
彩色图片进行灰度化处理，在线png2tif地址将图片转换成tif格式，或者画图打开，另存为tif文件前后两个图片放在同个目录中，用于后面生成box文件。

image.png
【注意】如果存在多张图片，则需要合并 tif，在Box Editor中
点击Tools->Merge Tiff
按住shift键选择多个tif文件，并把合并生成的tif文件放到新目录中，重新命名；样本图像文件格式必须为tif\tiff格式，否则在Merge样本文件的过程中会出现 Couldn’t Seek 的错误。

tif文件命名格式[lang].[fontname].exp[num].tif
tif命名规则：lang为语言名称，fontname为字体名称，num为图片序号；
比如我们要训练自定义字库 leo、字体名normal，则命名为:
leo.normal.exp0.tif
2、生成box文件**
切换到合成的tif文件夹下，执行命令，生成box文件

tesseract tif文件名.tif -l 字体库 box文件名 makebox tif文件名与box文件名保持一致

tesseract leo.normal.exp0.tif -l eng leo.normal.exp0 makebox
【注意】以简体中文字库识别，用其他字库解析不出来