paddleocr:使用自己的数据集训练文字检测模型
作者:互联网
PaddleOCR地址:
https://github.com/PaddlePaddle/PaddleOCR
文字检测:
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.4/doc/doc_ch/detection.md
一 数据准备
OCR数据标注工具:PPOCRLabel
cd 进入到PaddleOCR\PPOCRLabel,输入命令:
python PPOCRLabel.py --lang ch
ch为中文。en为英文。
输入上述命令python PPOCRLabel.py --lang ch,打开工具。
使用方法:
打开文件后点击“自动标注”,标注完毕之后点击“OK”。
对不准确的标注结果进行手动更改矩形框。
对于未检出的文字,点击右上角的“矩形标注”进行人工标注。
点击右下角的“确认”按钮。
之后点击“文件”->“导出检测结果”。
Label.txt:
内容是图片路径名字、文字标签和矩形框的四个坐标,用于训练检测模型。
注意:所有的图片都放到了一个txt里面,而不是一张图片对应一个txt。
具体说明见下图:
二 配置训练命令
** 配置文件说明:**
https://gitee.com/paddlepaddle/PaddleOCR/blob/release/2.4/doc/doc_ch/config.md
** 模型下载地址:**
https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.4/doc/doc_ch/models_list.md
1 模型
paddleocr中创建一个文件夹,名称为: pretrain_models/,对应模型下载之后解压到该路径。
见下图:
2 配置文件
ch_PP-OCRv2_det_cml.yml
修改注意部分见下图。
三 训练
标签:ch,训练,doc,模型,检测,PaddleOCR,paddleocr,下图,标注 来源: https://blog.csdn.net/wss794/article/details/122471725