python-设计一个专门用于渲染文本的开放源代码OCR引擎(屏幕截图)
作者:互联网
因此,我目前的个人项目是能够自动从游戏中抓取屏幕截图,对文本进行OCR,并计算给定单词的出现次数.
整夜都在研究不同的OCR解决方案,我意识到那里的大多数OCR软件包都是为扫描文本而设计的.如果有任何可以可靠读取屏幕文本的软件包,则超出了业余爱好者的预算.
我一直在阅读其他一些问题,发现最接近的是OCR engines designed for screen-reading.
在我看来,阅读渲染的文字应该比打印和扫描的文字容易得多.线始终是直线,并且任何给定的字母将始终以完全相同的像素表示形式出现(多数情况下,无论如何).另外,为什么不使用实际的字体文件(如果有的话)作为识别字符的备忘单呢?这样的系统实际上可能达到100%的准确性.
假设您具有备忘单的字体文件,并且源图像是完美的正方形且没有噪音,那么如何识别屏幕上的字符?
(我可以预见的问题是ui线和图像,它们可能会混淆任何粗略的像素猜测尝试.)
如果您已经知道设计用于屏幕阅读的免费/开源OCR软件包,请告诉我.我有点怀疑这是否会出现,因为其他询问者似乎也没有领先.
首选Python接口,但乞g不能成为选择者.
编辑:
为了明确起见,我正在寻找针对OCR解决方案的设计建议,该解决方案专门用于从屏幕截图中读取文本.诸如tesseract(在我链接的问题中提到)之类的流行工具充其量是很难使用的,因为它们并非针对此类源文件而设计的.
解决方法:
所以我一直在思考,我觉得最好的方法是计算每个Blob /字形/字符中的像素数.这确实可以减少我需要进行区分字形测试的次数.
遗憾的是,我必须非常具体地介绍字体.该软件将只能以正确的dpi,正确的字体和粗细等识别字体.
这不是理想的选择,我仍然希望看到一个对这种用于渲染文本的OCR设计更了解的人.但适用于我的情况.
标签:ocr,screen-scraping,python 来源: https://codeday.me/bug/20191208/2094715.html