从文本到图像——文本识别数据集生成器

代码地址如下：
http://www.demodashi.com/demo/14792.html

图像中的文本识别近几年来备受瞩目。通常来说，图片中的文本能够比图片中其他内容提供更加丰富的信息。因此，图像文本识别能够将图像中的文本区域转化成计算机可以读取和编辑的符号，打通了从图像到文本再到信息的通路。

随着计算机算力的提升，基于深度学习方法的本文识别技术逐渐成为主流，而深度学习中数据集的获取是重中之重。本脚本实现读取语料集中的文本内容，以保存为图像形式的数据集，用于模型训练。

(1)选择字体文件

(2)生成数据集

(1)根目录下的fonts文件夹用于存放ttf字体文件, imageset文件夹用于存放输出图像和映射表
(2)config中设置相关参数并存放语料文件, dict5990.txt是字典, sentences.txt是语料集

1. 加载字体文件

2. 构建字典

3. 加载语料

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行