最新动态
从文本到图像——文本识别数据集生成器
2024-12-19 17:42

代码地址如下:
http://www.demodashi.com/demo/14792.html

从文本到图像——文本识别数据集生成器

图像中的文本识别近几年来备受瞩目。通常来说,图片中的文本能够比图片中其他内容提供更加丰富的信息。因此,图像文本识别能够将图像中的文本区域转化成计算机可以读取和编辑的符号,打通了从图像到文本再到信息的通路。

随着计算机算力的提升,基于深度学习方法的本文识别技术逐渐成为主流,而深度学习中数据集的获取是重中之重。本脚本实现读取语料集中的文本内容,以保存为图像形式的数据集,用于模型训练。

1、IDE中的运行界面

(1)选择字体文件

(2)生成数据集

2、生成的图像

不使用数据增强
使用数据增强

3、映射表

1、功能需求

  1. 根据用户指定的语料数据生成图像文件及映射表
  2. 用户可自行更改文本长度,图像数量及图像尺寸
  3. 用户可自行选择是否进行增强处理

2、实际项目

1. 项目结构

(1)根目录下的fonts文件夹用于存放ttf字体文件, imageset文件夹用于存放输出图像和映射表
(2)config中设置相关参数并存放语料文件, dict5990.txt是字典, sentences.txt是语料集

2. 实现思路
3. 代码实现
1. 设置参数
 
2. 构建生成器

1. 加载字体文件

 

2. 构建字典

 

3. 加载语料

    以上就是本篇文章【从文本到图像——文本识别数据集生成器】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/8469.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多   
发表评论
0评