推广 热搜: page  考试  小红  红书  数据  论文  数据分析  关键词  哪些  搜索 

从文本到图像——文本识别数据集生成器

   日期:2024-12-19     移动:https://sicmodule.kub2b.com/mobile/quote/8469.html

代码地址如下:
http://www.demodashi.com/demo/14792.html

从文本到图像——文本识别数据集生成器

图像中的文本识别近几年来备受瞩目。通常来说,图片中的文本能够比图片中其他内容提供更加丰富的信息。因此,图像文本识别能够将图像中的文本区域转化成计算机可以读取和编辑的符号,打通了从图像到文本再到信息的通路。

随着计算机算力的提升,基于深度学习方法的本文识别技术逐渐成为主流,而深度学习中数据集的获取是重中之重。本脚本实现读取语料集中的文本内容,以保存为图像形式的数据集,用于模型训练。

1、IDE中的运行界面

(1)选择字体文件

(2)生成数据集

2、生成的图像

不使用数据增强
使用数据增强

3、映射表

1、功能需求

  1. 根据用户指定的语料数据生成图像文件及映射表
  2. 用户可自行更改文本长度,图像数量及图像尺寸
  3. 用户可自行选择是否进行增强处理

2、实际项目

1. 项目结构

(1)根目录下的fonts文件夹用于存放ttf字体文件, imageset文件夹用于存放输出图像和映射表
(2)config中设置相关参数并存放语料文件, dict5990.txt是字典, sentences.txt是语料集

2. 实现思路
3. 代码实现
1. 设置参数
 
2. 构建生成器

1. 加载字体文件

 

2. 构建字典

 

3. 加载语料

本文地址:https://sicmodule.kub2b.com/quote/8469.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号