推广 热搜: page  考试  小红  红书  数据  论文  数据分析  关键词  哪些  搜索 

SynthTIGER——面向更好的文本识别模型的文本图像生成器

   日期:2024-12-18     移动:https://sicmodule.kub2b.com/mobile/quote/7833.html

论文名称:SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text Recognition Models
论文地址:https://arxiv.org/abs/2107.09313
开源代码:https://github.com/clovaai/synthtiger
开源数据:https://github.com/clovaai/synthtiger#datasets

该论文提出了一种新的文本图片合成方法——SynthTIGER。该合成方法在单一算法框架下整合了有效的合成技术。同时,该论文还提出了两种算法分别解决文本长度上的长尾问题和训练集中的字符分布问题。通过实验,作者验证了SynthTIGER相较于先前的文本图片合成方法,在场景文本识别任务中表现更好。

在深度学习时代,通过使用大量文本图片进行训练,OCR模型获得了显著的性能提升。通过算法合成文本图片,能够在短时间内得到大量的训练数据。而获取同等数量的真实文本图片则需要花费大量的成本进行采集和标注。

该论文提出的文本图片合成方法是用于场景文本识别任务中的。场景文本识别任务的训练数据是包含若干个字符的文本行图像,该任务要求合成数据覆盖在现实世界中可能存在的各种样式和文本内容。

该论文也提出了两种方法来缓解字符频率和文本长度在数据中出现偏斜分布的问题。

(a)文本形状选择:从字体库随机选择字体后,该步骤生成的文本排布方式分为两种:一种是字符从左到右排布,一种是抛物线曲线排布。

(b)文本样式选择:在字体颜色选择上,作者参考ST的方法,使用K-means聚类从真实文本行图片中收集文本颜色和背景颜色的搭配,作为选择文本颜色的依据。考虑到真实场景中的文本颜色并不是单一的,SynthTIGER还选择纹理填充文本。同时,文本的边框和阴影作者也有所考虑。

(c)变换:SynthTIGER主要提供了拉伸、梯形、倾斜和旋转四种变换方式,并随机选择文本距离边界的距离。

(d)融合:在融合阶段,算法需要得到前景文本、干扰文本和背景。前景文本和干扰文本通过前面的步骤生成,而背景生成是通过选择从颜色库和纹理库中随机选择颜色和纹理得到的。融合时,首先由背景和干扰文本融合得到新的背景,再将前景文本和新的背景融合。融合方法有正常、乘法、加网、叠加、强光、柔光、减淡、除法、加法、差值、仅变暗和仅变亮等。SynthTIGER还通过Flood-Fill算法来剔除掉文本和背景混淆的图片。

(e)后处理:SynthTIGER的后处理方法包括高斯噪声、高斯模糊、尺寸调整、中值模糊和JPEG压缩等。

SynthTIGER还提供了两种额外的策略来控制合成数据集的文本长度分布和字符分布。

文本长度分布控制策略是通过给定文本长度的分布,随机决定一个文本长度并随机采样一条文本。当文本长度超过预定时,截断文本;反之则重复采样文本拼接到原文本后面至长度大于等于预定长度,再进行截断。

字符分布控制策略通过给定字符出现概率的分布,随机决定一个字符,然后随机选择一个含有该字符的文本作为前景文本。

SynthTIGER与现有的合成数据集相比,在场景文本识别模型训练中取得了更好的表现,同时其合成函数的有效性也得到了验证。同时实验还表明该论文提出的文本长度分布控制策略和字符分布控制策略有助于学习更通用的场景文本识别模型。最后,作者通过提供开源合成引擎和新的合成数据集为OCR社区做出贡献。

本文地址:https://sicmodule.kub2b.com/quote/7833.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号