来自 | 夕小瑶的卖萌屋
随着最近几年多模态大火的,越来越多的任务都被推陈出新为多模态版本。譬如,传统对话任务,推出了考虑视觉信息的多模态数据集;事件抽取,也推出视频形式的多模态版本;就连 grammar induction(语法归纳),也有了多模态版的(详见 NAACL'2021 best paper)。
然而,多模态大火虽是最近的事情,但它并不是近两年才有的什么新技术。如果是想要对这一领域有比较深的研究,甚至想要做出工作、有所创新,那仅仅了解多模态最近两年几个大火的多模态模型显然是不足够的。
事实上,有些任务已经天生就是多模态很多年了。早在多模态成为焦点之前,就已经默默被研究二十来年了。比如,智能文档(document AI)技术。所谓智能文档技术,也就是自动理解、分析业务文档技术,文档内容可包含文字、图片、视频等多种形式。由于理解多模态形式的多模态形式文的需求其实广泛长期存在,所以智能文档技术很多年来都是几个大厂的研究重点之一。近年来,深度学习技术的普及也更好地推动了例如文档布局分析、可视化信息提取、文档可视化问答、文档图像分类等智能文档算法的发展。近期,微软亚研院发表了一篇综述,简要回顾了一些有代表性的documentAI的模型、任务和基准数据集。小编认为这篇概述的总结体系非常扎实,是值得细细阅读的多模态相关综述,故与各位分享。
论文标题:
document AI: Benchmarks, Models and Applications
论文链接:
https://arxiv.org/abs/2111.08609
作者概述智能文档的发展大致经历了以下三个阶段:
20世纪90年代初,研究人员主要使用基于规则的启发式(Heuristic rule-based document layout analysis)来理解和分析文档,通过手动观察文档的布局信息,从而总结出一些启发式规则。启发式规则方法主要使用固定的布局信息来处理文档.方法较为固定,定制的规则可扩展性较差,通用性较差。
基于启发式规则的文档的布局分析大致分为三种方式:
(1)自顶向下:文档图像逐步划分到不同的区域,递归执行切割直到该区域被划分为预定义的标准,通常是块或列。例如projection profile,采用X-Y cut算法对文档进行剪切,通常用于文本区域和行距固定的结构化文本,对特定格式的文档进行更快、更有效的分析.但其对边界噪声敏感,对倾斜文本的处理效果不佳。
(2)自底向上:使用像素或组件作为基本单元,将其分组并合并成一个更大的同质区域,自底向上方法虽然需要更多的计算资源,但更通用,可以覆盖更多具有不同布局类型的文档。
(3)混合策略:将自上而下和自下而上相结合,例如Okamoto & Takahashi使用分隔符和空格来切割块,并将内部组件进一步合并到每个块中的文本行中,进而解析文档的布局。
直到从2000年来 随着机器学习技术的发展,以机器学习模型逐渐成为文档处理的主流方法。研究者设计功能模板以了解不同功能的权重,进而理解和分析文档的内容和布局。
基于机器学习的文档分析过程通常分为两个阶段:
1)对文档图像进行分割,获得多个候选区域;
2)对文档区域进行分类和区分,如文本块和图像。
尽管带注释的数据被用于监督学习,并且以前的方法可以带来一定程度的性能改进,但是由于缺乏定制规则和训练样本数量,通用性仍然不令人满意。此外,不同类型文档的迁移和适应成本相对较高,这使得以前的方法不适合广泛的商业应用。
随着深度学习的发展和大量未标注电子文档的积累,可以通过工具HTML/XML提取、PDF解析器、OCR等提取不同类型的文档中的内容,其文本内容、布局信息和基本图像信息等基本组织良好,然后对大规模深度神经网络进行预训练和微调,以完成各种下游文档AI任务.包括文档布局分析、视觉信息提取、文档视觉问答和文档图像分类等。现有的基于深度学习的智能文档模型主要分为两大类:
针对特定任务的深度学习模型
支持各种下游任务的通用预训练模型
该任务从文档中的大量非结构化内容中提取实体及关系.对于视觉丰富的文档建模为计算机视觉问题,通过语义分割或文本框检测来进行信息提取,将文档图像视为像素网格,将文本特征添加到视觉特征图中。根据文本信息的粒度,该任务从字符级发展到单词级,再发展到上下文级。
📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。
最近文章
EMNLP 2022 和 COLING 2022,投哪个会议比较好?
一种全新易用的基于Word-Word关系的NER统一模型
阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果
ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。