热门推荐
MSRA-万字综述 直击多模态文档理解
2024-12-17 15:44

来自 | 夕小瑶的卖萌屋

随着最近几年多模态大火的,越来越多的任务都被推陈出新为多模态版本。譬如,传统对话任务,推出了考虑视觉信息的多模态数据集;事件抽取,也推出视频形式的多模态版本;就连 grammar induction(语法归纳,也有了多模态版的(详见 NAACL'2021 best paper)。

然而多模态大火虽是最近的事情,但它并不是近两年才有的什么新技术如果是想要对这一领域有比较深的研究,甚至想要做出工作、有所创新,那仅仅了解多模态最近两年几个大火的多模态模型显然是不足够的

事实上,有些任务已经天生就是多模态很多年了。早在多模态成为焦点之前,就已经默默被研究二十来年了。比如智能文档(document AI)技术。所谓智能文档技术,也就是自动理解、分析业务文档技术文档内容可包含文字、图片、视频等多种形式。由于理解多模态形式的多模态形式文的需求其实广泛长期存在,所以智能文档技术很多年来都是几个大厂的研究重点之一。近年来,深度学习技术的普及也更好地推动了例如文档布局分析、可视化信息提取、文档可视化问答、文档图像分类等智能文档算法的发展。近期,微软亚研院发表了一篇综述,简要回顾了一些有代表性的documentAI的模型、任务和基准数据集。小编认为这篇概述的总结体系非常扎实,是值得细细阅读的多模态相关综述,故与各位分享。

论文标题:
document AI: Benchmarks, Models and Applications

论文链接:
https://arxiv.org/abs/2111.08609

作者概述智能文档的发展大致经历了以下三个阶段:

20世纪90年代初,研究人员主要使用基于规则的启发式(Heuristic rule-based document layout analysis)来理解和分析文档,通过手动观察文档的布局信息,从而总结出一些启发式规则。启发式规则方法主要使用固定的布局信息来处理文档.方法较为固定,定制的规则可扩展性较差,通用性较差。

基于启发式规则的文档的布局分析大致分为三种方式:
(1)自顶向下:文档图像逐步划分到不同的区域,递归执行切割直到该区域被划分为预定义的标准,通常是块或列。例如projection profile,采用X-Y cut算法对文档进行剪切,通常用于文本区域和行距固定的结构化文本,对特定格式的文档进行更快、更有效的分析.但其对边界噪声敏感,对倾斜文本的处理效果不佳。
(2)自底向上:使用像素或组件作为基本单元,将其分组并合并成一个更大的同质区域,自底向上方法虽然需要更多的计算资源,但更通用,可以覆盖更多具有不同布局类型的文档。
(3)混合策略:将自上而下和自下而上相结合,例如Okamoto & Takahashi使用分隔符和空格来切割块,并将内部组件进一步合并到每个块中的文本行中,进而解析文档的布局。

  • 直到从2000年来 随着机器学习技术的发展,以机器学习模型逐渐成为文档处理的主流方法。研究者设计功能模板以了解不同功能的权重,进而理解和分析文档的内容和布局。

基于机器学习的文档分析过程通常分为两个阶段:
1)对文档图像进行分割,获得多个候选区域;
2)对文档区域进行分类和区分,如文本块和图像。

尽管带注释的数据被用于监督学习,并且以前的方法可以带来一定程度的性能改进,但是由于缺乏定制规则和训练样本数量,通用性仍然不令人满意。此外,不同类型文档的迁移和适应成本相对较高,这使得以前的方法不适合广泛的商业应用。

随着深度学习的发展和大量未标注电子文档的积累,可以通过工具HTML/XML提取、PDF解析器、OCR等提取不同类型的文档中的内容,其文本内容、布局信息和基本图像信息等基本组织良好,然后对大规模深度神经网络进行预训练和微调,以完成各种下游文档AI任务.包括文档布局分析、视觉信息提取、文档视觉问答和文档图像分类等。现有的基于深度学习的智能文档模型主要分为两大类:

  • 针对特定任务的深度学习模型

  • 支持各种下游任务的通用预训练模型

该任务从文档中的大量非结构化内容中提取实体及关系.对于视觉丰富的文档建模为计算机视觉问题,通过语义分割或文本框检测来进行信息提取,将文档图像视为像素网格,将文本特征添加到视觉特征图中。根据文本信息的粒度,该任务从字符级发展到单词级,再发展到上下文级。


📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好

一种全新易用的基于Word-Word关系的NER统一模型

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing


投稿或交流学习,备注昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

    以上就是本篇文章【MSRA-万字综述 直击多模态文档理解】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/6926.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多   
发表评论
0评