来源:雪球App,作者: 颜科,(https://xueqiu.com/5230736395/246865338)
如果您认为 AI 领域已经通过 ChatGPT、GPT4 和 Stable Diffusion 快速发展,那么请系好安全带,为 AI 的下一个突破性创新做好准备。
meta 的 FAIR 实验室刚刚发布了Segment Anything Model (SAM),这是一种最先进的图像分割模型,旨在改变视觉领域。
SAM 基于对自然语言处理 ( NLP )产生重大影响的基础模型。它专注于可提示的分割任务,使用提示工程来适应不同的下游分割问题。
为什么我们对 SAM 如此兴奋?
经过一天的测试,我们可以看到以下令人难以置信的进步:
SAM 可以通过简单地单击或交互地选择点来分割对象以包括或排除对象。您还可以通过使用多边形工具绘制边界框或分割区域来创建分割,它会捕捉到对象。
当在识别要分割的对象时遇到不确定性时,SAM 能够生成多个有效掩码。
SAM 能够为图像中存在的所有对象自动识别和生成蒙版。
在预计算图像嵌入后,SAM 可以立即为任何提示提供分割掩码,从而实现与模型的实时交互。
在这篇博文中,您将:
了解 SAM 是什么以及它为何能改变游戏规则。
了解它与之前型号相比的表现如何。
查看 SAM 的内部结构:其网络架构、设计和实施。
了解 SAM 在AI 辅助标记中的潜在用途。
更新: Encord 的协作分割平台现在支持使用我们基于“Segment Anything Model”的自动注释工具生成蒙版预测 -单击此处免费试用。
meta 的人工智能和计算机视觉简史
作为人工智能 (AI) 领域的领先公司之一, 一直在突破机器学习模型的极限。从最近发布的LLaMA等开源模型到开发最常用的 ML 和 AI Python 库PyTorch。
以下部分深入探讨了视觉的进步和基础模型的发展。
计算机视觉的进展
计算机视觉也经历了相当大的进步,像CLIP这样的模型弥合了文本和图像理解之间的鸿沟。
这些模型使用对比学习来映射文本和图像数据。这使他们能够通过及时的工程推广到新的视觉概念和数据分布。
FAIR 的 Segment Anything Model (SAM) 是该领域的最新突破。他们的目标是为图像分割创建一个基础模型,该模型可以使用提示工程适应各种下游任务。
让我们简要探讨一下计算机视觉领域的一些关键发展,这些发展对 等 AI 系统的发展做出了贡献。
卷积神经网络 (CNN)
CNN于 1989 年由Yann LeCun (现任 副总裁兼首席 AI 科学家)首次引入,现已成为现代视觉系统的支柱,使机器能够自动学习和识别图像中的复杂模式。
通过使用卷积层,CNN 可以捕获图像中的局部和全局特征,从而使它们能够有效地识别物体、场景和动作。这导致图像分类、对象检测和语义分割等任务的显着改进。
生成对抗网络 (GAN)
GAN是 Ian Goodfellow 和他的团队在 2014 年提出的一种深度学习模型。它们由两个相互竞争的神经网络(生成器和鉴别器)组成。
生成器旨在创建逼真的输出,而鉴别器则试图区分真实输出和生成的输出。这些网络之间的竞争导致了越来越逼真的合成图像的创建,并导致了图像合成、数据增强和风格转换等任务的进步。
迁移学习和预训练模型
与 NLP 类似,视觉受益于预训练模型的开发,这些模型可以针对特定任务进行微调。ResNet、VGG和EfficientNet等模型已经在大规模图像数据集上进行了训练,允许研究人员将这些模型用作他们自己项目的起点。
基础模型的成长
近年来,自然语言处理 (NLP) 中的基础模型取得了重大进展, 自己的LLaMa或 OpenAI 的GPT-4等模型在零样本和少样本学习方面展示了卓越的能力。
这些模型在大量数据上进行了预训练,并且能够通过使用提示工程来泛化到新任务和数据分布。 AI 在推进这一领域、促进研究和开发具有广泛应用的大规模 NLP 模型方面发挥了重要作用。
在这里,我们探讨了促进基础模型增长的因素。
大规模语言模型
像 GPT-4 这样的大规模语言模型的出现一直是 NLP 基础模型发展的推动力。这些模型采用具有数十亿参数的深度学习架构,使它们能够捕获训练数据中的复杂模式和结构。
迁移学习
NLP 中基础模型的一个关键特征是它们的迁移学习能力。一旦在大型数据集上进行了训练,它们就可以在较小的、特定于任务的数据集上进行微调,以在各种任务中实现最先进的性能。
零样本和少样本学习
基础模型在零样本和少样本学习中也显示出前景,它们可以在没有任何微调或最少任务特定训练数据的情况下执行任务。这种能力在很大程度上归功于模型能够根据提示提供的上下文理解和生成类似人类的响应。
多模态学习
另一个日益增长的兴趣领域是多模式学习,其中训练基础模型以理解和生成跨不同模式的内容,例如文本和图像。
像 CLIP 和ALIGN这样的模型展示了如何将 NLP 和视觉一起使用来制作可以将动作从一个域转换到另一个域的多模态模型。
道德考量和安全
NLP 中基础模型的增长也引发了对其伦理影响和安全性的担忧。研究人员正在积极探索减轻潜在偏见、解决内容生成问题以及开发安全可控的人工智能系统的方法。证明这一点的是最近要求停止所有尖端模型开发六个月的呼吁。
将 Segment Anything 模型与以前的模型进行比较
SAM 是 AI 向前迈出的一大步,因为它建立在早期模型奠定的基础之上。SAM 可以从其他系统获取输入提示,例如,在未来,从 AR/VR 耳机获取用户的目光来选择对象,使用输出掩码进行视频编辑,将 2D 对象抽象为 3D 模型,甚至流行的照片任务,如创建拼贴画。
它可以通过在提示不清楚的情况下生成多个有效掩码来处理棘手的情况。以用户提示寻找 Waldo 为例:
来源。
SAM 的结果具有开创性的原因之一是分割掩码与ViTDet等其他技术相比有多好。下图显示了两种技术的比较:
来源。
该研究论文更详细地比较了这两种技术的结果。
深入了解 SAM 的网络架构和设计
SAM 的设计取决于三个主要组件:
可提示的分割 任务可实现零样本泛化。
模型架构。
为任务和模型提供支持的数据集。
来源。
任务
SAM 接受了数百万张图像和超过十亿个掩码的训练,可为任何提示返回有效的分割掩码。在这种情况下,提示是分割任务,可以是前景/背景点、粗框或遮罩、点击、文本,或者一般来说,指示图像中要分割的内容的任何信息。该任务也用作模型的预训练目标。
模型
SAM 的架构包含三个组件,它们协同工作以返回有效的分割掩码:
一种图像编码器,用于生成一次性图像嵌入。
嵌入提示的提示编码器。
结合了提示和图像编码器的嵌入的轻量级掩码解码器。
分段任何模型 (SAM) 组件。| 来源。
我们将在下一节中更深入地研究架构,但现在,让我们看一下数据集。
数据引擎和数据集
需要数据引擎来支持任务并改进数据集和模型。数据引擎分为三个阶段:
Assisted-manual,其中 SAM 协助注释者注释掩码,类似于经典的交互式分割设置。
半自动,其中 SAM 可以通过提示可能的对象位置来自动为对象子集生成掩码,并且注释器专注于注释其余对象,从而有助于增加掩码多样性。
全自动,人工注释者使用规则的前景点网格提示 SAM,每张图像平均产生 100 个高质量掩码。
数据引擎构建大段任何 10 亿掩码数据集 AI 发布。
内部段任何模型 (SAM)
来源。
图像编码器
在最高级别,图像编码器(掩码自动编码器,MAE,预训练 Vision Transformer,ViT)生成一次性图像嵌入,可以在提示模型之前应用。
提示编码器
提示编码器将背景点、遮罩、边界框或文本实时编码到嵌入向量中。该研究考虑了两组提示:稀疏(点、框、文本)和密集(掩码)。
点和框由位置编码表示,并为每种提示类型添加学习嵌入。自由格式的文本提示由来自CLIP 的现成文本编码器表示。密集提示,如蒙版,嵌入卷积并与图像嵌入逐元素求和。
掩码解码器
轻量级掩码解码器根据来自图像和提示编码器的嵌入预测分割掩码。它将图像嵌入、提示嵌入和输出标记映射到掩码。所有嵌入都由解码器块更新,解码器块在两个方向(从提示到图像嵌入和返回)使用提示自我注意和交叉注意。
掩码被注释并用于更新模型权重。这种布局增强了数据集,并允许模型随着时间的推移学习和改进,使其高效灵活。
分割任何 10 亿掩码数据集
Segment Anything 10 亿掩码(SA-1B) 数据集是迄今为止最大的标记分割数据集。它专为高级分割模型的开发和评估而设计。
我们认为数据集将成为训练和微调未来通用模型的重要组成部分。这将使他们能够在不同的分割任务中取得卓越的表现。目前,该数据集仅在研究许可下可用。
SA -1B 数据集的独特之处在于:
多样性
数据集经过精心策划,涵盖广泛的领域、对象和场景,确保模型可以很好地泛化到不同的任务。它包括来自各种来源的图像,例如自然场景、城市环境、医学图像、卫星图像等。
这种多样性有助于模型学习分割具有不同复杂性、规模和上下文的对象和场景。
来源。
尺寸
SA-1B 数据集包含超过 10 亿张高质量注释图像,为模型提供了充足的训练数据。庞大的数据量有助于模型学习复杂的模式和表示,使其能够在不同的分割任务上实现最先进的性能。
来源。
高质量注释
数据集已经用高质量的掩码仔细注释,导致更准确和详细的分割结果。在SA-1B 数据集的Responsible AI (RAI) 分析中,调查了地理和收入分配中潜在的公平问题和偏见。
研究论文表明,与其他开源数据集相比,SA-1B 中来自欧洲、亚洲和大洋洲以及中等收入国家的图像比例要高得多。值得注意的是,SA-1B 数据集包含至少 2800 万个所有地区的口罩,包括非洲。这是之前任何数据集中掩码总数的 10 倍。
来源。
在Encord,我们认为 SA-1B 数据集将进入计算机视觉名人堂(与COCO、ImageNet和MNIST等著名数据集一起)作为未来视觉分割模型开发的资源。
Segment Anything 模型是开源的吗?
简短的回答是肯定的!SA-1B 数据集已作为研究目的开源发布。此外,根据 FAIR 对开放研究的承诺, AI 发布了预训练模型(大小约为 2.4 GB)和 Apache 2.0(宽松许可)下的代码。它可以在 GitHub 上免费访问。还提供了训练数据集以及交互式演示 Web UI。
所有链接都来自项目网页:
来源。
使用 Segment Anything 模型 (SAM) 的 AI 辅助标记
在 Encord,我们将 Segment Anything Model (SAM) 视为AI 辅助标记领域的游戏规则改变者。它基本上消除了使用多边形绘图工具分割图像的痛苦,并允许您专注于对您的模型更重要的数据任务。
这些其他数据任务包括映射不同对象之间的关系,赋予它们描述它们如何行为的属性,以及评估训练数据以确保它是平衡的、多样化的和没有偏见的。
使用 AI 增强手动标记
SAM 可用于创建 AI 辅助的工作流程增强功能并提高注释者的工作效率。以下是我们认为 SAM 可以做出的一些改进:
来源。
提高准确性:注释者可以获得更精确和准确的标签,减少错误并提高注释数据的整体质量。
更快的注释:毫无疑问,SAM 将加快标记过程,与合适的图像注释工具结合使用时,使注释者能够更快、更高效地完成任务。
一致性:让所有注释者都使用一个版本的 SAM 将确保注释之间的一致性,这在多个注释者处理同一个项目时尤为重要。
减少工作量:通过自动分割复杂和复杂的结构,SAM 显着减少了注释者的手动工作量,使他们能够专注于更具挑战性和更复杂的任务。
持续学习:随着注释者改进和纠正 SAM 的辅助标记,我们可以实施它,使模型不断学习和改进,从而随着时间的推移获得更好的性能并进一步简化注释过程。
因此,将 SAM 集成到注释工作流程中对我们来说是轻而易举的事,这将使我们当前和未来的客户能够加速尖端视觉应用程序的开发。
SAM 如何为 AI 辅助标记做出贡献
要举例说明 SAM 如何有助于 AI 辅助标记,请考虑之前的医学图像示例。我们将DICOM图像上传到演示 Web UI,并花了 10 秒单击图像以分割不同的兴趣区域。
之后,我们使用多边形注释进行了手动标记的相同练习,耗时 2.5 分钟。贴标速度提高 15 倍!
我们很高兴开始将此功能构建到 Encord 的平台中。如果您想了解更多信息,请联系我们。
真实世界的用例和应用程序
SAM 几乎可以用于您能想到的每一个分割任务,从实例分割到全景分割。让我们感到兴奋的是,在您的专家审阅者将本体添加到顶部之前,SAM 可以多快地帮助您使用几乎像素完美的分割蒙版预先标记对象。
从农业和零售到医学图像和地理空间图像,使用 SAM 可以实现的 AI 辅助标记是无穷无尽的。这就是为什么我们 Encord 对这项新技术感到非常兴奋。
这会给我们留下什么?
Segment Anything Model (SAM) 真正代表了视觉领域的突破性发展。通过利用可提示的分割任务,SAM 可以使用提示工程来适应各种下游分割问题。
这种创新方法与迄今为止最大的标记分割数据集 (SA-1B) 相结合,使 SAM 能够在各种分割任务中实现最先进的性能。
凭借显着增强 AI 辅助标记并减少图像分割任务中的人工劳动的潜力,SAM 可以为农业、零售、医学影像和地理空间影像等行业铺平道路。
在 Encord,我们认识到 SAM 的巨大潜力,我们很快将该模型引入 Encord 平台以支持 AI 辅助标记,进一步简化用户的数据注释过程。
作为一个开源模型,SAM 将激发视觉的进一步研究和开发,鼓励 AI 社区在这个快速发展的领域突破可能性的界限。