业界动态
向量数据库是如何检索的?基于 Feder 的 IVF_FLAT 可视化实现
2024-11-20 10:03

Embedding 是分析非结构化数据的重要方式,当我们将图片、声音编码为向量后,这些数据依旧能够保留原始数据(图片、声音等)的详细信息。然而,我们很难直接对这些编码后的向量中的数字与原始数据建立联系,想要弄清楚向量构成的空间到底意味着什么就更是难上加难了。

向量数据库是如何检索的?基于 Feder 的 IVF_FLAT 可视化实现

本篇文章,我们将以向量 Embedding 场景中最重要的应用 “以图搜图” 为例,通过使用开源工具 Feder 来剖析相似性检索场景中的向量空间到底是怎样的,以及介绍最常用的向量索引 IVF_FLAT 在空间中的结构表现、它的数据检索过程是如何进行的。

日常网络数据中,图片、视频等非结构化数据越来越多。“以图搜图”这种新型信息检索方式,也变得越来越常见。以图搜图,通常也被称作“反向图像搜索”,它的工作流程非常简单:我们向搜索引擎提交一张图片,搜索引擎从数据库中返回最相似的几张图片结果给我们。

有的时候,我们会惊叹搜索结果非常相似,有的时候也难免吐槽结果离谱至极。那么,这个结果到底是怎么来的呢?或者说,计算机是如何判断图片们是否“相似”的呢?

我们知道图片是由许多像素点构成的,所以直接对比位图的每一个像素点是可以判断图片的相似性的,但是这个方案显然不是那么高效,甚至不会那么有效:一张夜空的图片和一张黑猩猩的图片只有颜色构成相似,内容则完全不同。

如果我们预先给图片“打标签”来进行分类,把相似图片的搜索问题转化为标签的搜索和匹配问题,是不是就能够解决这个问题了呢?比如:识别到用户上传的图片是一只橘猫,那么就在数据库中查找并返回所有带橘猫标签的图片。这个方法是可行的,早期的搜索引擎中也是这样实现的,但是我们很容易发现一个致命问题:搜索结果的准确性高度依赖于标签的精细程度。在数据量爆炸的今天,为每一张图片打上足够的标签的经济成本显然会非常高,并且“标注”非常依赖于人工。

那么是否有什么方法,能够在没有“标签”的情况下,完成图片之间的相似度判断呢?AI 领域最为流行的嵌入向量 (Embedding) 就很好地解决了这个问题。那什么是嵌入向量呢?以我们熟悉的“苹果”举例,在我们脑海中,它的特征关键词可以被描述为 [红色,球形,甜,芳香,长在树上, ...] 等等,任何与这些特征相似(不一定完全相同)的物品都可能是苹果。

好了,如果我们设置,用数字来对应这些特征概念,就能够得到苹果的向量表达方式,比如将它表示为:[1.024, 9.527, 1.314, 5.201, 1.111, 0.618 ...]。此时,再交给计算机程序,完成这些数字的计算,再合适不过了。我们可以设置多种映射规则,从不同维度对图片进行特征提取,并将这些特征以数字的形式展示出来,然后使用程序获取图片之间的向量距离,比如:欧式距离、余弦距离等等。

通常,我们会将这些“确定的映射规则”称作训练好的模型,而“提取尽可能多的特征”就是模型在学习和训练过程中获取的核心能力,这些“提取出的特征”就是图片标签在向量空间中的表达方式。我们只需要通过程序来判断不同图片在向量空间中的距离,就能够判断图片之间是否存在相似性,以及相似度有多高。

如果在提取过程中,我们使用了不同的模型,即使对于相同的图片,我们得到的嵌入向量的结果也是不同的,如同不同的人看待相同事物的认知存在不同一样。但只要是一个质量还不错的模型,计算得到的红苹果和青苹果之间的向量距离,一定会比它们和一只猫要近得多。单纯比较向量的绝对数值是没有意义的,相比之下“相对距离”对于计算机理解图片相似度更为重要。

在了解计算机是如何计算图片之间的相似度之后,我们来简单归纳下它的具体工作流程:

在实际检索过程中,如果我们不进行任何优化,采用默认的索引类型,比如 FLAT ,那么在查找的过程中,会暴力地对所有数据进行遍历查询。在图片相似度比对的过程中,如果 embedding 抽取数据维度为 512 / 1024 甚至更高维度,意味着单次计算量也会非常高。生产环境中,我们的数据总量一般都比较大,如果不采取任何优化措施,数据量 x 向量维度带来的将是非常可怕的计算量,与之相对的是单次查询的负载将非常高。

在云主机环境中(8cores),当我们在 100 万 512 维向量数据中进行数据检索时,如果使用 FLAT 索引进行检索,将花费接近 100ms 的时间,而如果我们采用 HNSW 索引进行数据检索,检索时间将降低到 1~2ms,是不是很惊艳!

为了能够让向量检索程序高效的执行,我们需要思考如何针对它进行优化。这个检索过程中,除了准备工作中的数据预处理会花费比较多的时间之外,最费时的莫过于第二步操作。因为准备工作是一次性计算,所以我们可以将其忽略,重点放在如何优化高频次的向量检索过程。

除了优化计算效率,让计算加速之外,有一个流行的方案是通过算法来减少整体计算量,来提升整体检索效率。在计算机领域,对时空复杂度很高的算法,常常会用来平衡准确率和计算效率。通过来。

这篇文章中,我们先来介绍最为经典的一种近邻搜索算法:IVF_FLAT,通过向量数据库可视化工具 Feder[1] 揭开它在向量检索过程中的神秘面纱。

IVF_FLAT 向量索引的检索过程一共分为三步,在了解具体步骤之前,我们先来准备向量数据。

通过使用 Towhee[2] ,我们可以轻松地将机器学习领域经典图片数据集 VOC 2012[3] 中的一万七千多张图片转换为向量数据。

接下来,我们使用开源项目 facebookresearch/faiss[4] 来为这些向量数据构建 IVF_FLAT 索引。关于 Faiss 的入门,可以参考《向量数据库入坑指南:聊聊来自元宇宙大厂 meta 的相似度检索技术 Faiss》[5]这篇文章,本文就不过多展开了。

和现实世界中一样,当国家由于土地广袤,通常会进行行政区域划分,比如将距离相近、有共同特点的区域归属于一个省份。IVF_FLAT 索引采用的思路也是类似的,会将距离相近的向量组成一个聚类。类似现实中不同省份拥有城市、乡镇数量不同,由于向量分布的密度不同,每个聚类包含向量的数目也会是不一样的。

在上面的代码中,我们设置索引构建参数,根据算法,能够将前文中 Towhee 处理好的所有向量分为 256 份。k-means[6] 是机器学习领域里最简单和最常见的无监督的聚类方法,可以让距离相近的向量尽可能归属于同一个聚类中,同时每一个聚类中的向量们,距离这个聚类的几何中心相比较其他的聚类而言都是最近的。

为了更好地理解上面的内容,我们通过 Feder 进行了可视化呈现。如下图所示,我们在一个二维平面上模拟了高维空间上的聚类划分。我们可以通过移动鼠标来查看不同聚类中的内容,鼠标停下的地方,将随机展示该聚类中最多九张图片。(在线预览地址[7])完成向量数据的聚类后,当我们进行查询的时候,会发生什么呢?

当我们输入目标向量进行查询时,首先会将目标向量与上图中所有聚类(256个)的中心进行距离计算,并找到距离最近的几个聚类。由于聚类的划分依据是向量间的相对距离,因此我们可以认为,距离目标最近的向量极大概率会属于这最近的几个聚类中。在查询过程中,我们通过设置查找个数的参数,将检索范围从 17000 张图片所在的 256 个区域,缩减为最相似的八个聚类中(图中高亮的区域)。在粗查询过程中,我们一共进行了(256)次计算。(在线预览地址[8]

在完成“粗筛”之后,我们确定了与查询数据距离最近的几个聚类,接下来将进行精细查询。

我们可以通过设置查询参数,来指定最终检索的结果是最相似的九张图片。在检索过程中,算法将逐一将查询数据与这些聚类中的每一个向量进行距离计算,并从中选取距离查找数据最近的九个向量结果。

如上图所示,我们将不同的聚类使用不同的颜色来进行区分,可以观察到这些聚类中的向量的具体空间分布。其中,每个向量节点距离中心的距离映射了该向量与我们要检索的目标向量的实际距离。

除了看概况之外,我们还可以进一步查看这些向量更详细的数据。

除了根据与目标的距离来布局外,Feder 还支持通过降维投影的方式来可视化向量分布,欢迎亲自动手来试一试,轻松玩转向量数据。 http://github.com/zilliztech/feder[9]

如果我们使用传统的 FLAT 类型的索引,想要完成相同的检索,至少需要计算一万七千次,完成整个向量数据库的遍历。而当我们使用了 IVF_FLAT 索引之后,根据上文中的参数配置,我们只需要进行不到一千次的计算:包含了粗略查询 256 次,以及后续的精细查询 742 次左右,能够大幅提升我们对于检索效果的获取速度。

而通过在精细查找阶段的参数,将能够满足具体的业务场景需要,平衡效率(检索效率)和精度(召回率):增大 nprobe,通过搜索更多的数据所在的聚类空间,能够得到更多的搜索结果;减少 nprobe,则可以通过减少搜索范围来缩短计算时间,得到更快速的检索结果返回。

在了解了 IVF_FLAT 背后的近似最近邻算法后,回顾下整个以图搜图的流程,我们不难发现,最终搜索结果的好坏取决于下面两点,以及背后的各种因素:

1. 第一步:机器学习模型是否能够正确地提取图片的特征数据?提取的特征数据量是否足够?这些嵌入向量保留了多少原始空间中的信息?

2. 第二步:通过“近似最近邻搜索”算法获得的数据本身是否精确?是否存在有更近的向量数据存在,但是没有通过索引查找到?通过调整索引参数是否能够改善搜索结果?以及这些参数是如何影响搜索过程的?

虽然写出来就几句话,但是这两个问题都并不是那么简单。想要解决第二步中的问题,需要我们对于近似最近邻算法非常熟悉,才能够对各个参数发挥实际效用有所了解;而第一个问题,则是困扰学术界多年的难题,关于机器学习模型的可解释问题。

以往我们评价上面两个过程对于检索结果的好坏,主要是通过准备不同来从宏观上计算不同模型在不同近似最近邻算法下的准确率和召回率。在有了 Feder 这个可视化工具之后,我们可以尝试从出发,从上来深入观察这个过程。以前文中的图片为例:我们先从一般的视觉感知角度出发,来进行图片描述:万里,骑着,在的上,此时一人一马正,跨越。

接下来,我们通过使用 Feder 来进行图片查询,看看模型是如何理解这张图片的。在粗略查询中,我们找到了距离目标最近的几个聚类区域。可以发现,图片右上角的 cluster-54 这个聚类中的图片大多描绘了人的跳跃过程:;而右下角的图片 cluster-103 更多包含了以骑为主题的图片;在 cluster-217 与 cluster-113 虽然看起来和原图不是很相似,但实际上包含了和这类建筑特征。

在精细查询过程中,我们可以从深入到聚类内部,进行更细致向量粒度的图片对比。来思考嵌入后的信息空间与真实感知的视觉空间的差异。

你或许会疑惑为什么图片 A 比图片 B 更近?为什么最符合视觉的图片 C 反而被错过?或许,现在的我们还不能够很好的解答这些问题,但恰恰是这些一个又一个的“为什么”在指引着我们去不断接近真相,去更好地认识模型、优化模型。我们认为神经网络绝不只是冷冰冰的参数堆砌的多层结构,在不远的未来,研究者们终将能够训练出和人类感知一致的模型,甚至通过模型反观人脑的认知神经,揭开大脑更深层次的奥秘。

如果看到这里你还意犹未尽,想亲自上手体验,我们为你准备了一个可交互的以图搜图分析网页[10],你可以自由地挑选感兴趣的图片进行搜索,并结合可视化工具 Feder 去观察模型和近似最近邻的搜索过程。欢迎向大家分享你的所思所感~

如果你对近似最近邻算法很感兴趣,那么请保持关注,接下来的内容中,我们将分享更多精彩的技术干货。

最后的最后,不论你是进阶的模型训练家,还是刚刚入门的炼丹士,都欢迎使用我们的开源可视化工具 Feder,来探索模型中隐藏的奥秘。Feder 包含两个版本:Python 以及 Javascript,我们在 GitHub 有详细的文档和教程,希望能够得到你的“一键三连”。你的鼓励,将是我们继续进步的动力!

[1]

Feder: http://github.com/zilliztech/feder

[2]

Towhee: http://towhee.io/

[3]

VOC 2012: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar

[4]

facebookresearch/faiss: http://facebookresearch/faiss

[5]

《向量数据库入坑指南:聊聊来自元宇宙大厂 meta 的相似度检索技术 Faiss》: http://zhuanlan.zhihu.com/p/560981386

[6]

k-means: http://en.wikipedia.org/wiki/K-means_clustering

[7]

在线预览地址: http://z2-dev.zilliz.cc/feder-case?indexType=ivf_flat&source=faiss&viewType=overview&withLayout=false

[8]

在线预览地址: http://zilliz.com/feder-case?indexType=ivf_flat&source=faiss&viewType=search&withLayout=false&targetId=1156&nprobe=8&k=12

[9]

http://github.com/zilliztech/feder: http://github.com/zilliztech/feder

[10]

可交互的以图搜图分析网页: http://observablehq.com/@min-tian/reverse-image-search-feder-faiss-ivf_flat-visualizations


Zilliz 是向量数据库系统领域的开拓者和全球领先者,研发面向 AI 生产系统的向量数据库系统。Zilliz 以发掘非结构化数据价值为使命,致力于打造面向 AI 应用的新一代数据库技术,帮助企业便捷地开发 AI 应用。Zilliz 的产品能显著降低管理 AI 数据基础设施的成本,帮助 AI 技术赋能更多的企业、组织和个人。
    以上就是本篇文章【向量数据库是如何检索的?基于 Feder 的 IVF_FLAT 可视化实现】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/777.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
手机单扬声器和双扬声器有什么区别?原来差别这么大手机扬声器「手机单扬声器和双扬声器有什么区别?原来差别这么大」
随着手机的普及和发展,音频体验成为消费者选择手机的重要因素之一。而在手机音频方面,单扬声器和双扬声器是常见的设计方案。那
手机维修知识大全维修手机「手机维修知识大全」
修理手机维修知识大全手机是高科技精密电子产品。工作原理、制造工艺、软件和硬件、测试、技术标准在所有的电器设备中是最复杂的
2k分辨率手机有哪些(2k分辨率的手机哪款性价比最高)
  关于《2K分辨率手机有哪些》的文章  随着科技的不断发展,手机已经成为了我们日常生活中不可或缺的一部分。而在手机的各种
红手指云手机苹果版(红雀浏览器) v1.0.23 iPhone版红手指云手机「红手指云手机苹果版(红雀浏览器) v1.0.23 iPhone版」
红手指手游专用虚拟手机是一款非常实用的手机挂机软件,在这里玩家随时随地离线挂机、自动帮助你闯关升级,非常强大的游戏挂机神
1手机2(一加11手机)
  《手机2》:探索科技与生活的无限可能  在当今数字化时代,智能手机无疑是我们生活中不可或缺的一部分。随着科技的飞速发
手机NFC是什么?怎么使用?手机nfc「手机NFC是什么?怎么使用?」
但很多人不知道的是,除了这三种无线通信技术外,很多智能手机里还有一种无线通信技术,那就是NFC。2004年,飞利浦半导体,诺基
360手机 官网(360手机官网入口)
  探索《360手机官网》:一站式手机技术与服务的平台  在当今数字化时代,手机已经成为我们日常生活中不可或缺的一部分。而
关于手机电池的冷知识:机身温度过高,会永久降低手机电池容量手机电量「关于手机电池的冷知识:机身温度过高,会永久降低手机电池容量」
相信大家在日常使用手机时,最关注的就是我们手机的电量还剩多少,尤其是现在我们一般出门都不带现金,直接通过手机进行支付,所
260手机助手(360手机助手官方版下载)
  《260手机助手》:一站式手机管理和服务的新选择  随着智能手机的普及,我们的生活越来越离不开手机。为了更好地管理和优
小米发布迄今最强被动散热系统,两倍于VC散热,原神满帧运行手机散热「小米发布迄今最强被动散热系统,两倍于VC散热,原神满帧运行」
你的手机“烫”吗? 玩局游戏,瞬间化身暖手宝?拍拍视频就过热,需要“冷静”一下才能继续使用!充电是很快,温度升的也很快…