业界动态
为什么向量搜索引擎这么快?
2024-11-14 00:09
  • 为什么速度如此之快?
  • 什么是向量搜索?
  • kNN
  • ANN
  • Weaviate的HNSW
  • 概括

每当我谈到向量搜索时,我都喜欢用一个语义搜索的例子来演示它。为了增加令人惊叹的因素,我喜欢在 Wikipedia 数据集上运行我的查询,该数据集包含来自 Wikipedia 的超过 2800 万段。

为什么向量搜索引擎这么快?

例如,我可以问:“柏林最高的建筑是什么?”,而向量搜索引擎(在我的演示中 - Weaviate的例子中)会用“Fernsehturm Berlin”来响应。

事情是这样的,在一个巨大的非结构化数据存储库中找到正确的答案并不是这个演示最令人印象深刻的部分(我的意思是,它非常令人印象深刻),但它是这一切发生的速度。UI 显示结果需要几分之一秒。

我们谈论的是语义搜索查询,它需要几毫秒才能在包含2800 万段的数据集中找到答案。有趣的是,呈现结果的时间比向量搜索引擎找到答案的时间要长。

请注意,语义搜索与常规关键字搜索不同(它匹配类似关键字),而是根据查询和数据的语义含义来搜索答案。

跟随这个演示不可避免的问题总是:

为什么速度如此之快?

要回答这个问题,我们需要看看向量搜索引擎是如何工作的。

与其他数据库不同,向量搜索引擎基于数据向量(或向量嵌入)对数据进行索引。向量嵌入捕获数据的含义和上下文,通常由机器学习模型预测。

在输入/导入(或对数据对象进行任何重大更改)时,对于每个新的/更新的数据对象,向量搜索引擎使用机器学习模型来预测和计算向量嵌入,然后将其与对象一起存储。

数据集中的每个数据对象都有一个向量

简而言之,向量嵌入是一个数字数组,可以用作高维空间中的坐标。虽然很难想象超过 3 维空间 (x, y, z) 的坐标,但我们仍然可以使用向量来计算向量之间的距离,这可以用来表示对象之间的相似性。

有许多不同的距离度量,例如余弦相似度和欧几里得距离(L2 距离)。

以类似的方式,每当我们运行查询(例如:“柏林最高的建筑是什么?”)时,向量搜索引擎也可以将其转换为“查询”向量。矢量搜索引擎的任务是使用距离度量和搜索算法识别和检索最接近查询的给定矢量的矢量列表。

这有点像滚球游戏——小标记(杰克)是我们查询向量的位置,球(滚球)是我们的数据向量——我们需要找到离标记最近的滚球。

找到相似向量的一种方法是使用简单的k 近邻 (kNN) 算法,该算法通过将数据库中的每个数据向量与查询向量进行比较,返回 k 个最近的向量。

在我们的滚球示例(如下图所示)中,有 6 个滚球,kNN 算法将测量千斤顶与地面上 6 个滚球中的每一个之间的距离。这将导致 6 次单独的计算。

仅在两个维度上将搜索向量与 10、100 或 1000 个数据向量进行比较是一项简单的工作。但当然,在现实世界中,我们更有可能处理数百万(如维基百科数据集)甚至数十亿的数据项。此外,大多数 ML 模型在语义搜索中使用的维度数量高达数百或数千个维度!

kNN 搜索的蛮力计算上非常昂贵- 并且根据数据库的大小,单个查询可能需要几秒钟甚至几小时的时间。如果将 300 维向量与 10M 向量进行比较,搜索引擎将需要进行 300 x 10M = 3B 计算!所需计算的数量随着数据点的数量 (O(n)) 线性增加(图 2)。

总之,kNN 搜索不能很好地扩展,并且很难在生产中使用它与大型数据集进行图像处理。

向量搜索引擎不是逐个比较向量,而是使用近似最近邻 (ANN) 算法,该算法牺牲了一点准确性(因此名称中的 A)以大幅提高速度。

ANN 算法可能不会返回真正的 k 最近向量,但它们非常有效。ANN 算法在非常大规模的数据集上保持良好的性能(亚线性时间,例如(多)对数复杂度,参见图 2)。

请注意,大多数矢量搜索引擎都允许您配置 ANN 算法的行为方式。这使您可以在召回权衡(真正的 top-k 最近邻居的结果比例)、延迟吞吐量(每秒查询数)和导入时间之间找到适当的平衡。举个很好的例子,检查Weaviate benchmarks,看看efConstruction、maxConnections 和 ef这三个参数如何影响召回、延迟、吞吐量和导入时间。

ANN 方法的例子有:

  • ——例如ANNOY(图 3),
  • 邻近 - 例如HNSW(图 4),
  • 聚类- 例如FAISS,
  • 散列- 例如LSH,
  • 矢量压缩- 例如PQ或SCANN。

哪种算法效果最好取决于您的项目。性能可以通过延迟、吞吐量(每秒查询数)、构建时间和准确性(召回)来衡量。这四个组件通常需要权衡取舍,因此取决于用例哪种方法效果最好。

因此,ANN 并不是一种总能在数据集中找到真正的 k 个最近邻居的神奇方法,它可以找到真正的 k 个邻居的一个非常好的近似值。但它可以在很短的时间内做到这一点!

Weaviate是向量搜索引擎的一个很好的例子,它使用 ANN 算法提供超快速查询。引入 Weaviate 的第一个 ANN 算法是分层可导航小世界图 (HNSW)的自定义实现。

查看Weaviate ANN 基准,了解 HNSW 在现实大规模数据集上的表现。您可以使用它来比较召回、QPS、延迟和导入时间之间的权衡。您会发现有趣的是,Weaviate 可以保持非常高的召回率(>95%),同时保持高吞吐量和低延迟(均以毫秒为单位)。这正是您进行快速但可靠的矢量搜索所需要的!

快速回顾:

  • 向量搜索引擎使用机器学习模型来计算矢量嵌入并将其附加到所有数据对象
  • 向量嵌入捕获数据的含义和上下文
  • 借助 ANN 算法,矢量搜索引擎提供超快速查询
  • 人工神经网络算法以少量的准确度换取性能的巨大提升

原文标题:Why is Vector Search so fast?原文作者:LAURA HAM原文链接:https://weaviate.io/blog/2022/09/Why-is-Vector-Search-so-fast.html#learn-more
    以上就是本篇文章【为什么向量搜索引擎这么快?】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/news/508.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 https://sicmodule.kub2b.com/mobile/ , 查看更多   
最新文章
手机单扬声器和双扬声器有什么区别?原来差别这么大手机扬声器「手机单扬声器和双扬声器有什么区别?原来差别这么大」
随着手机的普及和发展,音频体验成为消费者选择手机的重要因素之一。而在手机音频方面,单扬声器和双扬声器是常见的设计方案。那
手机维修知识大全维修手机「手机维修知识大全」
修理手机维修知识大全手机是高科技精密电子产品。工作原理、制造工艺、软件和硬件、测试、技术标准在所有的电器设备中是最复杂的
2k分辨率手机有哪些(2k分辨率的手机哪款性价比最高)
  关于《2K分辨率手机有哪些》的文章  随着科技的不断发展,手机已经成为了我们日常生活中不可或缺的一部分。而在手机的各种
红手指云手机苹果版(红雀浏览器) v1.0.23 iPhone版红手指云手机「红手指云手机苹果版(红雀浏览器) v1.0.23 iPhone版」
红手指手游专用虚拟手机是一款非常实用的手机挂机软件,在这里玩家随时随地离线挂机、自动帮助你闯关升级,非常强大的游戏挂机神
1手机2(一加11手机)
  《手机2》:探索科技与生活的无限可能  在当今数字化时代,智能手机无疑是我们生活中不可或缺的一部分。随着科技的飞速发
手机NFC是什么?怎么使用?手机nfc「手机NFC是什么?怎么使用?」
但很多人不知道的是,除了这三种无线通信技术外,很多智能手机里还有一种无线通信技术,那就是NFC。2004年,飞利浦半导体,诺基
360手机 官网(360手机官网入口)
  探索《360手机官网》:一站式手机技术与服务的平台  在当今数字化时代,手机已经成为我们日常生活中不可或缺的一部分。而
关于手机电池的冷知识:机身温度过高,会永久降低手机电池容量手机电量「关于手机电池的冷知识:机身温度过高,会永久降低手机电池容量」
相信大家在日常使用手机时,最关注的就是我们手机的电量还剩多少,尤其是现在我们一般出门都不带现金,直接通过手机进行支付,所
260手机助手(360手机助手官方版下载)
  《260手机助手》:一站式手机管理和服务的新选择  随着智能手机的普及,我们的生活越来越离不开手机。为了更好地管理和优
小米发布迄今最强被动散热系统,两倍于VC散热,原神满帧运行手机散热「小米发布迄今最强被动散热系统,两倍于VC散热,原神满帧运行」
你的手机“烫”吗? 玩局游戏,瞬间化身暖手宝?拍拍视频就过热,需要“冷静”一下才能继续使用!充电是很快,温度升的也很快…