解读双编码器和交叉编码器信息检索中的向量表示与语义匹配

日期：2024-12-15 作者：035ce caijiyuan

核心提示：在信息检索领域（即从海量数据中查找相关信息），双编码器和交叉编码器是两种至关重要的工具。它们各自拥有独特的工作机制、优势

在信息检索领域（即从海量数据中查找相关信息），双编码器和交叉编码器是两种至关重要的工具。它们各自拥有独特的工作机制、优势和局限性。作为检索增强生成 (RAG) 系统系列文章的第二篇，本文将深入探讨这两种核心技术。

双编码器分别处理文档和搜索查询。可以将其类比为两个人独立工作：一人负责概括文档，另一人则专注于搜索查询，两者之间互不交流。“双”字体现了查询和文档的独立编码过程。

交叉编码器将两个文本片段（例如，用户查询和文档）同时作为输入。它不分别生成向量表示，而是输出 0 到 1 之间的值，表示输入对的相似度。

交叉编码器在高精度至关重要的任务中尤其重要，例如在最终文档重排序阶段，或在语义匹配的准确性至关重要时。

查询-文档对的联合处理

更准确地捕捉复杂关系

高效的文档重排序

双编码器：

交叉编码器：

假设有四个句子 A、B、C 和 D，需要比较所有可能的配对：

假设有 100,000 个句子，需要比较所有可能的配对：

双编码器将编码 100,000 个句子。
交叉编码器将编码 4,999,950,000 对（根据组合公式：n! / (r!(n-r)!)，其中 n=100,000 且 r=2）。因此，交叉编码器的扩展性较差，在大规模数据集上计算成本过高。

使用交叉编码器进行语义相似度检测的实际应用： 尽管双编码器也可以完成此任务，但交叉编码器在牺牲一定处理速度的情况下能提供更高的准确性。

以下演示将使用微软的预训练模型 MS MARCO，通过两个句子对进行说明。模型输出一个分数，分数越高表示句子之间的语义相似度越高。

下面的代码片段演示了如何使用双编码器进行语义相似性搜索。模型将查询和语料库编码成嵌入向量，然后执行相似性搜索以找到最相关的段落。结果显示前 k 个匹配项（此处 k=25），每个匹配项包含语料库 ID 和相似度分数：

使用高召回率但低精度的双编码器获取最相似的文本块后，可以通过第二阶段使用交叉编码器模型对结果进行重排序，利用其更高的准确性来优化结果。

以下是两阶段方法的实现：

代码使用交叉编码器模型对双编码器识别的查询-文本块对重新评分。交叉编码器提供更准确的相似度分数，从而实现更精细的排序。这种两阶段方法结合了双编码器在初始检索阶段的高效性和交叉编码器在最终排序阶段的高精度，为语义搜索任务提供了一种均衡的解决方案。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

标签： 编码器文档交叉查询

更多>同类生活信息

文章列表

相关文章

最新动态

推荐图文

生活信息

点击排行