1-HtmlRAG
互联网上的信息已成为 RAG 系统主要的外部知识源,比如 Perplexity、 秘塔搜索、天工搜索等应用已将互联网上的信息作为其主要的检索源。这类 RAG 系统一般会下载检索到的 HTML 源码,然后从中提取纯文本,再将纯文本输入 LLMs 中用于增强生成。但此过程丢失了原有 HTML 中的固有结构和语义信息,如标题、表格结构。
HtmlRAG 的作者们认为 HTML 在对外部文档建模知识方面优于纯文本。作者们提出了针对 HTML 的清理、压缩和修建策略,在缩短 HTML 的同时最大限度减少信息损失。他们设计了一种基于两步块树的修剪方法,该方法修剪无用的 HTML 块,仅保留 HTML 的相关部分。
论文:https://arxiv.org/pdf/2411.02959
2-FastRAG
FastRAG 是一种新型的检索增强生成(RAG)方法,专为处理半结构化数据而设计。该方法通过模式学习和脚本学习来提取和结构化数据,而不需要将整个数据源提交给大型语言模型(LLM)。
FastRAG 结合了文本搜索和知识图谱(KG)查询,提高了检索上下文丰富信息的准确性。评估结果表明,与 GraphRAG 相比,FastRAG 在时间和成本上分别提升至 90% 和 85%,同时提供了准确的问答服务。
论文:https://arxiv.org/pdf/2411.13773
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]👈
3-Auto-RAG
Auto-RAG 是一个基于大型语言模型(LLM)的自主迭代检索模型,旨在通过多轮对话与检索器的交互,进行知识检索和查询优化,以提高知识密集型任务的性能。
Auto-RAG 通过与检索器的多轮对话,进行策划性的检索和查询优化,直到收集足够的外部信息后,才将结果呈现给用户。研究者们开发了一种自主合成基于推理的决策指令的方法,并对最新的开源 LLM 进行了微调。
从下图来看,Auto-RAG 很像使用了 GPT-o1 的 RAG 系统:
实验结果表明,Auto-RAG 能够自主地与检索器进行交互,有效地利用了 LLM 的推理和决策能力,在六个基准测试中表现出色。进一步分析显示,Auto-RAG 能够根据问题的复杂性和检索知识的实用性自动调整迭代次数,无需人工干预。
此外,Auto-RAG 用自然语言表达迭代检索过程,提高了解释性,并为用户提供了更直观的体验。
论文:https://arxiv.org/pdf/2411.19443
4-CORAG
CORAG 是一个针对 RAG 系统的成本约束检索优化系统。该系统主要解决了 RAG 中存在的三个关键挑战:块之间的相关性、块组合顺序的非单调性以及不同查询类型的适应性。
研究团队通过构建一个基于 MCTS 的策略树框架来寻找最优的块组合顺序,同时考虑成本约束。此外,研究还提出了一个基于对比学习的配置代理,用于动态预测给定查询的最佳配置和重排器。实验结果表明,CORAG 系统在保持成本效益的同时,显著提高了 LLMs 的生成质量,比现有的基线模型提高了约 30%。
-
CORAG 系统认识到块之间的相关性对于提高 RAG 性能至关重要,并通过 MCTS 策略树框架来考虑这种相关性,从而优化块组合顺序。
-
传统的 RAG 方法往往假设增加更多的块会提高最终结果的效用,但实际上,过多的块可能会降低信息的清晰度。CORAG 通过将成本约束集成到块组合顺序的优化中来解决这个问题。
-
CORAG 利用对比学习来训练配置代理,使其能够区别不同查询的相关性和差异性,从而为每种查询推荐最优的配置。
论文地址:https://arxiv.org/pdf/2411.00744
5-MemoRAG
MemoRAG 是一个基于长期记忆的检索增强生成(RAG)范式,通过一个轻量级的 LLM 构建全局记忆,用于生成初步答案,进而指导检索工具在数据库中查找有用信息。
MemoRAG 使用了一种双系统架构,其中包含一个用于生成初步答案的轻量级 LLM 和一个用于生成最终答案的昂贵但更强的 LLM。实验结果表明,MemoRAG 在处理复杂任务时,性能优于标准的 RAG 系统和其他基线模型。此外,MemoRAG 在传统的问答任务中也表现出竞争力。
-
传统 RAG 系统的局限性:传统的 RAG 系统主要依赖于简单的问答任务,对于涉及模糊信息需求和非结构化知识的任务表现不佳。
-
MemoRAG 的优势:MemoRAG 通过构建全局记忆,能够更好地处理长文本和复杂问题,生成更准确的答案。
-
双系统架构:MemoRAG 采用了一个轻量级的 LLM 来构建和访问全局记忆,以及一个表达力强的 LLM 来生成最终答案。
论文:https://arxiv.org/pdf/2409.05591
6-AssistRAG
ASSIST RAG 框架是一个集成了智能信息助手的增强型生成模型,旨在提高大型语言模型(LLMs)在处理复杂问题时的准确性和推理能力。该框架包括一个可训练的助手 LLM 和一个冻结的主 LLM,助手 LLM 负责内存和知识管理,而主 LLM 则负责任务执行。
ASSIST RAG 通过两个主要功能实现推理任务:内存管理和知识管理。内存管理涉及整合和分析内部内存内容,而知识管理则侧重于利用外部知识。这两个核心功能得到了工具使用、行动执行、内存构建和计划制定等四个能力的支持。
为了训练 ASSIST RAG,研究者采用了课程式助手学习和强化偏好优化两个阶段的训练方法。课程式助手学习通过逐步增加任务复杂度来提升助手的能力,而强化偏好优化则通过使用强化学习来调整助手的输出,以更好地满足主 LLM 的具体需求。
实验结果表明,ASSIST RAG 在多个复杂问答数据集上的表现优于现有基准,特别是对于不那么先进的 LLMs,它能够提供更好的推理能力和准确的回答。
-
ASSIST RAG 框架的创新性:该框架通过集成一个可训练的助手 LLM 与一个冻结的主 LLM,提供了一种新的方法来提升 LLMs 在复杂推理任务上的表现。
-
两阶段训练方法的有效性:通过课程式助手学习和强化偏好优化,ASSIST RAG 能够更好地管理内存和知识,从而提高信息检索的准确性和决策的质量。
-
对不同 LLMs 的适应性:ASSIST RAG 能够适应不同的基础 LLMs,并且在实验中表明,它对于较弱的 LLMs 带来了更显著的性能提升。
-
实验结果的显著性:在三个复杂问答数据集上的实验结果显示,ASSIST RAG 在准确性和推理能力方面明显优于其他方法。
-
对于提高 LLMs 效率和降低成本的贡献:ASSIST RAG 通过在不同 LLMs 之间共享训练成果,减少了对特定 LLMs 的依赖,降低了 API 调用的代价,同时提高了推理速度。
论文地址:https://arxiv.org/pdf/2411.06805
医疗领域
7-LaB-RAG
LaB-RAG(Label Boosted Retrieval Augmented Generation)是一个针对放射学报告生成的框架, 通过结合图像标签与 RAG 和 LLMs 生成图像描述。 LaB-RAG 利用简单分类器将 X 光图像转换为文本标签,这些标签引导预训练的 LLMs 生成详细的放射学报告,无需训练 LLM 或直接使用图像数据。
研究团队使用了预训练的 X 射线图像编码器 BioViL-T 来提取图像特征,并训练了简单的逻辑回归模型(LaB-Classifiers)来从这些特征中预测 CheXpert 标签。这些预测的标签随后被用于改进标准的检索增强生成(RAG)模型,通过筛选和格式化检索到的文本示例,以及在生成过程中使用这些标签作为文本描述符,来生成更准确的放射报告。
- LaB-RAG 的创新性:LaB-RAG 通过引入图像标签预测来提高放射学报告的生成质量,这一方法不需要对深度学习模型进行微调,也不需要将图像特征转换为高维向量。
-
标签的关键作用:通过简单的机器学习模型预测的标签,LaB-RAG 能够有效地将图像转换为文本空间,从而提高了与 LLMs 交互的效果。
-
实验结果的优势:LaB-RAG 在多个评估指标上表现出色,包括 F1-RadGraph 和 F1-CheXbert,这表明其生成的报告在临床相关性和自然语言理解方面都有很大提升。
论文地址:https://arxiv.org/pdf/2411.16523
8-MMed-RAG
MMed-RAG 是一个针对医学视觉语言模型(Med-LVLMs)的可扩展多模态检索增强系统。该系统通过引入领域感知的检索机制、自适应检索上下文选择方法,以及基于检索增强的优化微调策略,显著提高了医学视觉语言模型(Med-LVLMs)的事实准确性。
MMed-RAG 首先采用领域识别模块来有效处理不同来源的医学图像,并为每个领域选择相应的检索模型。
其次,通过分析相似性得分的下降趋势,系统动态确定最佳的检索上下文数量,以减少噪声信息的引入。
最后,MMed-RAG 采用基于检索增强的首选优化微调方法,通过构建首选和非首选回答对来改善模型的交叉模态对齐和整体对齐能力,从而提高模型对图像和文本信息的理解和整合能力。
-
医学视觉语言模型(Med-LVLMs)的事实性问题:目前的 Med-LVLMs 虽然在医学诊断和治疗规划中表现出巨大潜力,但仍然面临事实幻觉的问题,这可能导致错误的诊断,尤其在临床环境中,任何小的诊断错误都可能对患者护理产生严重影响。
-
现有解决方案的局限性:虽然有限的微调和基于检索的生成方法(RAG)可以帮助改善这些问题,但是由于高质量数据的不足和训练数据与部署数据分布的差异,微调方法受到限制。而现有的 RAG 实现在 Med-LVLMs 中并不普遍,且可能引入模态和模型与地面真实之间的错误对齐问题。
-
MMed-RAG 的创新点:MMed-RAG 通过引入领域感知的检索机制、自适应检索上下文选择方法和基于检索增强的首选优化微调策略,有效地解决了现有方法的局限性。
-
理论和实证研究:研究者证明了 MMed-RAG 在改善交叉模态对齐和整体对齐方面的效果,而且还通过在多个医学多模态数据集上的实验验证了该系统的有效性。MMed-RAG 在医学 VQA 和报告生成任务上的平均改进达到了 43.8% 的事实准确性。
论文地址:https://arxiv.org/pdf/2410.13085
9-Path-RAG
Path-RAG 是一个通过改进病理图像分析来增强癌症诊断的框架,专为 PathVQA-Open 任务设计。
Path-RAG 采用了以人为中心的人工智能方法,通过 HistoCartography 检索领域知识,选择与给定病理图像最相关的图像块,并利用 LLaVA-Med 模型对每个块进行摘要,最终通过 GPT-4 进行推理以提供答案。实验结果表明,Path-RAG 在 H&E 染色的病理图像上的召回率提高了 28%,并且在更长格式的问答对上也取得了显著的改进。
-
Path-RAG 结合组织直方图和大型语言模型,有效地提高了开放式病理视觉问答的性能。
-
组织直方图在选择关键区域的图像块中起到了关键作用,能够捕捉到组织结构和细胞组成的细节,这对于提供准确的病理诊断至关重要。
-
ARCH-Open 数据集的引入,提供了更长格式的问答对,有助于评估和训练用于病理相关任务的多模态大型语言模型。
-
实验结果验证了 Path-RAG 方法的有效性,特别是在 H&E 染色的病理图像上的性能提升显著。
-
未来的研究方向包括改进图像块的选择策略,以及探索其他视觉语言模型,以进一步提高病理图像分析的准确性和效率。
论文地址:https://arxiv.org/pdf/2411.17073
金融领域
10-Multi-Reranker
Multi-Reranker 是一个面向金融领域的高性能 RAG 系统。它通过优化查询扩展、语料库精炼及改进的检索算法,处理复杂的金融任务如分析财务报表与披露信息,在 ACM-ICAIF '24 FinanceRAG 竞赛中荣获第二名
-
预检索优化:通过消融研究确定了最佳的查询扩展和语料库优化组合,提升了检索效果。
-
多重排器模型的引入:使用多个重排器模型提高了检索到的语料库的相关性。
-
长上下文管理:研究者们设计了一种管理长上下文尺寸的方法,这对于处理大型输入上下文和提高生成响应的质量至关重要。
-
数据集和性能评估:使用多个金融领域特定的数据集评估了 RAG 系统的性能,并在竞赛中获得了显著的成绩。
-
系统优化和未来方向:讨论了系统优化的重要性,以及如何通过参数高效的微调和输入大小减少来进一步提升性能。未来的研究可能会集中在如何降低计算成本并提高长上下文输入的效率。
论文地址:https://arxiv.org/pdf/2411.16732
材料科学
11-G-RAG
G-RAG(Graph RAG)是一种针对材料科学文档的知识扩展方法,通过提取关键实体(MatIDs)并与外部知识库(如维基百科)进行交互,增强了基于大型语言模型(LLMs)的检索和生成过程。
该方法采用基于 Agent 的解析技术,通过构建知识图谱更细致地表示文档,提高了检索的准确性和上下文理解。通过限制检索的节点数量,确保了所选信息能够适应 LLMs 的上下文长度限制。
-
传统的 LLMs 在处理材料科学文档时面临出现幻觉、信息过时和推理不透明等问题。
-
G-RAG 通过整合图数据库来提高信息检索的准确性和上下文理解,有效地解决了这些问题。
-
通过实体链接和关系提取,G-RAG 能够更准确地从文档中提取信息,并构建知识图谱以增强 LLMs 的生成能力。
-
实验结果显示,G-RAG 在生成准确、相关和语境丰富的回答方面优于 Naive RAG 和 Graph RAG。
-
未来的工作将集中在创建更大的材料科学知识库和专门针对该领域的实体链接模型,以及在其他需要精确信息检索的领域中应用 G-RAG 方法。
论文地址:https://arxiv.org/pdf/2411.14592
时间序列
12-RAF
RAF(Retrieval-Augmented Forecasting)利用 RAG 技术来提高时间序列基础模型(TSFM)的预测能力。RAF 通过检索与当前查询最相关的时间序列示例,并将这些示例整合到预测过程中,提高了预测的准确性。
研究通过在多个不同领域的数据集上进行实验,证明了 RAF 在提高预测准确性方面的有效性。数据集包括气象、交通、能源、金融和健康等领域的时间序列数据。实验结果显示,与传统的基线模型相比,RAF 能够在多个数据集上提供更准确的预测。特别是在使用较大的 TSFM 时,如 Chronos base,RAF 的性能提升尤为明显。
-
检索增强的时间序列预测框架(RAF)能够显著提高时间序列预测的准确性。通过从外部数据库中检索与当前查询最相关的时间序列示例,并将这些示例整合到预测过程中,RAF 能够更好地处理时间序列数据的动态和事件驱动特性。
-
RAF 在多个不同领域的数据集上都表现出了优异的性能。表明 RAF 具有很强的泛化能力,能够适应不同类型的时间序列数据。
-
高级的 RAF(Advanced RAF)通常优于简单的 RAF(Naive RAF)。进一步对模型进行微调能够提高模型的预测能力,尤其是在处理复杂的时间序列数据时。
-
模型大小对 RAF 性能有显著影响。较大的 TSFM 能够更有效地利用检索增强的技术,从而在预测任务中取得更好的结果。
-
RAF 的引入为时间序列预测提供了一种新的研究方向。通过结合外部知识库和模型微调,RAF 为未来的时间序列模型开辟了新的可能性,特别是在处理长期依赖和复杂模式的时间序列数据时。
-
RAF 的方法可以扩展到多通道预测和从外部源检索多个样本的情况。这为进一步提高时间序列模型的预测能力提供了潜在的途径,尤其是在多变量时间序列分析的场景中。
论文地址:https://arxiv.org/pdf/2411.08249
13-Video-RAG
Video-RAG(Visually-aligned Retrieval-Augmented Generation)是一个针对长视频理解的高效流程,用于提高大型视频语言模型(LVLMs)在长视频理解方面的性能,通过引入视觉内容对齐的辅助文本信息(如 OCR、ASR 和物体检测结果),提高了大型视频语言模型(LVLMs)的性能。
该流程不需要额外的训练,且与任何 LVLM 兼容,能够在低计算成本下实现高效的单次检索。实验结果表明,Video-RAG 在多个长视频理解基准测试中都取得了显著的性能提升,包括 Video-MME、MLVU 和 LongVideoBench。尤其是在与 72B 模型结合使用时,其性能超过了专有模型 Gemini-1.5-Pro 和 GPT-4o。
-
长视频理解的挑战:传统的 LVLMs 在处理长视频时面临信息冗余和模型容量限制的问题,导致性能下降。
-
Video-RAG 的优势:与传统的长上下文 LVLMs 和基于 GPT 的代理方法相比,Video-RAG 具有轻量级、易于实现和兼容性强的特点,能够在不同的 LVLMs 上实现性能提升。
-
辅助文本的作用:通过 OCR、ASR 和物体检测等开源工具提取的辅助文本,能够更好地与视觉内容对齐,提供超出视觉内容的额外信息,从而帮助 LVLMs 更准确地理解视频内容。
-
实验结果:在 Video-MME、MLVU 和 LongVideoBench 等基准测试中,Video-RAG 显著提高了 LVLMs 的性能,尤其是在长视频理解任务中。
-
未来方向:研究如何更高效地整合辅助文本,并为 LVLMs 提供一种自适应的帧选择策略。
论文地址:https://arxiv.org/pdf/2411.13093
14-RAG Diffusion
RAG Diffusion 是一个用于从现实世界数据生成精确平面服装图像的 RAG 框架,解决了结构错误和幻觉问题。
-
结构幻觉:传统的服装图像生成模型在生成高规格的标准服装图像时,常常会出现结构幻觉现象,如服装结构的失真和细节的不准确。
-
外部知识整合:RAGDiffusion 通过整合外部知识,如大型语言模型(LLM)提供的服装属性和外部数据库中的标准服装图像,提高了生成图像的结构和细节的准确性。
-
对比学习和局部线性嵌入:该研究利用对比学习提取服装结构嵌入,并通过结构局部线性嵌入(SLLE)算法进一步改进这些嵌入,以提高服装结构的准确性。
-
多级别对齐生成:RAGDiffusion 采用了三级别的对齐策略,包括结构、图案和解码的对齐,以确保生成的服装图像在多个方面的准确性。
-
实验验证:通过在 STGarment 数据集上的实验,RAGDiffusion 展现了其在生成标准服装图像方面的优越性能,并通过用户研究和消融研究进一步证明了其性能。
-
潜在应用:RAGDiffusion 不仅在服装图像生成领域有应用,还有潜力在其他领域如图像编辑、虚拟试穿等进行扩展。
-
未来发展:研究指出,尽管 RAGDiffusion 取得了显著的进展,但仍存在一些局限性,如颜色偏差等问题,未来的工作将致力于解决这些问题,并扩展其应用范围。
论文地址:https://arxiv.org/pdf/2411.19528
15-RuAG
RuAG 通过结合 LLMs 的常识推理能力和蒙特卡洛树搜索(MCTS)算法,自动从大量的离线数据中提炼出高度可解释的一阶逻辑规则。这些逻辑规则能够被转换成自然语言,便于精确注入到 LLMs 的提示中,以辅助 LLMs 在处理下游任务时的推理。
RuAG 框架主要包括三个阶段:首先是利用 LLMs 的常识推理能力来定义逻辑规则搜索的目标谓词(Target Predicate)和身体谓词(Body Predicates),其中 Target Predicate 是与任务相关的,如分类任务中的类标签,而 Body Predicates 初始化为数据特征。接下来,使用 MCTS 算法在大的组合搜索空间中有效地发现逻辑规则,并将这些规则应用于规则基础的生成阶段。最后,通过将提炼出的逻辑规则转换为自然语言并注入到 LLMs 的提示中,实现了逻辑规则增强的生成(RuAG)。
-
逻辑规则的重要性:作者认为,高度可解释的一阶逻辑规则能够有效地压缩大量数据的核心信息,并且能够被转换成自然语言,便于 LLMs 的理解和应用。
-
MCTS 在逻辑规则发现中的作用:通过 MCTS 算法,可以在大的组合搜索空间中高效地发现有效的逻辑规则,并且该算法在处理大规模数据集时表现出了优异的性能。
-
RuAG 框架的优势:RuAG 框架能够自动化地从大量离线数据中提炼出逻辑规则,并将这些规则注入到 LLMs 中,从而提高了 LLMs 在多种任务上的推理和理解能力,同时减少了计算成本和对专家知识的依赖。
-
多领域的实验验证:通过在不同领域的多个任务上进行实验,论文验证了 RuAG 框架的普适性和有效性,包括自然语言处理、时间序列预测、决策任务和工业应用。
-
未来研究方向:论文指出,将逻辑规则与 LLMs 结合的方法为提高人工智能系统的推理和理解能力提供了新的研究方向。
论文地址:https://arxiv.org/pdf/2411.03349
16-RAG-Thief
RAG-Thief 是一种基于代理的自动化隐私攻击方法,专门针对集成了外部知识库的检索增强生成(RAG)应用程序。它通过初始的对抗查询和模型响应的学习,逐步生成新的查询来从 RAG 应用中的私有数据库中提取信息。
实验结果显示,RAG-Thief 能够从本地机器和云平台上部署的自定义 RAG 应用中提取超过 70% 的信息,包括 OpenAI 的 GPTs 和字节的 Coze。这些发现揭示了当前 RAG 应用中的隐私漏洞,并强调了采取更强防护措施的迫切需要。
RAG-Thief 的工作原理如下:
-
初始对抗查询:攻击开始于一个初始的对抗性查询(initial adversarial query),此查询经过精心设计,不仅从 RAG 系统的私有知识库中检索信息,还包括特定的对抗命令,这些命令能够诱使语言模型泄露检索到的源文本块。
-
信息提取:当语言模型生成内容时,其不确定性可能导致私有知识库中的敏感信息片段被无意中泄露。RAG-Thief 通过分析和提取这些信息片段,能够识别和抽出 RAG 应用中的特定文本块。
-
内存存储:RAG-Thief 将成功提取的文本块存储在其短期和长期记忆中。短期记忆存储新提取的文本块,而长期记忆存储所有提取的文本块。
-
反思机制:RAG-Thief 使用从短期记忆中提取的文本块作为种子,生成新的对抗性查询。这个过程涉及到对已提取内容的反思和关联推理,以生成更有效的后续攻击查询。
-
自我改进:随着攻击的进行,RAG-Thief 通过分析和推理已提取的内容,不断优化其攻击策略,提高查询的准确性和效率。
-
输出不确定性处理:由于语言模型的生成性质,其输出可能存在不确定性。RAG-Thief 通过优化对抗性查询和引入后处理机制,确保能够准确地识别和提取原始文本块。
-
迭代攻击:RAG-Thief 通过上述步骤不断迭代,每次使用新的对抗性查询来提取更多的私有信息,直到达到攻击的终止条件。
通过这种自我学习和迭代的方式,RAG-Thief 能够在不依赖于特定领域知识的情况下,有效地从 RAG 应用中提取大量的私有数据。这种方法在实验中已经证明了其对不同平台和数据集的有效性。
论文地址:https://arxiv.org/pdf/2411.14110
领取方式在文末
学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。
①AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
②AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
③AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
④AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。
…
这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。