原创 超 超的闲思世界
AI的推理能力正迎来一场重大突破。谷歌大脑团队最新开发的"思维链提示"方法,让大型语言模型在复杂推理任务上展现出惊人的进步。这项创新技术无需对模型进行额外训练,却能显著提升AI的推理能力,让机器的思维过程更接近人类。
链接:[arxiv.org/abs/2201.11903](arxiv.org/abs/2201.11903)
谷歌研究团队开发的"思维链提示"(Chain-of-Thought prompting)方法,为增强大型语言模型的推理能力开辟了一条全新路径。这种方法的核心思想是让AI像人类一样展示出清晰的推理过程,而不仅仅是给出最终答案。
考虑一个人在解决复杂的推理任务,比如多步骤的数学问题时自己的思考过程。典型的做法是将问题分解成中间步骤,并在给出最终答案之前解决每个步骤:“简给了她妈妈2朵花后,她还剩下10朵:::然后她再给她爸爸3朵,她就会剩下7朵:::所以答案是7。”这篇论文的目标是赋予语言模型生成类似思考链的能力——一系列连贯的中间推理步骤,导向问题的最终答案。
思维链提示的工作原理出人意料的简单:
-
在提供给模型的少量示例中,不仅包含问题和答案,还附加上解决问题的推理步骤。
-
模型在面对新问题时,会自然而然地生成类似的推理步骤,最后得出答案。
这种方法的优势显而易见:
-
低成本高效率: 无需对模型进行专门的微调训练,仅通过提供几个带有推理步骤的示例,就能激发模型的推理能力。这大大降低了部署成本和复杂度。
-
广泛适用性: 实验表明,思维链提示在多种推理任务上都取得了显著效果
算术推理: 如解决复杂的数学应用题
常识推理: 如回答需要常识判断的问题
符号推理: 如执行抽象的符号操作任务
-
提高可解释性: 通过生成清晰的推理步骤,模型的决策过程变得更加透明,有助于研究人员理解和改进AI的推理机制。
值得注意的是,思维链推理能力是随着模型规模增长而自然涌现的。研究发现,只有当模型参数达到一定规模(通常是数百亿级别)时,这种能力才会显著体现。这一发现为大模型的潜力提供了新的视角,暗示着可能还有更多尚未被发掘的能力。
在一系列实验中,研究团队发现了一些令人振奋的关键发现:
思维链推理:大模型的新兴能力
研究结果表明,思维链推理能力是随着模型规模增长而自然涌现的。这一发现意味着,仅通过扩大模型参数量,就能激发出更强大的推理能力。具体来说,实验显示只有在模型规模达到约100B参数时,思维链推理的效果才开始显著提升。这一现象与之前发现的"涌现能力"相呼应,进一步证实了大模型在智能行为方面的潜力。
复杂推理任务性能大幅提升
在各类复杂推理任务上,思维链提示方法都带来了显著的性能提升。尤其是在需要多步推理的数学问题和常识推理任务中,改善更为明显。例如,在GSM8K数学问题集上,采用思维链提示的PaLM 540B模型将准确率从原本的58.1%提升至74.4%,超越了此前的最佳水平。这一结果表明,通过"教会"模型展示推理过程,可以极大地增强其解决复杂问题的能力。
泛化能力的提升
更令人兴奋的是,思维链提示还帮助模型实现了对未见长度序列的泛化。在符号推理任务中,即使测试样本的长度超过了训练示例,采用思维链提示的模型仍然表现出色。这一发现暗示着,思维链方法不仅提高了模型的推理能力,还增强了其适应新情况的灵活性。
为了进一步验证思维链提示的效果,研究团队在多个具有挑战性的基准测试上进行了实验:
数学推理:GSM8K创新高
研究团队使用了多个数学词问题数据集,如GSM8K、SVAMP和AQuA,这些问题涵盖了从简单的一步计算到复杂的多步推理。
在GSM8K数学单词问题数据集上,PaLM540B模型配合思维链提示取得了74.4%的准确率,这一成绩不仅大幅超越了标准提示方法(58.1%),更是超过了此前经过微调的GPT-3模型保持的最佳记录(55%)。值得注意的是,这一突破是在仅使用8个示例进行少样本学习的情况下实现的,充分体现了思维链提示方法的强大效果。
常识推理:全面提升
实验涉及多个常识推理任务,包括CSQA(常识问答)、StrategyQA(策略推理)以及涉及日期理解和体育知识的特殊任务,这些任务要求模型运用广泛的世界知识。
在多个常识推理任务上,思维链提示同样带来了显著improvement。例如:
-
在StrategyQA数据集上,PaLM 540B的准确率从67.2%提升至75.6%,超越了此前的最佳水平。
-
在体育理解任务中,准确率更是从84%飙升至95.4%,展现出接近人类的理解能力。
这些结果表明,思维链提示不仅适用于结构化的数学问题,在需要广泛背景知识的开放域推理任务中同样效果显著。
符号推理:长度泛化
研究者设计了两个简单但具有挑战性的任务:"最后一个字母连接"和"硬币翻转",这些任务测试了模型对抽象符号操作的理解和执行能力。
在符号推理任务上,思维链提示展现出了令人惊喜的泛化能力。以"最后字母连接"任务为例:
-
在与示例长度相同的域内测试中,PaLM540B几乎达到了100%的准确率。
-
更重要的是,在长度超出示例的域外测试中,模型仍保持了约90%的高准确率。
相比之下,使用标准提示的模型在域外测试中完全失败。这一结果有力证明了思维链提示在增强模型泛化能力方面的独特优势。
思维链提示不仅显著提升了大型语言模型的推理能力,更为人工智能领域的未来发展指明了方向。这项创新技术有望扩展AI系统可执行的推理任务范围,使其能够应对更加复杂和多样化的问题。随着研究的深入,我们可能会看到AI在科学研究、医疗诊断、法律分析等高度依赖推理能力的领域取得突破性进展。
更重要的是,思维链提示为探索基于自然语言的AI推理方法开辟了新的研究路径。这种方法不仅提高了模型的性能,还增强了AI系统的可解释性,使我们能够更好地理解AI是如何得出结论的。这一特性对于构建可信赖的AI系统至关重要,尤其是在需要高度透明度的决策场景中。
思维链提示技术可能会推动AI系统在推理能力上更接近人类水平。随着模型规模的进一步扩大和技术的不断优化,我们或许能见证AI在复杂推理任务上超越人类的那一天。尽管如此,我们也应该谨慎看待这一发展,继续探索如何让AI的推理过程更加透明、可控和符合伦理。