爬虫“拥抱大模型”，有没有搞头？

日期：2024-12-26 移动：https://sicmodule.kub2b.com/mobile/quote/13458.html

大模型是当前最热门的研究方向之一，千行百业加速“拥抱大模型”。如今，越来越多的研究机构和企业选择开放大模型的源代码和训练数据，促进了学术界和工业界的合作与交流，推动了技术进步，相关生态越来越好。这也使得，无论体量大小，各公司都有参与的机会，越来越多的大模型开始支持多模态输入和输出，能够处理文本、图像、音频等多种类型的数据。

但是这么多的大模型，谁更胜一筹呢？谁能与爬虫产生更好的反应呢？本文将对各大常见的国内外大语言模型进行对比测试，从数据层面，体现一些直观的信息。

各大模型真实速度测评：https://mp.weixin.qq.com/s/UFji5m3Ji1gvsQXqDTy9NQ

大语言模型（Large Language Model, LLM）是一种基于深度学习的人工智能模型，专门用于处理和生成自然语言文本，下文的相关解释源自 GPT-4o：

模型规模：大语言模型通常具有数十亿甚至数千亿个参数，使其能够捕捉复杂的语言模式和结构。规模越大，模型在理解和生成语言方面的能力通常越强。
训练数据：这些模型在大规模的文本数据集上进行预训练，这些数据集可能包含书籍、文章、网页、对话记录等。这种大规模预训练使得模型能够掌握广泛的语言知识和常识。
架构：大多数现代大语言模型基于 Transformer 架构。Transformer 架构使用自注意力机制，能够高效地处理长距离依赖关系，从而在生成连贯和上下文相关的文本方面表现出色。
预训练和微调：大语言模型首先在大规模通用数据集上进行预训练，掌握基本语言能力。然后，可以通过在特定领域或任务上的数据进行微调，以提升其在特定应用场景中的性能。
多任务能力：由于预训练过程中的广泛语言暴露，大语言模型通常具有多任务能力，能够处理多种自然语言处理任务，如文本生成、翻译、问答、文本分类等。
应用领域：大语言模型在许多领域都有广泛应用，包括对话系统、机器翻译、内容生成、情感分析、信息提取等。

大语言模型具备高效的语言理解和生成能力，广泛的应用场景，能够处理复杂的语言任务。

不过大语言模型对资源的消耗巨大：

据斯坦福人工智能研究所发布的《2023 年 AI 指数报告》，AI 大语言模型 GPT-3 一次训练的耗电量为 1287 兆瓦时，大概相当于 3000 辆特斯拉电动汽车共同开跑、每辆车跑 20 万英里所耗电量的总和。报告同时提出，AI 大语言模型 GPT-3 一次训练，相当于排放了 552 吨二氧化碳。

弗吉尼亚理工大学研究指出，meta 公司在 2022 年使用了超过 260 万立方米的水，主要作用是为数据中心提供冷却。

据了解，人工智能大模型 GPT-4 的主要参数是 GPT-3 的 20 倍，计算量是 GPT-3 的 10 倍，能耗也随之大幅增加。

上述仅为数据中心能耗成本，GPU、其他硬件、人力成本等等，花费都是惊人的。据网上数据统计，如果想在 10 天内训练一个千亿规模的大型模型，大约需要花费 1.43 亿美元！

国内

① 百度 - ERNIE Bot（文心一言）

基于 ERNIE 模型，专注于提供智能对话和问答服务，能够理解和生成高质量的自然语言文本。

② 腾讯 - Hunyuan（混元）

腾讯 AI Lab 推出的大语言模型，旨在提供高效、智能的文本生成和理解能力。

③ 京东 - Lingxi（言犀）

京东旗下的大语言模型，专注于提升智能对话和自然语言处理能力。

④ 月之暗面 - kimi

kimi 模型强调对多种数据类型（如文本、图像、音频等）的处理能力，以实现更广泛的应用场景和更强大的语言理解和生成能力。

⑤ 阿里 - Tongyi Qianwen（通义千问）

提供企业级自然语言处理服务，包括智能客服、智能搜索、文本分析和机器翻译等。

⑥ 华为 - PanGu（盘古）

大型预训练语言模型，强调对中文的理解和生成能力。

⑦ 智源研究院 - WuDao（悟道）

大规模预训练语言模型，参数规模达到 1.75 万亿，适用于多种 NLP 任务。

国外

① OpenAI - ChatGPT 系列

基于 Transformer 架构的大规模生成式预训练模型，具备强大的语言理解和生成能力。

② Google - BERT and T5

BERT 侧重于双向编码表示，适用于各种 NLP 任务。T5 将所有 NLP 任务转换为文本到文本的形式，具有很高的灵活性。

③ Microsoft - Turing NLG

大规模生成式预训练模型，参数规模巨大，具有卓越的文本生成能力。

④ Facebook - OPT

开源的大规模预训练语言模型，强调透明性和可解释性。

⑤ DeepMind - Gopher

DeepMind 推出的 2800 亿参数的大规模语言模型，在多个基准测试中表现出色。

本文测试的大语言模型为：腾讯元宝、文心一言 3.5、kimi、通义千问 2.5、GPT-4o。

Why did Zhou Shuren beat up Lu Xun

经典问题：“鲁迅为什么暴打周树人”，众所周知，鲁迅（本名周树人）曾在文章中自称“鲁迅打周树人”，这是他在自我剖析和自嘲中的一种表达方式，并不是他真的打自己￣▽￣。之前这个问题，就存在个别大模型答错的情况：

最近测试，各大模型，在这个问题上都能准确回答了：

但是换个问法，哎嘿，比如用英文，有的大模型可就宕机了￣▽￣：

请参阅相关网站了解更多信息，并随时向我提出任何其他问题。

数字 7.11 跟 7.9 比，哪个大

本文测试的国产的大语言模型，这个问题上都能回答准确：

倒是 GPT-4o 出了岔劈：

英文提问结果也是一样：

GPT-4 能回答正确，看来 GPT-3.5、GPT-4o 还是明显弱一些啊：

数据采集过程中，可能会碰到各种风控策略。其中，验证码人机验证是较为常见的，点选类验证码需要识别出相应的坐标，碰到这种情况，一般要么自己训练模型，要么对接打码平台。现在也可以将识别工作交给大模型，我们来看看，相同的问法，各家大模型，在识别验证码坐标上的表现。

GPT-4o

问题，选出相似的，并给出坐标：

问题，找出鸟的位置：

通义千问

问题，选出相似的，并给出坐标：

问题，找出鸟的位置：

Kimi

Kimi 暂时还不能分析图片文件：

文心一言

问题，选出相似的，并给出坐标（说了一堆，不知道在说什么）：