推广 热搜: page  红书  数据  小红  论文  数据分析  关键词  哪些  考试  搜索 

AI月报:马斯克加速GPU竞赛;大模型真撞墙了? 风口转到Agent

   日期:2024-12-21     移动:https://sicmodule.kub2b.com/mobile/quote/10171.html


新栏目上线试运行。



文丨贺乾明

编辑丨黄俊杰



11 月,ChatGPT 迎来两周年,却是 OpenAI 官方相对沉寂的一个月。


这只是暂时的。12 月 4 日,OpenAI 宣布开启为期 12 天的发布活动,每个工作日发布一款产品或一项进展,当前已经发布了完整版的 o1 模型,每月 200 美元的会员 ChatGPT Pro,用强化学习的方式微调模型的方法,视频生成模型 Sora,以及调动 ChatGPT 更好写作和编程的功能 Canvas。


OpenAI 的密集发布是为了追求更快的增长,也间接回应了过去一个月达到高峰的质疑。


更多数据、更多算力,训练更大规模的模型,就能显著提升能力。过去两年,大模型行业沿着这条经验总结前行:买 GPU 建更大的数据中心,不惜官司缠身也要采集更多数据,想办法扩大模型体量。


到了 11 月,越来越多的人说,成就 OpenAI 的这条路似乎撞到了墙:





多家媒体报道,Google、OpenAI、Anthropic 等公司,开发下一代模型时,都没能像前些年那样让模型能力大幅提升。


这些公司的高管否认了 “撞墙” 的说法,也有证据表明他们仍在想办法突破,毕竟建设更大规模的算力中心的势头并没有放缓,甚至还在加速。


他们同步在大模型应用上倾注更多的资源。从 OpenAI、Anthropic 到 Google、,再到风投机构,都把 Agent——让大模型理解人类指令,调度数据库和工具完成复杂任务的系统——当作下一个赛点。


同时,过去两年整个行业不留余力推广大模型应用的影响也开始显现。比如大模型领域最成熟的 AI 编程场景,开发者工具供应商 GitClear 分析了 2020 年以来其客户提交的 10 亿行代码数据,发现大模型编程应用普及期间,开发者复制粘贴整行代码的频率在提升。他们认为,这意味着开发者更频繁地添加 AI 生成的代码。


结果是,开发者提交代码两周内,恢复、删除或更新代码的比例增加了 39%。毕竟 AI 还是有幻觉。


这也成了新创业者的机会。专注 AI 编程工具开发的 Cursor 在 11 月拿到新一轮融资,估值达到 25 亿美元。他们在产品中引入自动审查、修复代码 bug 的功能,在微软、Google 等公司的合围中找到了发展路径。


中国公司很难在算力投资上与美国的大公司比较,但也在用力所能及的方法参与竞争。阿里巴巴、字节跳动、美团等公司正在硅谷积极招聘人才组建团队。11 月,阿里还在海外推出对话式 AI 搜索引擎 Accio。


以上只是 11 月大模型行业发生的部分变化。接下来,我们计划每个月发布一篇综述报道,力求完整地为大家介绍全球 AI 新风向。


除了技术、应用、投资、人才等领域的动向,我们还会重点关注整个行业如何应对变化,以及这些变化如何影响世界。


以下是我们第 1 期 AI 月报,记录 2024 年 11 月 AI 的进展。欢迎大家在留言区补充我们没有提到的重要进展。



技术丨大模型能力提升撞墙了?这里有一些新尝试



瓶颈的信号:OpenAI 新模型 Orion 性能提升不及前代


11 月,AI 行业讨论最多的话题,是大模型能力提升是否撞墙了。





历史新发现:百度早研究出了 Scaling Laws 的雏形


在这之前,大模型能力提升有一个明确的规律:即用更多数据、更多算力,训练更大规模的模型,就能显著提升能力,这被称为 Scaling Laws。


行业中普遍认为,这一规律由 OpenAI 的研究者在 2020 年发现,然后发扬光大。


11 月底,meta 的一位研究员发现,百度早在 2017 年,就在一篇论文中介绍了 Scaling Laws 的雏形。


当时百度在硅谷招揽了一批人才研究 AI,如顶级 AI 科学家吴恩达、Anthropic 创始人达里奥·阿莫迪(Dario Amodei)等。他们在一篇论文中介绍了用更多算力训练更大的模型会有更好的效果。


只不过他们的研究只在语音和文字上测试,没涉及语言处理,也没用上关键的 Transformer。后来达里奥·阿莫迪加入 OpenAI,与伊尔亚·苏茨克维等人继续推进研究,提出了 Scaling Laws。


瓶颈之后,可能的新方向


现在,Scaling Laws 似乎遇到了问题。


为什么这样也不难理解:整个行业缺乏新鲜的高质量数据训练模型——当前领先的大模型,已吞噬了市面上所有的公开(还有一部分非公开的)高质量数据。


1. 合成数据


许多公司在寻找新的办法解决数据问题。


如 OpenAI 就在用在 9 月发布的 o1 生成用来训练 Orion 的数据,这类数据被称为 “合成数据”。


合成数据并不完美,如果用不好很难提升模型的效果。OpenAI 训练 Orion 的结果并不理想就是一个例子。


2. 使用更高精度的数据


还有一部分研究者寻找其他路径提升模型性能,比如哈佛、斯坦福、MIT 等机构的研究者,在 11 月 7 日发布论文提出了一个现象:用更低的数据精度训练或推理语言模型,会影响质量,当前的 Scaling Laws 并没有考虑到这一点。


这里的精度,是指计算机表示数据的位数,最早的时候,研究者用 64 位字符串表示一个字,精度最高。近年来,为了提升大模型的速度,降低算力成本,许多公司减少到 32 位、16 位,到现在的 8 位,但精度也有损失,会影响模型的性能。


3. 从预训练到后训练


以上的尝试和合成数据,属于预训练(Pre-Training)阶段,还有一些研究人员专注后训练(Post-Training)阶段,让训练好的模型在解决问题时,能够发挥更好的效果,比如问模型一个问题数十次,甚至上百次,选择最好的答案。


相对主流的方法是让大模型回答问题时,用更多的时间 “思考”,也就是 OpenAI o1 的路线。Google、meta 等公司也在做同样的尝试。


在中国,从阿里巴巴、DeepSeek、月之暗面,再到上海 AI 实验室、昆仑万维等公司,都在 11 月发布了类似 o1 方向的模型,有些公司甚至给模型的名字加上了 o1,暗示能追上最新的技术。


大语言模型之外,Google 的 AI 量子工具


11 月 20 日,Google 量子 AI 和 DeepMind 在《自然》杂志上发布论文,介绍了一种命名为 AlphaQubit 的 AI 工具,能比现有方法更有效地减少量子错误(减少 6%、30%)。


量子计算时可能会受到各种因素的破坏出现错误,比如热量、振动、电磁干扰,甚至宇宙射线。当前量子计算机每次操作的错误率通常为 1% 到 10%,如果把它用于药物发现、材料设计和加密,错误率要低于 0.000000001%。



大模型竞争丨OpenAI 摇晃的第一


OpenAI 企业市场份额下降,从 50% 到 34%


因技术放缓,OpenAI 面临着来自同行越来越大的竞争压力:


11 月,非营利组织 METR 发布一项评估结果,解决 7 个人工智能研究问题时,Anthropic 的 Claude Sonnet 3.5,在其中 5 个中表现超过 OpenAI 的 o1-preview。


根据风投机构 Menlo Ventures 的数据,今年 OpenAI 在企业 AI 领域的市场份额从 50% 下降至 34%,而亚马逊支持的 Anthropic 的市场份额翻了一番,从 12% 增至 24%。


xAI、Anthropic、Writer 等大模型公司 11 月获新融资


OpenAI 依旧被投资人看好。o1 发布没多久,软银就宣布以 1570 亿美元的估值投资 OpenAI 5 亿美元。软银 CEO 孙正义还想要更多股份,11 月开始,他们正在花 15 亿美元从 OpenAI 员工手中收购股票。


一批大模型公司也在 11 月获得资本支持:





Sora 终开放,不再震撼;Runway、腾讯视频生成模型 11 月更新/发布


在图像和视频生成等模型方向,OpenAI 也同时面临内外挑战。11 月 26 日,一群拿到 OpenAI 视频生成模型 Sora 的艺术家组成的组织,在 Hugging Face 上公开了 Sora 的 API,供人调用。他们说,OpenAI 让他们免费给 Sora 找 bug,但并不注重创意表达和大家的批评,只顾着公关和宣传。


12 月初,OpenAI 终于发布 Sora,但已经没有初次亮相的惊艳感。


对手们并没有慢下来。过去这个月,Runway 上线视频拓展功能;腾讯开源视频生成模型 HunyuanVideo,旗帜鲜明对标 Sora。


多模态、具身大模型公司获融资






算力丨更多 GPU 放在一个地方的竞赛还在继续


大公司今年花了 2000 亿美元建算力中心,明年可能会加大力度


“对于大科技公司来说,资本支出是新的并购吗?”


11 月举办的高盛年度私营会议上,高盛的银行家提出了这样一个问题。他们发现,今年价值超过 5 亿美元的科技并购交易,一半以上由私募股权公司完成,远远高于历史正常水平,而大公司的并购支出下降了 56%,而主要用于建设数据中心的资本支出增加了一倍多。


大模型的能力提升速度有了放缓迹象,并没有打消整个世界的 AI 投资热情。大公司们还在用一种简单直接的方法衡量谁能在 AI 竞赛中获胜:能将最多的 GPU 放在一个地方的公司。


仅亚马逊、微软、meta、Google 四家公司,今年的资本支出就会超过 2000 亿美元。他们的高管们在 11 月称,明年会继续投资,甚至还会加大投资力度。


Anthropic 的 CEO 达里奥·阿莫迪在一档播客中说,2026 年将出现耗资超过 100 亿美元的计算集群,他说许多公司希望建立耗资 1000 亿美元的集群。


其中之一可能是 OpenAI,他们在 11 月发布的政策文件中呼吁建立 “北美 AI 契约”,提议建造一个可能耗资 1000 亿美元的数据中心。


竞赛催化剂:马斯克 122 天建成数据中心


埃隆·马斯克(Elon Musk) 7 月宣布用 122 天把一个家电厂房改造成 10 万张 H100 计算集群,并投入使用,相当于在科技行业扔下一枚炸弹。


“毫无疑问,没有人睡觉 ...... 据我所知,世界上只有一个人能做到这一点。” 英伟达 CEO 黄仁勋在一档播客中说,这种规模的 GPU 集群,通常需要三年时间设计、建造,然后再过一年才能投入使用。


The Information 在 11 月发布的一篇报道中提到,OpenAI CEO 山姆·阿尔特曼(Sam Altman)看到马斯克在 X 上发布的消息后,跟微软负责基础设施的高管发生了争执,他担心马斯克的 xAI 很快就会拥有比 OpenAI 更强的集群,发展速度更快。报道中还提到,因为戒备森严,有竞争对手乘坐直升机飞到马斯克建成的集群上方拍视频,试图了解更多信息。



沙特、波兰、日本宣布 AI 投资计划



还有一些政府宣布了 AI 投资计划:沙特阿拉伯计划向 AI 创业公司和数据中心投资 500 亿到 1000 亿美元;波兰宣布投资 2.44 亿美元开发波兰语大模型;日本宣布投入 650 亿美元支持芯片和 AI 等等。


对手在行动,英伟达也在扩张


英伟达是大公司数据中心竞赛中最大的受益者,为了保证竞争力,他们加快产品迭代的速度:从原来 2 年更新一代产品变成了 1 年一代。


今年 3 月发布 Blackwell 系列 GPU 是英伟达加快产品迭代速度的第一个尝试,本来计划年中交付,但它们在定制的服务器架上把 GPU 连接在一起会过热。英伟达多次要求供应商修改机架设计,一直拖到了 11 月,似乎还没有解决问题。


11 月,2020 年成立的芯片公司 Enfabrica 获得 1.15 亿美元 C 轮融资,开发用于 GPU 互联加速的网络架构芯片。一定程度上来说,它是英伟达 GPU 在网络芯片领域的竞争对手,认为自己能比英伟达更好地帮企业用好 GPU。


英伟达更直接的竞争对手也在积极行动。黄仁勋在这个月的英伟达日本峰会上调侃软银 CEO 孙正义:“你能想象,要是你成为了英伟达最大的股东会怎样?” 孙正义随即抱住黄仁勋,假装痛哭。这个活动举办的同时,软银收购的 AI 芯片公司 Graphcore 正在积极扩张,4 个月内增员 20%。


英伟达还在继续拓展产品线,其高管在 11 月说,计划明年上半年发布一款专门为机器人设计的芯片 Jetson Thor。英伟达显然不愿意错过任何一个技术热点——不管是不是泡沫,卖芯片总不会亏。



应用丨更多人用上大模型 ,Agent 成了下一个赛点


大模型融入工作和生活的进度表


ChatGPT 上线两年,大模型应用已成为许多人工作和生活的一部分:





比较有趣的一个报告来自协同办公应用 Slack,他们调查了 15 个国家的 1.7 万名员工在工作中使用 AI 的情况,11 月 19 日发布报告:





鲜明对比:不愿透露使用 AI 的白领、坦诚的苹果 AI 广告、态度积极的高管


Slack 还发现了一个现象:使用 AI 工作的员工中,有近一半(48%)不愿告诉领导自己在工作中用了 AI——他们担心领导觉得他们懒、骗人或无能。


相比他们的羞于启齿,苹果 11 月发布的 Apple Intelligence 广告显得无比坦荡:





广告结尾,苹果还配上了 “我是天才” 的背景乐。没什么意外,广告上线后就引起骂声一片。苹果没有下线这些广告,而是关上了广告视频的 YouTube 评论区。


企业高管使用 AI 似乎没那么大的心理压力。宾夕法尼亚大学沃顿商学院和咨询公司 GBK 调研了 800 名公司决策层,他们中近 72% 的人说自己每周至少用一次生成式 AI,与前一年相比翻倍增长。


AI 编程不完美,但它是竞争焦点


大公司高管不回避员工高频使用大模型应用,尤其是编程工作。Google CEO 桑达尔·皮查伊 (Sundar Pichai) 说,Google 四分之一以上的新代码是 AI 写的;微软高管也透露,AI 编程助手 GitHub Copilot 生成了自己启动文件中近一半的代码。


大模型还不完美。有资深的程序员曾告诉我们,他因为太信任 AI,过去一年写出来了不少 bug。


更多资源还在涌入 AI 编程领域。当前几乎所有开发大模型应用的公司,都推出了 AI 编程助手,并重点迭代。


11 月,OpenAI 把桌面版的 ChatGPT 与 VS Code、Xcode、TextEdit、Terminal 等编程工具打通,开发者不用把代码复制粘贴到 ChatGPT 应用中,就能调用 ChatGPT 处理代码。


除了开篇提到的 Cursor,还有两家 AI 编程创业公司获得了超过 5000 万美元的投资,但侧重有所不同:





不少国内的投资人也向我们透露了想要投资 AI 编程应用的想法。我们曾提及,月之暗面原 Noisee 产品负责人,1998 年出生的明超平在 9 月底离职后创业做 AI 编程。据了解,这家公司在 10 月到 11 月已完成两轮融资。


从 OpenAI 到苹果,推广大模型应用的各种方法


大模型行业的参与者,也都在积极探索新的方式,让更多人用上大模型应用。以下是部分头部公司在 11 月的动作:


OpenAI:与非营利组织 Common Sense Media 合作,发布免费在线课程,教中小学老师如何在上课的时候用 ChatGPT;考虑开发一款与 ChatGPT 结合的浏览器,还打算为旅游、食品、房地产和零售网站提供搜索功能,已经与部分公司接洽;把最新的模型 o1 推给企业客户,比如法律、医疗保健等行业。


微软:在协同办公应用 Teams 中测试 AI 翻译器,可以模仿说话人的声音,提供 9 种语言的实时翻译;推出 Azure AI Foundry,帮助客户构建 AI 应用程序;谈下农业公司拜耳,一起向农业领域客户销售 AI 服务。


Google:为 Gemini Advanced 付费用户推出名为 “记忆” 的功能,它可以记住用户透露的兴趣和偏好。


苹果:正在开发一款内置 Apple Intelligence 的壁挂显示器;开发对话版本的 Siri,想追上 ChatGPT 等产品。


Anthropic:在 Claude AI 中增加了自定义风格的功能,用户可以从默认的选项中选择语气,也可以训练它匹配自己的风格;与 Palantir 和 AWS 合作,为美国情报和国防机构提供 Claude 系列模型的访问权限。meta 也在做类似的事。


Perplexity:探索新的变现方法,在原来会员订阅的基础上加广告,推出购物模式等。这个月,它以 90 亿美元估值筹到 5 亿美元。


说到商业模式,这个月还有一家名为 ProRata.ai 的公司获得 1.3 亿美元融资,它于 2024 年成立,创始人是当年提出搜索引擎广告按点击收费的比尔·格罗斯(Bill Gross)。


他们想要建立大模型搜索引擎的商业模式:依靠算法把大模型输出的结果拆分,找到结果中使用的版权内容,根据比例向版权方付费。他们已经发布一款搜索引擎,还获得了《卫报》《金融时报》《财富》、 环球音乐集团等大型内容版权方的支持。


大小公司、投资机构都把目光放到了 Agent 上


整个行业还在投入更多的资源,让大模型能够独立做更多事情,新的竞争点在 11 月开始显现——Agent(智能体),让大模型充当调度员,理解用户的需求,自动调度数据库和工具完成复杂任务。


OpenAI 在去年 3 月发布 GPT-4 时,就在技术报告中展示了类似的能力:模型编造自己有视力障碍,让零工网站上的人帮它看验证码。


之后,不少公司,尤其是中国公司,号称开发 Agent,建立生态,但大多数都跟真正的 Agent 相差甚远,就是聊天助手套了一层皮。我们做过一个粗略的统计,中国大模型助手中的科比 “智能体”,加起来有数十上百个。


新一轮把 Agent 做成产品的竞赛,率先由 Anthropic 发起。他们在 10 月展示了让大模型 Claude 像人一样用电脑的能力。比如你想去看金门大桥的日出,它会打开浏览器-搜索网页-在地图中找最佳位置-规划路线-设置日程等。


10 月末,阿尔特曼在 Reddit 上举办的 Ask Me Anything 上说:下一个巨大突破将是 Agent。


进入 11 月,大模型公司做 Agent 的消息变多:OpenAI 一直在研究多个 Agent 项目,高管在内部说,要在明年 1 月发布一款名为 “Operator” 的 Agent,能帮人写代码、制定行程等;中国的大模型公司智谱也推出了 AutoGLM,称可以在手机上跨 App 执行任务,最长可以执行超过 50 个步骤等。


Anthropic 则是更进一步,提出一项大模型从业务工具、软件或数据库等提取数据完成任务的标准,称为 “模型上下文协议”(Model Context Protocol),将 Agent 竞争推进到下一个层次。


11 月还有一批 Agent 创业公司得到了大额融资:





YC 合伙人们在一档播客中说,硅谷孵化器充满着各种各样的 Agent 应用,这些创业公司希望将 Agent 用到招聘、入职、数字营销、客户支持、质量保证、债务等领域。他们认为,垂直行业的 AI Agent 很可能会成为新的 SaaS,预计诞生超过 300 家独角兽。


这些公司共同面临着来自大公司的压力。


Agent 可以充分发挥大模型的能力,但依赖 Google、meta、微软等大公司把持的软件生态。大公司们也在行动:11 月,微软推出一套 Agent 工具,可以帮用户自动发邮件,简化销售、供应链的任务等;Google 也计划发布一款 Agent 产品。


无人出租车在扩张、AI 制药公司在融资


大模型之外,AI 在各行各业的应用也在 11 月有新动向:


Waymo 向洛杉矶的所有乘客开放无人出租车服务,此前有 30 万人排队等着用;在旧金山,Waymo 的日均服务单量(8 月)约 8800,超过了出租车平均单量 6307 。


AI 制药领域,也有两家公司获得大额融资:





最后,一些使用大模型小技巧


除了这些由公司采取的动作之外,我们还在一些讨论中和报道中发现了开发者使用大模型的技巧:


不一上来就用单个昂贵的大模型解决问题,而是同时使用多个便宜的大模型。大致的过程是:把问题背景信息先给 Llama 或 Mistral 等开源模型,告诉它们你想做什么,让他们检索并总结这些文档中有助于了解关键信息的部分,重复这个过程获得精简的信息摘要,再喂给性能更好的模型,如此节省成本。


不同规模的大模型总结摘要的能力整体上相差不大。我们在今年 4 月的大模型评测中也证实了这一点,三星手机内置的本地大模型总结录音要点,基本不比 ChatGPT 差。


还有一个不少开发者常用、能激发大模型能力的提示词:if you don’t give me the correct answer, I will be fired。


*AI 月报是我们的一个新尝试,如果你有任何建议,欢迎跟我们交流。

题图来源:AI 生成

本文地址:https://sicmodule.kub2b.com/quote/10171.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号