美国田纳西州孟菲斯,全球最大超级计算中心 “Supercluster” 已于当地时间 7 月 22 日凌晨 4:20 正式开始运转。该项目隶属于马斯克旗下的 xAI。
埃隆·马斯克最近在社交平台 “X” 上宣布了这一消息。他表示,xAI 公司已开始在 “Supercluster” 上进行训练,该集群由 10 万个液冷英伟达(Nvidia)H100 GPU 组成,在单个远程直接数据存取(RDMA)结构上运行,号称是 “世界上最强大的 AI 训练集群”。
对比来看,OpenAI 训练 GPT4,需要用到 25000 块 A100GPU,约为前者的 1/20。
“它是世界上最强大的 AI 训练集群。” 马斯克声称,Supercluster 将全方位、深层次地参与并加速 “世界上最强大人工智能” 的训练过程。
从 GPU 规模上来看,这一集群已经全面超越了最新 Top500 榜单上的任何一台超级计算机,包括超过配备 37888 个 AMDGPU 的 Frontier、60000 个 IntelGPU 的 Aurora,以及 14400 个 NvidiaH100GPU 的 MicrosoftEagle,在规模和训练效率被公认为全球最强大的 AI 训练平台。
xAI 创始成员 TobyPhln 表示,“一年前创办这家公司时,我们的目标是实现三大优势:数据优势、人才优势和计算优势。从今天开始,我们拥有了这三项优势。” 马斯克随后转载了这一消息。
Supercluster 原定于 2025 年秋季启动,xAI 提前了一年实现该目标。
据福布斯报道,据大孟菲斯商会主席 Ted Townsend 透露,马斯克仅花费一周,就决定将他的人工智能初创公司 xAI 的新超级计算机建造在孟菲斯。
“经过 3 月份的几天旋风式谈判之后,马斯克和他的团队(其中包括他旗下几家公司的代表)选择了田纳西州的这座城市。” Ted Townsend 解释称,这里有充足的电力和快速建设的能力,该项目将价值数十亿美元。在选择孟菲斯之前,xAI 还与其他七八个城市进行了洽谈。
今年 6 月份,Ted Townsend 曾告诉彭博社,有关新厂的许多细节尚未披露,包括总成本和将创造的就业数量。他表示,该市还讨论了向 xAI 提供税收减免或其他商业激励措施,以吸引项目落户孟菲斯,但具体细节尚未敲定。
xAI 承包商将该项目称为 “巨人项目”(Project Colossus),源自于 1970 年的科幻电影《巨人:福宾计划》,讲述的是一个失控的人工智能被赋予美国核武库控制权的故事。“巨人,它能看到一切,感知一切,了解一切,控制所有武器和防御。当这个没有感情的造物成为人类的主宰时,结果将是灾难性的。”
然而,这一投资进程并不顺利。福布斯报道称,孟菲斯市议会的几名议员正在敦促该市叫停这项投资,议员们被排除在项目决策过程之外。当地民众对这笔交易偷偷摸摸的性质和数据中心对水电的需求感到担忧。
人工智能的发展正在对欧美国家带来巨大的电力负担。
根据国际能源署的数据,一次 ChatGPT 查询需要 2.9 瓦时的电力,与之相比,谷歌搜索仅需要 0.3 瓦时的电力。高盛研究部估计,2023 年至 2030 年间,人工智能所驱动的数据中心功耗每年总体增长约 200 太瓦时;到 2028 年,预计人工智能将占数据中心电力需求的 19% 左右。
据估计,xAI 孟菲斯工厂每小时可能使用高达 150 兆瓦的电力,相当于 10 万户家庭所需电量,而 xAI 预计每天至少需要 100 万加仑的散热水。这可能会对当地来说会造成巨大的负担。
xAI 为了达成这项协议,已口头承诺将改善孟菲斯的公共基础设施,以支持数据中心的发展,包括兴建一个新的变电站和一个污水处理设施。然而,这一举措并不能让当地人信服,马斯克此前在其他地方承诺的一些公共基础设施项目并未如约推进。
另一方面,马斯克从 OpenAI 高薪挖来的 Kyle Kosic,已于今年 4 月离职,重返 OpenAI。
伴随着非议,马斯克的 AI 梦想仍在快速前进。
当地时间 5 月 26 日,xAI 宣布完成 60 亿美元的 B 轮融资。
马斯克另外透露,xAI 的 Grok-2 模型在来自甲骨文的 2.4 万个英伟达 H100 芯片上进行训练,“可能准备下月发布”。此前,xAI 已经从甲骨文租用了大约 1.6 万颗 H100 芯片,成为该公司此类芯片最大客户。
6 月 19 日,马斯克在社交平台 X 上表示,戴尔正在组装 xAI 在建超级计算机的一半机架,日本 SMC 组装另一半。7 月 9 日,xAI 已结束与甲骨文扩大现有协议、租用英伟达芯片的洽谈。甲骨文在去年 9 月表示,将向 xAI 提供云基础设施以训练 AI 模型,但未透露合同价值和期限。今年 5 月有报道称,两家公司接近达成扩大合作关系的协议,xAI 将斥资约 100 亿美元向甲骨文租用云服务器、为期数年。
马斯克称,xAI 的 10 万个 H100GPU 已经投入到 Grok3 模型的专项训练中,预计将于今年 12 月前完成训练。
目前,xAI 已经发布了 Grok-1、Grok-1 等多个版本的模型。今年发布的 Grok-1.5 模型已具备长上下文能力,而 Grok-1.5V 则有了图像理解能力。
按照计划,xAI 将在 8 月份发布 Grok2。马斯克的最终目标是在今年 12 月之前训练出 “按每项指标衡量都是世界上最强大的人工智能”——Grok3。