埃隆·马斯克(Elon Musk)的xAI,近日宣布了其最新一代AI模型——Grok 2及其迷你版本的发布。这两款产品都将在马斯克的X社交媒体平台上供用户使用,标志着xAI在AI技术领域的又一重大突破。
根据加州大学伯克利分校的大型模型系统组织(LMSYS)的AI基准测试,Grok 2的表现几乎与OpenAI的GPT-4o相当。在数学和编码方面,Grok 2排名第二,在响应硬提示的能力方面排名第三,总排行榜上名列第三,仅次于ChatGPT 4.0和谷歌的Gemini 1.5 Pro。
xAI自己的数据显示,Grok 2的表现优于GPT 4 Turbo,略低于GPT 4o。尽管OpenAI的ChatGPT 4o在AI性能上仍占据领先地位,但xAI的早期版本Grok 2也展现出了强大的竞争力,其LMSYS ELO评分为1,281,而Gemini 1.5 Pro的中位数为1,297。
在聊天机器人性能方面,虽然Grok 2在“胜率”方面略逊于Gemini 1.5 Pro,但它在提高事实正确性方面取得了显著进展。xAI声称,与上一迭代相比,Grok 2和Grok 2 mini在事实正确性方面的胜率分别提高了62.9%和59.6%,这是一大关键改进。
Grok 2具备“文本和视觉理解方面的高级功能”,并使用了X上可用的数据。与此同时,Grok 2 mini则更面向一般消费者使用,支持写作、编码或生成文本提示响应等功能。