原文:Microsoft Says Latest AI Models Beat Claude, Google's Nano Banana
将 Decrypt 添加为您的首选来源,以便在 Google 上查看我们的更多故事。
简而言之,微软表示,其新的 MAI-Thinking-1 模型在盲评估中优于 Anthropic 的 Claude Sonnet 4.6,并在领先的编码基准上与 Claude Opus 4.6 相匹配。
该公司表示,其 MAI-Image-2.5 模型在图像编辑排行榜上超越了谷歌的 Nano Banana 2。
此次发布标志着微软在与 OpenAI 合作的同时,在开发专有前沿人工智能模型方面做出的最雄心勃勃的努力。
在周二年度 Microsoft Build 活动的第一天,Windows 开发者推出了 7 个新的 AI 模型,声称它们在盲测和图像编辑基准测试中优于 Anthropic 的 Claude Sonnet 4.6 和 Google 的 Nano Banana 2。
这一声明发布之际,微软正试图将自己打造成前沿人工智能开发商,而不仅仅是 OpenAI 最大的支持者和基础设施提供商。
微软人工智能首席执行官穆斯塔法·苏莱曼 (Mustafa Suleyman) 在 X 上写道:“今天非常兴奋地宣布七种新的世界级 MAI 模型。它们代表了我们认为的人工智能新时代,旨在让你保持掌控并处于前沿。”
该版本的核心是 MAI-Thinking-1,这是一种推理模型,微软将其描述为其旗舰文本基础模型。
七款新车型在 Build 上发布:出发吧!
推理。代码。图像。录制。嗓音。在干净的数据沿袭上从头开始构建,专为提高效率而设计,作为一系列模型无缝工作 Thread #MSBuild pic.twitter.com/g3WQIcIQ24 — Microsoft AI (@MicrosoftAI) 2026 年 6 月 2 日
Suleyman 表示,在独立评估者进行的盲测中,MAI-Thinking-1 优于 Anthropic 的 Claude Sonnet 4.6。他补充说,该模型在 AIME 2025(衡量高级问题解决和推理技能的基准)上得分为 97%。
Suleyman 表示,SWE Bench Pro 结果使该模型“在最严格的编码基准之一上与 Opus 4.6 并驾齐驱”。
该公司还推出了MAI-Code-1-Flash,一款轻量级编码模块