谷歌 Gemini 拿下了 IMO 金牌,而且是官方認(rèn)證的那種。
經(jīng)過 IMO 官方裁判評(píng)分,Gemini 新模型答對(duì)了 6 道題中的 5 道,以 35 分的成績(jī)斬獲金牌。
去年三天摘銀,今年 4.5 小時(shí)奪金,DeepMind 的數(shù)學(xué)成績(jī)可以說是突飛猛進(jìn)。
除了 DeepMind CEO 哈薩比斯、谷歌 CEO 劈柴哥給團(tuán)隊(duì)發(fā)來賀電,馬斯克也發(fā)推表示了祝賀。
但 DeepMind 被夸得越好,OpenAI 就越發(fā)相形見絀,同樣是 AI 參賽 IMO,秘密搞事情也就算了,還為了營(yíng)銷跟人類青少年搶風(fēng)頭。
奧特曼治下的 OpenAI,最近除了丟人就丟人了。
DeepMind 官宣 AI 拿下 IMO 金牌
DeepMind 公告顯示,Gemini 新模型做對(duì)了今年 IMO 六道題中的五道,獲得了 35 分。
并且這一成績(jī),也獲得了 IMO 主席 Gregor Dolinar 的親自認(rèn)證:
我們可以確認(rèn),谷歌 DeepMind 已達(dá)到人們夢(mèng)寐以求的里程碑,獲得了 35 分(滿分 42 分)——堪稱金牌。
他們的解決方案在很多方面都令人驚嘆。IMO 評(píng)分員認(rèn)為這些解決方案清晰、精準(zhǔn),而且大多數(shù)都易于理解。
而去年 DeepMind 的銀牌成績(jī),是用 AlphaProof 和 AlphaGeometry 一起做了三天才獲得的。
這次不僅用時(shí)更短,答題過程也是全程自然語言、端到端完成,不再像去年那樣專門修改題目格式。
DeepMind 高級(jí)科學(xué)家兼 IMO 團(tuán)隊(duì)負(fù)責(zé)人 Thang Luong 表示,這與去年相比是一個(gè)范式轉(zhuǎn)變。
DeepMind 介紹,Gemini Deep Think 是一種針對(duì)復(fù)雜問題的增強(qiáng)型推理模式,融合了其最新的一些研究技術(shù),包括并行思維。
這種模式使模型能夠同時(shí)探索并組合多種可能的解決方案,最終得出最終答案,而不是追求單一的線性思維鏈。
為了充分利用 Deep Think 的推理能力,DeepMind 額外訓(xùn)練了 Gemini 的這一版本,使其能夠利用更多多步推理、問題求解和定理證明數(shù)據(jù)。
此外 DeepMind 還為 Gemini 提供了精選的高質(zhì)量數(shù)學(xué)題庫,并在其指令中添加了一些關(guān)于如何解答 IMO 題目的通用提示和技巧。
如哈薩比斯所說,該模型已經(jīng)提供給數(shù)學(xué)家等人群進(jìn)行小范圍測(cè)試,后續(xù)會(huì)開放給 Google AI Ultra 訂閱用戶使用。
DeepMind 宣布成績(jī),被硅谷夾道歡迎
包括來自友商的稱贊在內(nèi),DeepMind 獲得了整個(gè)硅谷的夾道歡迎。
除了開頭馬斯克那句簡(jiǎn)單的 Congrats 之外,還有 Meta AI 科學(xué)家稱贊 Gemini 給出了清晰、精準(zhǔn)、非常適合自學(xué)的解決方案。
Gemini 參加挑戰(zhàn)是受到了 IMO 官方邀請(qǐng),所有規(guī)則標(biāo)準(zhǔn)都和人類一致。
并且,DeepMind 也遵守了 IMO 官方的要求,沒有急于宣布結(jié)果。
哈薩比斯的三條回復(fù),主要強(qiáng)調(diào)了這么幾點(diǎn):官宣是沒有搶跑的,成績(jī)是 IMO 認(rèn)證的,模型也是未來可用的。
IMO 評(píng)審團(tuán)和協(xié)調(diào)員們普遍認(rèn)為,AI 開發(fā)商在 IMO 期間(尤其是閉幕式之前)宣布成績(jī)是 " 粗魯且不恰當(dāng)?shù)?"。
領(lǐng)導(dǎo) DeepMind 超級(jí)推理團(tuán)隊(duì)的 Thang Luong 補(bǔ)充,IMO 內(nèi)部其實(shí)有一份官方評(píng)分指南,外部無法獲取。沒有基于該指南的評(píng)分就沒有資格獲得獎(jiǎng)牌。
這屆 IMO 共 6 道題,每題 7 分。金牌線 35 分,OpenAI 自報(bào)的成績(jī)也剛剛過線,即使是解答過程中微小的扣分都可能讓 OpenAI 從金牌跌到銀牌。
總之是處處和谷歌對(duì)比鮮明。
OpenAI 研究員回應(yīng)質(zhì)疑
針對(duì)以上這些質(zhì)疑,OpenAI 研究員 Noam 在給谷歌送出祝福后,也順帶進(jìn)行了回應(yīng):
同時(shí) Noam 還公開了 OpenAI 模型的回答,表示任何人都可以檢查。
而 OpenAI 官宣的時(shí)間是在太平洋時(shí)間凌晨 1 點(diǎn),彼時(shí)頒獎(jiǎng)已經(jīng)結(jié)束,OpenAI 沒有被要求需要等到更晚的時(shí)間再發(fā)布。
小扎磨刀霍霍,人丟了。
谷歌同場(chǎng)競(jìng)技,丟人了。
Gemini 回答:
https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf
OpenAI 回答:
https://github.com/aw31/openai-imo-2025-proofs/
參考鏈接:
[ 1 ] https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/
[ 2 ] https://arstechnica.com/ai/2025/07/google-deepmind-earns-gold-in-international-math-olympiad-with-new-gemini-ai/
[ 3 ] https://x.com/demishassabis/status/1947337615054671882
[ 4 ] https://x.com/polynoamial/status/1947398531259523481
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
— 完 —
專屬 AI 產(chǎn)品從業(yè)者的實(shí)名社群,只聊 AI 產(chǎn)品最落地的真問題 掃碼添加小助手,發(fā)送「姓名 + 公司 + 職位」申請(qǐng)入群~
進(jìn)群后,你將直接獲得:
最新最專業(yè)的 AI 產(chǎn)品信息及分析
不定期發(fā)放的熱門產(chǎn)品內(nèi)測(cè)碼
內(nèi)部專屬內(nèi)容與專業(yè)討論
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見