
劃重點:
1、OpenAI 官宣GPT5發布會將于北京時間周五的凌晨1 點開始。目前有三個版本:GPT-5;GPT-5-mini; GPT-5-nano。就在GPT5官宣前,OpenAI的最大競爭對手谷歌和Anthorpic,先后發布重磅新品,把這場AI競爭的強度直接拉滿。
2、三個半小時內,谷歌DeepMind發布Genie 3、Anthorpic發布Claude Opus 4.1、OpenAI開源2個推理模型。谷歌Genie 3成為最大贏家,一句話+分鐘級的“世界模擬器”吸足眼球,并且被稱為通往AGI關鍵的一塊拼圖。
3、OpenAI時隔6年再度開源,但在整體AI進程中略顯滯后之態。開源兩個性能逼近其閉源SOTA模型的gpt-oss,能幫助OpenAI在開源社區中重新建立領導地位和話語權。有一點可以肯定:GPT-5只是新戰局的起點,而不是終點。
作者 林易
編輯 重點君
OpenAI 官宣:LIVE5TREAM(直播)將在周四上午 10 點(太平洋時間),也就是北京時間周五的凌晨 1 點開始。并且,從 OpenAI 官網能看到 GPT-5 的圖標已經確認。目前有三個版本:GPT-5;GPT-5-mini; GPT-5-nano。
而就在這場萬眾期待的發布會前夜,OpenAI的兩大競爭對手——谷歌DeepMind與Anthropic,先后發布重磅新品,把這場AI競爭的強度直接拉滿。
北京時間8月5日晚10:03,到8月6日1:26,在大洋彼岸的硅谷,上演了一場耗時整整3個小時23分鐘的AI版《三國殺》。
谷歌先手,以“世界模擬器”Genie 3一騎絕塵,一句話生成分鐘級、720p的3D世界。
Anthropic緊隨其后,發布最新Claude Opus 4.1,直接拿下最強AI編程的王座。
雖未等到GPT-5,但OpenAI以一手時隔6年的再次開源吸足目光,一口氣開源2個推理模型,性能接近o4-mini。

從世界模型,到變成模型,再到開源的推理模型,三個AI大模型玩家的一晚上的交鋒,可謂是吊足了全球科技圈的胃口。
那么隨之而來的問題是,這場AI版的《三國殺》,到底誰才是最大贏家?我們這就逐一來細看。
新一代通用世界模型Genie 3:一句話生成可交互3D世界
谷歌DeepMind發布的Genie 3,最大的亮點,就是一句話可以生成逼真的3D世界,像這樣:

從結果上來看,Genie 3支持的畫質可以達到720p,每秒24幀,實時可導航;并且在保證一致性的情況下可以分鐘級生成。

但最讓網友感到驚艷的,還是它的效果。例如在時長和畫質方面,兩代Genie的表現差距可以說是一目了然。
Genie 3不僅畫質明顯高清,當Genie 2已然結束交互時,Genie 3還能繼續交互很長時間,它的每一幀都是根據用戶的操作即時創建的:
在長時間保持一致性方面,下面這個例子顯得尤為驚艷。因為不論你如何在墻上畫漆,鏡頭再轉回來時,視覺記憶依舊是可以被追溯。這種能力對于對于AI Agent學習世界知識是至關重要的。
而且你也可以實時地用Prompt來改變3D世界,例如改變天氣、插入新的角色等等,這就讓動態交互直接上了一個層次。
不僅如此,DeepMind還表示,Genie 3將推動具身智能的發展。
為了測試Genie 3所創建世界是否適合未來用于訓練智能體,DeepMind用它生成了一些世界,并讓通用型3D虛擬環境智能體SIMA在其中進行嘗試。
在每個世界中,DeepMind給這個智能體設定了一些不同的目標,它通過向Genie 3發送導航動作來嘗試完成這些目標。就像其他環境一樣,Genie 3并不知道智能體的目標,它只是根據智能體的操作來模擬接下來的情景。
例如在我們選擇“走向攪拌機”后,Genie 3會根據智能體的走近,實時創建3D世界的細節內容。
有網友看罷,在Reddit上評價稱“這是通往AGI最后的一塊拼圖”,而這也與谷歌的期待一致,即希望這項技術在人類邁向AGI的過程中發揮關鍵作用。 Claude Opus 4.1:AI編程SOTA新王誕生 在Genie 3之后,就是Anthropic發布的Claude Opus 4.1,一舉拿下AI編程的SOTA,而且是加量不加價的那種。 在與OpenAI o3和Gemini 2.5 Pro相比,在多項基準測試中取得領先: 最令人關注的,還是Claude Opus 4.1在編程上的能力,在SWE-bench上,Opus 4.1超越Opus 4、Gemini 2.5 Pro、o3,將性能提升至74.5%,拿下新SOTA。 也有網友已經展開了一波實測,從變成效果來看,Claude Opus 4.1是在比對的效果里最符合物理效果的那一個。對此,網友呼吁“選AI編程模型還得選靠譜一點的”,這也暗指了Opus 4.1性能的強悍。
不過除了上面兩張評測表格之外,Anthropic這次發布動作的新博客,似乎就沒有更多具備實際意義的內容。
這也讓網友不僅感慨:“這也值得搞個新發布嗎?”、“似乎是在其它AI玩家快節奏下的無奈之舉”。
時隔6年OpenAI再度開源:GPT-oss雙模型亮相
AI《三國殺》最后登場的OpenAI,它的發布可以說是更加具備時代意義。
因為OpenAI上一次的“open”還是在2019年的GPT-2,時隔6年之久,這一次它一口氣開源了兩款大模型:
·gpt-oss-120b:擁有1170億參數,采用MoE架構,實際運行時激活的參數大約為51億。它可以在一張80GB顯存的GPU上運行。
·gpt-oss-20b:擁有210億參數,同樣采用MoE架構,激活參數約為36億。它可以在僅有16GB內存的消費級設備上運行。

從評測結果來看,gpt-oss-120b性能已經接近閉源的o4-mini模型;而gpt-oss-20b的性能則是接近了o3-mini。

更具體一點的,gpt-oss-120b在競賽編程(Codeforces)、一般問題解決(MMLU和HLE)和工具調用(TauBench)方面優于OpenAI o3-mini,與o4-mini相當或更好。

在健康相關查詢(HealthBench)和競賽數學(AIME 2024 & 2025)方面,gpt-oss-120b甚至超越了o4-mini。gpt-oss-20b在相同評估中與OpenAI o3-mini相當或更好,尤其是在競賽數學和健康領域。

從整體表現來看,這兩個gpt-oss模型在工具使用、少樣本函數調用、鏈式推理(比如在Tau-Bench智能評估中的得分)以及HealthBench健康任務上都表現非常出色,甚至超越了一些閉源模型,包括OpenAI的o1和GPT4o。
與Claude Opus 4.1的博客不同的是,gpt-oss的博客是包含了相對詳盡的技術原理。
gpt-oss系列模型采用了OpenAI最先進的預訓練和后訓練方法,重點強化推理能力、運行效率以及在真實環境中的實用性。
模型采用類似GPT3的注意力機制結構——交替密集與局部稀疏帶狀注意力。為了提升推理速度和節省內存,它們還引入了分組多查詢注意力機制(組大小為8),并使用RoPE(旋轉位置編碼)來表示位置信息,最多可以支持長達128k的上下文輸入。
訓練數據主要以英語為主,內容重點覆蓋STEM學科、編程相關和通識類知識。在分詞階段,模型使用了一個基于o4-mini和GPT4o所用分詞器改進的版本(o200k_harmony),這個分詞器將在發布當天一同開源。
這兩個模型在后訓練階段采用了與o4-mini相同的流程,包括有監督微調和高強度的強化學習步驟。OpenAI 的目標是讓模型符合其內部的質量標準,包括在生成答案前學會使用鏈式思維(Chain-of-Thought,CoT)和自動調用工具。
在整個過程中,團隊應用了OpenAI目前最強的推理技術,使得這兩個模型具備了非常出色的智能表現。
和OpenAI API中的o系列模型一樣,這兩個開源模型也支持三種推理強度模式:低、中、高,方便用戶在延遲和性能之間靈活權衡。開發者只需在系統提示中簡單寫一句話,就可以指定所需的推理強度,使用非常方便。
AI《三國殺》,到底哪家強?
在看完三家一晚上的AI角逐之后,現在,是時候來定奪此局的勝負。
從產品在X上發布的熱度來看,Genie 3獲得1.2萬贊,Anthropic僅9.5K贊,gpt-oss則是拿下1.9萬贊。
在這個維度上,OpenAI在熱度上無疑是人氣上的贏家。

但從產品后續的討論度和長遠價值來看,谷歌絕對是戰略上大獲全勝的玩家。
因為Genie 3的發布,它意義遠不止于一個更強大的視頻或3D模型。它是一個“世界模擬器”,能夠從零開始創造可交互、有記憶、且邏輯一致的虛擬世界。這不僅是技術上的巨大飛躍,更是戰略上的深遠布局。
正如我們剛才提到的,DeepMind已經開始利用Genie 3來訓練其通用智能體SIMA,這證明了它作為“AI Agent訓練場”的巨大潛力。
網友評價其為“通往AGI最后的一塊拼圖”,這恰恰點明了它的核心價值——它為實現更高級別的具身智能和通用人工智能鋪平了道路,其想象空間是三者中最大的。
其次是Anthropic。
盡管它的發布本身略顯倉促,甚至被網友質疑為“快節奏下的無奈之舉”,但Claude Opus 4.1的實力不容小覷。它在AI編程這個垂直且至關重要的領域,以74.5%的驚人準確率登頂SWE-bench,一舉拿下了“最強編程AI”的王座。
這是一種非常務實的勝利,在AI應用落地的關鍵環節占據了制高點。雖然發布形式簡單,但其展現的硬實力足以讓它在特定市場站穩腳跟。
OpenAI的關注度在于它的姿態和影響力。開源兩個性能逼近其閉源SOTA模型的gpt-oss,是對社區的巨大回饋,也是對其“Open”初心的回歸。
這一舉動不僅能激活龐大的開發者生態,催生出無數創新應用,更能幫助OpenAI在開源社區中重新建立領導地位和話語權。
不過有一說一,當谷歌和Anthropic在實打實地推進AI技術的進程,OpenAI開源的動作似乎略顯滯后,畢竟若是把范圍擴大到全球,尤其是聚焦國內AI大模型玩家,開源這件事已經是走在了OpenAI前面。
至于目前估值5000億美元的OpenAI能否再扳回一局,支撐天價估值,就要看GPT-5的表現了。
有一點可以肯定的是:GPT-5,只是新戰局的起點,而不是終點。