YouToCoin報道:
特斯拉和 xAI 首席執行官埃隆馬斯克預計將於周三在直播中發布 Grok 4,這可能會顯著推動人工智能領域的發展。
新版本將於太平洋時間晚上 8 點左右發布,有望成為該平台迄今為止最雄心勃勃的模型——超越承諾的 Grok 3.5,挑戰 OpenAI 的主導地位。
ChatGPT 製造商繼續對其下一個版本 GPT-5 保密,首席執行官 Sam Altman 暗示可能會在夏季發布。
這對馬斯克來說無疑是個好消息,他抓住了這次機會,擊敗了公司最強勁的競爭對手。
Grok 4 的到來引發了一些猜測泄露的基準測試表明它在人類的最後考試中得分為 45%,而 Gemini 2.5 Pro 的比例為 21%。
據稱,該模型在 AIME'25 上的準確率達到了 95%,在 GPQA 上的準確率達到了 88%,這些数字使其能夠與目前最好的模型相媲美。
這非常了不起:人類的最後考試是一個旨在對人工智能模型進行高度挑戰的基準,旨在直觀地展示模型距離實現 AGI 和類似人類的推理還有多遠。
就上下文而言,OpenAI 處於深度研究模式,使用瀏覽和 Python 工具,得分不超過25%.
但原始分數只反映了部分情況。Grok 4 分為兩種截然不同的性格:用於日常任務的通用模型和“Grok 4 Code”,這是 xAI 專為開發人員設計的專業編碼伴侶。
API 用戶已經在控制台列表中發現了編碼變體“grok-4-code-0629”,這表明該公司一直在與選定的合作夥伴對其進行測試。
xAI 工程師 Tim Li 表示:“Grok 4 的智能將無與倫比。”聲稱在宣布這一消息之前,他指出了球隊精簡的架構和非傳統的訓練方法。“世界還沒有準備好接受這種模式,”他說。
這種誇耀聽起來像是典型的硅谷炒作,但 Grok 確實曾讓業界感到驚訝。
還記得 Grok 2 以代號“sus-column-r”悄然進入 LMSYS Chatbot Arena 嗎?
它位居排行榜榜首,擊敗了 Claude 和 GPT-4,其 Elo 分數引起了創意作家的注意。
模型理解上下文比 ChatGPT 更好,並且生成了開發人員真正想要使用的代碼,至少在 Claude 3.5 Sonnet 出現並再次提高標準之前是這樣。
還有什麼好東西?愛好者們希望看到更大的令牌上下文窗口。
目前只有 130,000 個令牌,與 GPT-5 預期的 100 多萬個令牌相比,令牌上下文窗口可能看起來很適中,但 xAI 針對速度而非大小進行了優化。
當將 AI 集成到實時應用程序中時,實時性能至關重要,早期測試人員報告稱,Grok 4 處理請求的速度明顯快於其競爭對手。
此外,xAI 似乎正在實施盡可能多的優化,以使模型能夠更有效地處理這些 token。當前系統提示已重新設計優化以獲得更短的答案而不失去實用性。
有關特斯拉整合的傳聞又增添了麻煩。泄露的UI元素這表明 Grok 可能會進入車輛系統,提供其他汽車和卡車尚未具備的獨特語音激活功能。
遊戲是 Grok 能夠勝任的另一個領域。埃隆·馬斯克宣布谷歌計劃成立一個遊戲實驗室,鼓勵人工智能驅動的遊戲開發,而遊戲愛好者們也期待 Grok 4 能夠兌現這一承諾。信不信由你,埃隆承諾,第一款使用 Grok 開發的 3A 遊戲可能會在明年發布。
當今的人工智能模型能夠生成休閒遊戲(貪吃蛇、小型模擬器、井字遊戲),但仍然太原始,無法生成具有一流圖形、複雜邏輯和精緻玩法的更複雜的遊戲。
OpenAI 即將推出的 GPT-5 也是有前途多模式功能可能會超越目前的任何功能,具有原生視頻處理和自適應推理模式,可根據用戶需求進行調整。
然而,承諾如今對開發人員沒有幫助,而 Grok 4 的即時可用性使其在快速發展的人工智能市場中具有關鍵優勢。
Grok 4 的成功或許取決於其專業化的方法。而 GPT-5專為滿足 OpenAI 的需求而設計每日用戶數達 1.23 億xAI 似乎瞄準的是其相對較小的每日 700 萬用戶:需要可靠代碼生成的開發人員、需要快速實時處理,以及不太重視過濾響應的用戶。
值得注意的是,xAI 的快速發布周期——從 2023 年 11 月的 Grok 1 到 2025 年 7 月的 Grok 4——即使對於 AI 開發來說也是相當快的。
該公司使用20萬塊Nvidia GPU目前擁有馬斯克調用“全球最強大的人工智能訓練集群。”
來源:Arxiv
與 X 實時數據的集成提供了另一個優勢。其他模型依賴於定期更新的靜態訓練數據,而 Grok 則直接從平台提取當前信息。
在重大新聞事件或熱門話題期間,這種實時感知能力就成為一項顯著的優勢。
如果 xAI 重複其商業模式,早期訪問權限可能會提供給 X Premium+ 訂閱者和 SuperGrok 用戶,隨後 API 可用性將很快公布。
開發人員已經可以在 xAI 控制台中看到 Grok 4 和 Grok 4 Code 的佔位符條目,這表明基礎設施已準備好立即部署。