鉅亨網編譯羅昀玫 2025-03-26 05:35
Google推出最先進AI模型Gemini 2.5 (圖:Google)
Google 週二 (25 日) 推出其最新人工智慧 (AI) 模型
Gemini 2.5 Pro Experimental,展示更深入的推理和提高響應準確性,代表其 AI 能力的重大飛升。
自從 OpenAI 於 2024 年 9 月推出首個 AI 推理模型以來,科技業一直在競相用自己的模型來匹敵或超越該模型的能力。如今,Anthropic、DeepSeek、Google 和 xAI 都擁有 AI 推理模型。
Google 指出,Gemini 2.5 Pro Experimental 是其最先進的推理模型,可推理程式碼、數學和 STEM 中的複雜問題,並使用長脈絡分析大型資料集、程式碼集和文件。
新一代 AI 模型建立在 Google 早期的強化學習和思維鏈 (CoT) 提示的基礎上,這在 Gemini 2.0 Flash Thinking 中首次實現。
Gemini 2.5 系列將增強基礎模型結合精密的後訓練技術,使其能夠解決越來越流行的挑戰,並支援更有能力的情境應用程式。
Gemini 2.5 Pro Experimental 展現卓越的推理能力,特別是在數學和科學推理基準 (如 GPQA 和 AIME 2025) 方面的表現出色,而無需依賴昂貴測試時間增強技術。
Google 強調,Gemini 編碼能力大幅提升。 2.5 Pro 模型擅長於建立視覺上已成熟的 web 應用程式和已成熟的程式碼結構,同時也展示了程式碼轉換和編輯任務的熟練程度。
Google 聲稱,Gemini 2.5 Pro 在多個基準測試中的表現均優。在衡量軟體開發能力的測試 SWE-bench Verified 中,Gemini 2.5 Pro 的得分為 63.8%,優於 OpenAI 的 o3-mini 和 DeepSeek 的 R1,但低於 Anthropic 的 Claude 3.7 Sonnet,後者的得分為 70.3%。
Aider Polyglot 的程式碼編輯評估中,Gemini 2.5 Pro 的得分為 68.6%,超過了 OpenAI、Anthropic 和中國人工智慧實驗室 DeepSeek 的頂尖人工智慧模型。
在著名的「人類的最後考試」中,Google 表示,Gemini 2.5 Pro 的得分為 18.8%,優於 OpenAI、Anthropic 和 DeepSeek 的領先 AI 模型。
為了因應 AI 模型迭代的速度,由致力於降低 AI 風險的非營利機構 Center for AI Safety,以及為企業與政府機構評估與建立 AI 系統的新創 Scale AI 聯手,囊括來自全球超過 50 個國家、500 間大學與學術機構,1000 名左右的教授和研究者,來設計這組跨學科的「人類的最後考試」。
Gemini 2.5 具有原生多模態處理和 100 萬個 token 的擴展上下文視窗,這意味著 AI 模型可以在一個提示中吸收大約 75 萬個單字,而且 200 萬個 token 上下文視窗即將推出。
這使得模型能夠處理和理解來自不同來源的大量資料集,包括文字、音訊、圖片、影片和整個程式碼庫,並且效能比早期版本有所提高。
Gemini 2.5 Pro 目前可透過 GoogleAI Studio 和 Gemini Advanced 訂戶的 Gemini 應用程式取得。Google 計劃很快透過 Vertex AI 使用這款模型,客製化細節將在未來幾週內公布。
Google 母公司 Alphabet (
GOOGL-US) 收紅超 1.7% 報每股 170.56 美元,今年迄今跌幅超 9%。