鉅亨網編譯段智恆 2025-04-17 01:36
OpenAI發布新AI模型o3與o4-mini 首度具備圖像推理能力(圖:REUTERS/TPG)
美國人工智慧 (AI) 公司 OpenAI 於周三 (16 日) 正式推出全新一代模型「o3」,並同步發表體積更小、成本更低的「o4-mini」。這兩款模型為 OpenAI 首度具備「以圖像進行推理」能力的系統,象徵其在多模態 AI 領域邁出重要一步。
與過去僅能處理文字輸入的模型不同,o3 能夠分析白板筆記、手繪草圖、簡單圖表等視覺資訊,即使畫質不佳也能理解其邏輯關係。OpenAI 表示,這代表模型不只是「看懂圖片」,而是能將圖像資訊整合進邏輯推理流程中,進一步提升處理複雜問題的能力。
根據 OpenAI 的說明,o3 特別優化於數學解題、程式設計、科學應用與視覺理解任務,並具備執行圖像旋轉、放大與標註等功能。o4-mini 則主打更快的運行速度與更低的成本,適合開發者與商業用戶部署在彈性預算的場景中。
兩款模型已即日起開放給 ChatGPT Plus、Pro 與 Team 方案的用戶使用。
OpenAI 執行長阿特曼 (Sam Altman) 也於 X(前推特)上幽默表示:「我們會在夏天之前解決命名混亂的問題,大家可以再笑我們幾個月沒關係」,回應社群長期以來對模型命名如 o1、o2、GPT-4.1 的玩笑聲浪。
目前 OpenAI 的估值約達 3000 億美元,為全球生成式 AI 領域的領頭羊。自 2022 年底推出 ChatGPT 以來,公司積極拓展 AI 的多模態應用,從文字擴展至語音、圖像甚至影片生成。根據官方說法,o3 是首款能自主調用 ChatGPT 所有內建工具的模型,包括 Python 運算、網頁查詢、圖像生成與分析,使其能處理跨領域、跨步驟的複雜任務。
值得注意的是,OpenAI 過去幾週也針對其安全機制進行多項調整。官方表示,o3 與 o4-mini 已通過其「歷來最嚴格」的安全測試,並遵循最新更新的「準備度框架」。然而,OpenAI 同時也宣布未來部分微調模型將不再強制發布完整安全測試報告 (Model Card),此舉引發外界對其安全標準可能放寬的質疑。
儘管面臨監管與道德風險的雙重壓力,OpenAI 此次發布的新模型,顯示其持續朝著更高推理能力、更深整合應用,以及邁向自主 AI 的方向快速邁進。