chen2929 發達集團總裁
來源:財經刊物   發佈於 2025-01-25 07:58

瘋狂分析DeepSeek?傳mexta整個AI部門陷恐慌

鉅亨網新聞中心  2025-01-25 06:15

傳mexta AI部門正在積極分析DeepSeek(圖:Shutterstock)


據《觀網財經》,中國 AI 公司 DeepSeek 正撼動美國矽谷同行的信心。周四 (23 日) 在美國匿名職場論壇 TeamBlind 上,一名自稱 mexta(mexta-US) 員工發文稱「mexta 生成式 AI 部門陷入恐慌」引起廣泛討論。該員工聲稱,從 DeepSeek 發布 DeepSeek-V3 開始,就已經讓 mexta 的 Llama 4 在各項測試中處於落後,「更糟糕的是,這間不知名的中國公司僅為此花費了 550 萬美元。」

該名自稱 mexta 的員工指出,「mexta 生成式 AI 部門裡的每位高層薪資都超過了這個數字」,「而我們卻有幾十位這樣的高階主管,我根本無法想像該如何向公司高層證明部門目前高額成本的合理性。」

該員工透露,目前 mexta 的工程師正在瘋狂研究分析 DeepSeek 的成功,並試圖從中複製任何能複製到的東西。「然而,當 DeepSeek-R1 發布時,事情變得更加可怕了」,該員工表示雖然不能透露太具體,但有些事情很快將會公開。

最後該員工反思稱,mexta 的生成式 AI 部門本該是一個以工程為重點的小型組織,但因為很多人都想進來分一杯羹,人為膨脹了組織規模,到最後人人都是輸家。目前尚無法確認該篇文章的真實性。mexta 後續回應值得關注。

這篇文章中提及的 DeepSeek-V3 於去年 12 月 26 日對外發布,該模型一發布就站上了開源模型 No.1 的位置。根據當時 DeepSeek 公布的技術報告數據,mexta 公司的 Llama 3.1-405B 僅在大規模多任務理解數據集 MMLU-Pro 一項,接近 DeepSeek-V3 水平,其餘多項幾乎都不及八成,甚至在算法類在程式碼場景和工程類別程式碼場景下,Llama 3.1-405B 只有 DeepSeek-V3 的一半等級。

而在 1 月 20 日,DeepSeek 對外正式發表 DeepSeek-R1,官方技術報告的測試所對照模型中,僅 OpenAI 公司閉源的 OpenAI o1 模型,以及 DeepSeek-v3 等自家模型。而在上一輪 DeepSeek-V3 測試中所對照的 mexta、Anthropic 等公司模型,此時早已不見蹤影。

最重要的是,DeepSeek-R1 以及 DeepSeek 同期提及的 DeepSeek-R1-Zero 模型,首次讓整個產業清楚看到,大模型如何僅靠大規模強化學習(RL)驅動、在沒有人類標註數據冷啟動(SFT)情況下,實現持續自我成長。簡單說,DeepSeek-R1 的意義就相當於讓 Goolge 的圍棋軟體 AlphaGo 從零開始自己與自己下棋,並透過試誤自學達成如今的水平,但期間卻不向 AlphaGo 提供任何人類大師的下棋思維訊息。

而在成本方面,DeepSeek 雖然未透露 DeepSeek-R1 的訓練花費,但 DeepSeek-v3 的總訓練時長則為 278.8 萬 GPU 小時 (其中預訓練占 266.4 萬小時),使用 2048 塊輝達 H800 GPU,耗時約兩個月完成。與之相比,同樣開源的 Llama 3.1-405B 卻消耗了 3080 萬 GPU 小時,成本是 DeepSeek-V3 的 11 倍。甚至 OpenAI 公司的 GPT-4o 的模型訓練成本也達 1 億美元,這與 DeepSeek-V3 訓練花費的 557 萬美元相差巨大,也讓「花小錢辦大事」成為 DeepSee 的重要標籤。

評論 請先 登錄註冊