新聞專員 發達公司課長
來源:財經刊物   發佈於 2025-02-03 20:08

AI晶片商Cerebras:企業客戶對DeepSeek需求暴增

2025-02-03 14:14:59 記者 郭妍希 報導
AI晶片新創商Cerebras已開始在美國伺服器為用戶提供中國AI新創DeepSeek的服務,並稱企業客戶對DeepSeek的需求暴增。
Fortune 31日報導,Cerebras製造的是超大晶片、擅長快速的AI推論任務,而非AI模型訓練。該公司宣稱,旗下硬體執行700億個參數DeepSeek「R1」中型模型的速度,比最快GPU高了57倍。

Cerebras執行長Andrew Feldman受訪時表示,他的企業客戶對DeepSeek極為熱情。DeepSeek的AI模型因號稱能以極低成本進行訓練、應用,效能媲美OpenAI等對手的「推理」模型,對市場頗具破壞性。他說,DeepSeek釋出R1十天後,「我們迎來了暴增的需求。」

為演示Cerebras伺服器上DeepSeek的運行速度,Feldman現場指示該模型以Python語言撰寫一款西洋棋遊戲,結果僅花1.5秒便完成,而OpenAI的「o1-mini」推理模型卻要花22秒才能透過傳統GPU完成相同任務。(由於OpenAI模型屬於封閉系統,無法直接在Cerebras硬體上測試,因此難以進行完全等效的比較。)

Feldman強調,在數學與編程任務上,DeepSeek表現較o1更優異。對於某種類型的任務,「你能更快獲得更精確的答案。」

然而,DeepSeek也有嚴重的安全隱憂及偏見問題。透過DeepSeek官方app或網路介面使用R1時,該模型對於北京當局視為敏感的議題會自我審查。此外,DeepSeek也被證明存在漏洞、容易被操縱,有心人士可利用這個模型生成像是炸彈製作指南等內容。美國海軍已禁止職員使用。

Feldman表示,DeepSeek如今已是全世界最受歡迎的app,若直接使用,資料勢必會被傳回中國。他要大家「別這麼做」,建議選擇由美國企業託管的大型語言模型(LLM),例如Cerebras、Perplexity等業者。

雖然Feldman坦言DeepSeek確實存在部分問題,但使用者只需保持基本的判斷力即可。他比喻說,「當你使用電鋸時,應該穿戴鋼頭靴和護目鏡。但這不代表你不應使用電鋸,而是要謹慎使用。」

值得注意的是,DeepSeek宣稱的成本優勢仍存在爭議。該公司號稱旗下效能媲美OpenAI聊天機器人「ChatGPT」的AI模型「V3」,訓練的硬體費用只有557.6萬美元、僅使用2,048顆輝達(Nvidia)「H800」繪圖處理器(GPU),成本遠低於美國科技巨擘,引起全球嘩然。然而,晶片顧問機構Semianalysis最新分析卻發現,DeepSeek的硬體支出其實「遠超過5億美元」。

MarketWatch專欄作家Jurica Dujmovic發文指出,DeepSeek的AI模型「R1」透過蒸餾(distillation)與量化(quantization)技術,能在消費者等級的電腦執行,這暗示AI有望逐步民主化。隨著更具效率且開源的模型問世,過去曾是專有封閉市場的AI,如今有望跨入主流運算。

何謂蒸餾?根據微軟(Microsoft)資深機器學習工程師Vishal Yadav、應用科學家Nikhil Pandey的說法,「蒸餾是一種將大型預訓練模型(即教師模型)的知識轉移到較小模型(即學生模型)的技術,能使學生模型達到與教師模型相當的效能」。「這項技術讓使用者能夠利用大型LLM的優質輸出,同時透過較小的學生模型降低推理成本。」

(圖片來源:shutterstock)

*編者按 :本文僅供參考之用,並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力,自行作出投資決定,如因相關建議招致損失,概與《精實財經媒體》、編者及作者無涉。

評論 請先 登錄註冊