OpenAI 聲稱擁有證據 指 Deepseek 用自家模型進行「蒸餾」
人工智能by
Antony Shum on 29 一月 2025
OpenAI 近日表示,已掌握證據顯示中國人工智能初創公司 DeepSeek 在訓練其開源競爭模型時,使用了 OpenAI 的專有模型,引發知識產權侵犯的疑慮。
「知識蒸餾」利用大模型提升小模型效能
OpenAI 透露,他們在 Deepseek 模型中發現了「知識蒸餾」(distillation) 技術的使用痕跡。這種技術讓開發者能透過較大型且更具能力的模型輸出,來提升小型模型的效能,以較低成本達到特定任務的相似結果。也就是說 OpenAI 認為他們本身的 GPT-4o 等大型模型被 Deepseek 透過「蒸餾」方式訓練模型,如果屬實,則有機會引起違反 OpenAI 使用守則的爭議。
一位與 OpenAI 關係密切的人士表示,知識蒸餾在業界是常見做法,OpenAI 也提供開發者在其平台上進行此操作,但問題在於使用這個方式建立自己的模型來作競爭,就違反了規矩。知情人士透露,Microsoft 和 OpenAI 去年秋天已經開始調查疑似為 DeepSeek 的帳戶使用 OpenAI API 的情況,並因懷疑違反服務條款的蒸餾行為而封鎖其存取權限。之前已經有人發現,Deepseek 模型有時會產生表示自己是 GPT-4 回應,顯示它可能有使用 OpenAI 的 GPT-4 輸出進行訓練。
做法本身存在已久
美國白宮 AI 和加密貨幣顧問 David O. Sacks 之前曾經表示,有大量證據顯示 DeepSeek 所做的事,就是從 OpenAI 模型中提煉知識,不過他當時並沒有直接提供證據。業內人士表示,無論是在中國還是美國,AI 實驗室普遍都會使用 OpenAI 等領先企業的輸出成果作訓練。大型科技企業一向投入大量資金聘請人員教導模型產生更人性化的回應,這是昂貴且勞力密集的過程,而小型企業則通常會借助他們的成果,不過今次 Deepseek 引起莫大的關注,才令這個做法受到注目。
DeepSeek 表示,他們僅使用 2048 張 Nvidia H800 顯示卡,花費 560 萬美元訓練具有 6710 億參數的 V3 模型,遠低於 OpenAI 和 Google 訓練同等規模模型的支出。其低成本開發的模型在評比中取得高分,成效可與美國領先模型相媲美。而且 Deepseek 的 API 收費比 OpenAI 等類似服務便宜得多,這消息導致 Nvidia 股價在週一暴跌 17%,市值蒸發 5890 億美元,主因是市場擔憂昂貴的人工智能硬體投資可能不再必要。
AI 業界反應不一
對於 Deepseek 模型的出現,美國科技界的反應不一,有對新的高成本效益技術出現表示興奮,認為有助未來 AI 發展的評論,也有質疑 Deepseek 是否真的有能力只使用如此少量的晶片建立這個模型的聲音,未來相信爭議仍然會持續,但不論 Deepseek 是如何訓練出這個模型,對於業界的衝擊已經是不容忽視,相信其他企業也會加速開發更具競爭力的方案。