chen2929 發達集團總裁
來源:財經刊物   發佈於 2025-05-01 05:36

暴漲逾5%!小米開源首個推理大模型MiMo 參數超越OpenAI跟阿里Qwen

鉅亨網編譯陳韋廷 綜合報導  2025-04-30 17:00

暴漲逾5%!小米開源首個推理大模型MiMo 參數超越OpenAI跟阿里Qwen (圖:shutterstock)


小米 (01810-HK) 今 (30) 日發布首個為推理而生的大模型「MiMo」,其中強化學習訓練的 MiMo-7B-RL 模型在數學推理 (AIME 24-25) 和代碼競賽 (LiveCodeBench v5) 測評中,僅用 7B 的參數規模,超越 OpenAI 的 o1-mini 和阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。受此消息提振,小米股價終場收高 5.27%,市值重回 1.29 兆港元。

MiMo 系列模型由小米新成立的大型模型 Core 團隊研發,包含 4 款開源模式,分別為基礎模式、SFT 模式、強化學習模式等,均以 Apache 2.0 協定發佈於 Hugging Face 平台,其推理能力的躍升源自於預訓練與後訓練階段的多維度創新。



在預訓練階段,透過挖掘富推理語料,並合成 200B tokens 數據,結合三階段混合訓練策略,逐步提升模型對複雜推理模式的理解能力。團隊也引進多 token 預測目標,加速推理效率。

後訓練階段則採用自研 Seamless Rollout 強化學習框架,整合非同步獎勵運算與提前終止功能,使訓練速度提升 2.29 倍。針對數學與程式碼推理,團隊設計 Test Difficulty Driven Reward 演算法,解決獎勵稀疏問題,並精選 13 萬道高品質題庫驗證模型效能。

多項權威評測中,MiMo-7B-baxse 與強化學習版本 MiMo-7B-RL 表現亮眼。在數學推理,AIME 2025 測驗得分超越阿里 QwQ-32B-Preview,BBH 基準達 75.2 分,領先 Qwen2.5-7B 近 5 分。程式碼能力上,在 LiveCodeBench v6 測試中,MiMo-7B-RL 得分超過 OpenAI o1-mini,32K 長上下文任務表現接近完美。

泛化表現上,在 SuperGPQA 研究生級問答、DROP 閱讀理解等測驗中,MiMo-7B 系列全面優於 Llama-3.1-8B 等同類模型。

值得注意的是,MiMo-7B-RL 僅需單卡即可運行,其經濟高效特性契合端側部署趨勢,而 OpenAI o1-mini 則需要依賴雲端算力。

小米此次開源不僅包含模型權重,也公開 26 頁技術報告揭露資料合成、強化學習架構等核心細節。此舉被業界視為是對標國際大廠開源策略的重要佈局,有望加速國產推理模型的迭代。

分析師指出,MiMo 的輕量化設計貼合邊緣運算需求,可望推動 AI 在消費性電子、IoT 等場景的落地。

目前,大模型領域正從「比拼參數規模」轉向「追求推理能力與經濟性」。小米 MiMo 以 7B 參數實現 32B 模型效能,印證「小模型也能做大事情」的產業新方向。

小米 Core 團隊表示,MiMo 證明預訓練資料品質與後訓練演算法連動的價值,未來將持續優化模型推理效率,探索多模態場景應用。隨著開源生態壯大,國產大模型或將在技術創新與產業落實中實現雙重突破。

評論 請先 登錄註冊