近日,全球最大API聚合平臺OpenRouter上,一款代號為“Hunter Alpha”的神秘大模型引發廣泛關注,其曾一度登頂大模型調用榜,眾多網友紛紛猜測它是“DeepSeek V4”的早期版本。就在眾人熱議之時,小米于凌晨正式宣布認領該模型,并同步推出MiMo-V2-Pro、Omni和TTS三款大模型,用戶可限時免費體驗一周。
小米MiMo大模型負責人羅福莉隨后發布長文,稱這是小米首款專為智能體時代打造的全棧產品系列。她將此次成果形容為一次“悄無聲息的伏擊”,強調并非小米事先精心策劃,而是從聊天模式到智能代理模式的轉變太過迅速,連團隊自身都感到意外,這一過程既充滿激動與痛苦,又極具吸引力。
據羅福莉介紹,1T基礎模型早在幾個月前就已開始訓練,最初目標是提升長上下文推理效率。團隊采用的混合注意力機制帶來了真正創新,既不過度擴張,又成為智能體時代最合適的基石。該模型具備1M上下文窗口,通過MTP推理實現了超低延遲和成本。這些架構決策并非臨時起意,而是在需求出現前就構建好的結構性優勢。
真正帶來變革的是羅福莉首次體驗復雜智能體框架時,她將其稱為“精心編排的語境”。體驗第一天,她就大為震驚,并試圖說服團隊采用,但未獲成功。于是她下達強硬指令,要求MiMo團隊成員第二天對話次數必須超過100次,否則可辭職。這一舉措奏效,團隊成員的想象力被智能體系統的功能激發后,直接轉化為研究速度的提升。
當被問及小米為何能發展如此迅速時,羅福莉結合自身構建DeepSeek R1的經驗總結道:骨干網和基礎設施研究周期漫長,需要一年戰略決心才能看到回報;訓練后敏捷性是不同能力,產品直覺驅動評估,迭代周期縮短,范式轉變能及早發生;同時,好奇心、敏銳技術直覺、果斷執行力和全身心投入不可或缺;還有一點常被低估,即對所創造世界的真摯熱愛。
羅福莉還承諾,新的MiMo-V2系列模型在足夠穩定、值得開源時將會開源。















