科技圈最近被DeepSeek的動(dòng)向攪得熱火朝天,市場(chǎng)目光全聚焦于此,各類關(guān)于其估值溢價(jià)以及與國(guó)產(chǎn)算力芯片適配的傳聞鋪天蓋地。在這股狂熱浪潮中,大眾的關(guān)注點(diǎn)大多集中在“百萬(wàn)上下文”這一吸睛標(biāo)簽,或是跑分榜單上那微乎其微的分?jǐn)?shù)差距,卻忽略了這家機(jī)構(gòu)背后更深層次的戰(zhàn)略布局。
從技術(shù)報(bào)告來看,DeepSeek V4 - Pro成績(jī)斐然。在SimpleQA - Verified測(cè)試中,它以20個(gè)絕對(duì)百分點(diǎn)的優(yōu)勢(shì)遙遙領(lǐng)先所有開源對(duì)手;在Codeforces代碼競(jìng)賽里,預(yù)期評(píng)分與GPT - 5.4持平。不過,在世界知識(shí)廣度上,它稍遜于Gemini - 3.1 - Pro;面對(duì)極高難度復(fù)雜任務(wù)時(shí),與Claude Opus 4.6也存在細(xì)微差距。但這些分?jǐn)?shù)層面的比較,并非DeepSeek的核心追求。
大模型領(lǐng)域的發(fā)展風(fēng)向已然改變。過去幾年,行業(yè)熱衷于比拼參數(shù)數(shù)量和跑分高低,將模型層作為競(jìng)爭(zhēng)焦點(diǎn)。然而,這種模式已走到盡頭。DeepSeek V4的出現(xiàn),為行業(yè)樹立了新標(biāo)桿,它表明模型只是高效工程系統(tǒng)的附帶產(chǎn)物,真正的競(jìng)爭(zhēng)已轉(zhuǎn)向系統(tǒng)層。
DeepSeek V4在設(shè)計(jì)上展現(xiàn)出獨(dú)特的反直覺理念,其中Pro和Flash的共生關(guān)系尤為引人注目。傳統(tǒng)認(rèn)知中,“Pro”與“Flash”常被視為不同定位的產(chǎn)品,前者用于樹立標(biāo)桿,后者用于開拓下沉市場(chǎng)。但在DeepSeek V4這里,二者并非簡(jiǎn)單的算力降級(jí)關(guān)系,而是驗(yàn)證同一底層邏輯的對(duì)照組。
大模型以往的長(zhǎng)文本能力,主要依賴大量顯存堆砌,只要GPU和顯存足夠,就能處理長(zhǎng)文本,但成本高昂,難以在商業(yè)環(huán)境中廣泛應(yīng)用。V4 - Pro擁有1.6T總參數(shù)和49B激活參數(shù),將容量推向極致。而真正令人驚艷的是V4 - Flash,它僅有284B總參數(shù)和13B激活參數(shù)。在眾多高難度測(cè)試中,13B激活參數(shù)的Flash - Base竟超越了上一代37B激活參數(shù)的V3.2 - Base。這充分證明,算力霸權(quán)并非不可打破,通過架構(gòu)重構(gòu),能在極小激活代價(jià)下實(shí)現(xiàn)高效能力,參數(shù)規(guī)模不再是決定性因素,調(diào)度能力成為新的競(jìng)爭(zhēng)關(guān)鍵。
在軟件效率方面,DeepSeek V4在“后訓(xùn)練”階段也進(jìn)行了大膽創(chuàng)新。傳統(tǒng)大模型“后訓(xùn)練”常用的混合強(qiáng)化學(xué)習(xí)(Mixed RL),如同“和稀泥”,在讓模型具備多種能力時(shí),會(huì)導(dǎo)致特化能力被磨平,最終成為平庸的通才。V4則另辟蹊徑,先獨(dú)立培養(yǎng)各類專家,如數(shù)學(xué)專家專注算數(shù),代碼專家專注編程,將單一能力發(fā)揮到極致。在合并階段,摒棄業(yè)內(nèi)常用的參數(shù)平均法,采用同策略蒸餾(OPD)。傳統(tǒng)權(quán)重合并是靜態(tài)妥協(xié),而OPD是動(dòng)態(tài)接管,統(tǒng)一模型在生成軌跡時(shí),遇到不同問題精準(zhǔn)引入相應(yīng)專家梯度,各司其職,避免參數(shù)沖突。
V4應(yīng)用端的“三種推理模式”(無(wú)思考、高強(qiáng)度思考、極限思考),并非簡(jiǎn)單的界面功能,而是OPD機(jī)制在產(chǎn)品端的直接體現(xiàn)。在極限思考模式下,模型會(huì)強(qiáng)制分解問題、窮盡邊緣情況,這種“死磕”行為源于OPD階段對(duì)“數(shù)學(xué)專家”和“編程專家”的高強(qiáng)度訓(xùn)練。
對(duì)于長(zhǎng)上下文的應(yīng)用,DeepSeek V4也給出了切實(shí)可行的方案。在真實(shí)商業(yè)場(chǎng)景中,Agent需要完成重構(gòu)代碼、跨系統(tǒng)驗(yàn)證數(shù)據(jù)等復(fù)雜任務(wù),過程中“失憶”問題嚴(yán)重影響效率。V3.2就存在新消息打斷導(dǎo)致思考痕跡清空的痛點(diǎn),對(duì)于長(zhǎng)時(shí)間運(yùn)行的Agent任務(wù),一旦中斷需從頭開始,這在實(shí)際業(yè)務(wù)中難以接受。V4提出的“交織思考”策略,根據(jù)場(chǎng)景靈活處理。在帶工具調(diào)用的長(zhǎng)程場(chǎng)景中,跨越消息邊界時(shí)完整保留推理鏈條;閑聊場(chǎng)景則清空以節(jié)省算力,讓模型學(xué)會(huì)“在合適場(chǎng)合記住關(guān)鍵信息”。
V4在快速指令(Quick Instruction)方面也有創(chuàng)新。傳統(tǒng)意圖識(shí)別依賴外部小模型,每次新請(qǐng)求都需重新處理提示詞,浪費(fèi)預(yù)填充計(jì)算。V4直接在輸入序列末尾插入隱式指令,復(fù)用主模型的海量特征(KV Cache),避免冗余計(jì)算,為長(zhǎng)程Agent運(yùn)行提供有力支持。
在部署層面,DeepSeek V4同樣展現(xiàn)出嚴(yán)謹(jǐn)?shù)墓こ虘B(tài)度。文檔中提到自動(dòng)生成的kernel與手寫CUDA逐位比對(duì),確保精確無(wú)誤,這種對(duì)工程細(xì)節(jié)的執(zhí)著,為部署計(jì)算提供了可靠保障。面對(duì)高并發(fā)的百萬(wàn)上下文場(chǎng)景,DeepSeek V4列出三種調(diào)度策略,各有優(yōu)劣。“完全緩存”追求計(jì)算零冗余,但可能因高頻寫入擠爆固態(tài)硬盤I/O通道;“定期檢查點(diǎn)”保護(hù)硬盤,卻需GPU為丟失的尾部數(shù)據(jù)善后;“零緩存”省下存儲(chǔ)帶寬,但依賴GPU現(xiàn)場(chǎng)硬算。這三種策略反映了硬件壽命、并發(fā)峰值和用戶延遲容忍度之間的復(fù)雜權(quán)衡,凸顯出AI產(chǎn)業(yè)正從算力密集型向調(diào)度密集型轉(zhuǎn)變。















