在人工智能領(lǐng)域,大模型的應(yīng)用成本一直是開發(fā)者關(guān)注的焦點(diǎn)。如今,一位知名程序員通過開源項目,讓大模型在本地運(yùn)行成為可能,這一突破引發(fā)了廣泛關(guān)注。
意大利程序員Salvatore Sanfilippo,即開源數(shù)據(jù)庫Redis的創(chuàng)始人,近日在GitHub上發(fā)布了一個名為ds4的項目。該項目是一個專為DeepSeek V4 Flash設(shè)計的推理引擎,僅需幾千行C代碼,就能讓這個模型在配備128G內(nèi)存的蘋果電腦上運(yùn)行。這一成果意味著,開發(fā)者無需再為使用大模型而支付高昂的token費(fèi)用,真正實(shí)現(xiàn)了“零成本”本地部署。
DeepSeek V4 Flash雖然開源,但其FP16精度的原始模型對硬件要求極高,內(nèi)存需求高達(dá)284G,顯存需求更是達(dá)到160G。這意味著,想要運(yùn)行它,開發(fā)者需要配備兩張英偉達(dá)A100 80GB顯卡、512GB DDR5 ECC內(nèi)存以及4TB NVMe SSD,總成本約50萬元人民幣。而如今,通過ds4項目,一臺價值3萬元的MacBook Pro就能輕松勝任。
ds4之所以能實(shí)現(xiàn)這一突破,得益于其獨(dú)特的技術(shù)優(yōu)化。首先,它采用了不對稱的2-bit量化策略,僅對模型中的“候補(bǔ)專家”部分進(jìn)行激進(jìn)壓縮,而保留關(guān)鍵路徑上的組件原始精度不變。這種策略既減小了模型體積,又保證了推理質(zhì)量。其次,ds4將KV Cache搬到了SSD上,利用現(xiàn)代Mac SSD的高速性能,實(shí)現(xiàn)了長上下文的高效處理。最后,ds4還采用了純metal原生路徑,專門為蘋果芯片優(yōu)化,使得模型在蘋果電腦上的運(yùn)行速度大幅提升。
在M3 Max 128GB的MacBook Pro上,ds4的實(shí)測速度達(dá)到每秒生成26個字左右,而在M3 Ultra 512GB的Mac Studio上,這一速度更是提升至每秒36個字。雖然這一速度對于日常寫代碼、調(diào)試等任務(wù)已經(jīng)足夠,但與云端大模型相比仍有差距。不過,考慮到其零成本的本地部署優(yōu)勢,這一速度已經(jīng)足夠吸引大量開發(fā)者。
ds4項目的發(fā)布,不僅為開發(fā)者提供了新的選擇,也為DeepSeek帶來了新的機(jī)遇。YC的CEO Garry Tan在社交媒體上轉(zhuǎn)發(fā)了這一消息,并表示正在下載嘗試。他指出,100萬token的上下文窗口和可用的編程助手能力,全部集成在一臺128GB的MacBook Pro上,這一成果令人驚嘆。
對于DeepSeek來說,ds4項目的出現(xiàn)意味著其模型在海外開發(fā)者中的認(rèn)可度進(jìn)一步提升。一個知名開發(fā)大佬愿意為你的模型寫專用引擎,這本身就是對其技術(shù)實(shí)力的肯定。這種認(rèn)可比單純的模型跑分或API調(diào)用量更有價值,因為它代表著模型被真正嵌入到了開發(fā)者的工具鏈中。
然而,ds4項目的出現(xiàn)也給DeepSeek帶來了一定的挑戰(zhàn)。目前,DeepSeek的核心商業(yè)化路徑是API服務(wù),開發(fā)者按token付費(fèi)使用。而ds4項目的出現(xiàn),使得部分開發(fā)者可能會選擇本地部署模型,從而減少對API服務(wù)的依賴。這將對DeepSeek的商業(yè)模式產(chǎn)生一定影響。
ds4項目采用的量化方法雖然減小了模型體積,但也帶來了一定的質(zhì)量損失。有開發(fā)者測試發(fā)現(xiàn),ds4本地量化版本在處理超2000行代碼的文件時,偶爾會出現(xiàn)變量作用域丟失或幻覺增多的問題。這可能會影響開發(fā)者對模型的信任度,進(jìn)而對DeepSeek的口碑產(chǎn)生負(fù)面影響。
盡管如此,ds4項目的出現(xiàn)仍然為DeepSeek提供了新的故事和機(jī)遇。它證明了DeepSeek的模型具有足夠的吸引力和潛力,能夠吸引頂級開發(fā)者為其開發(fā)專用引擎。這對于DeepSeek在尋求融資和拓展生態(tài)位方面無疑是有利的。同時,ds4項目也引發(fā)了關(guān)于開源模型商業(yè)化路徑的深入思考,為整個行業(yè)提供了新的啟示。















