在大型語言模型領(lǐng)域,一項(xiàng)創(chuàng)新研究引發(fā)了廣泛關(guān)注。北京大學(xué)與DeepSeek團(tuán)隊(duì)攜手合作,共同完成了一項(xiàng)具有突破性的研究,其成果以論文形式呈現(xiàn)。論文題為《基于可擴(kuò)展查找的條件記憶:大型語言模型稀疏性的新維度》(Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models),并于近日對外發(fā)布。
該研究的核心亮點(diǎn)在于提出了“條件記憶”(conditional memory)這一全新概念。與傳統(tǒng)大型語言模型架構(gòu)不同,研究團(tuán)隊(duì)引入了可擴(kuò)展的查找記憶結(jié)構(gòu)。這一創(chuàng)新設(shè)計(jì)在保持模型參數(shù)和算力不變的情況下,為模型性能帶來了顯著提升。具體而言,模型在知識(shí)調(diào)用、推理、代碼編寫以及數(shù)學(xué)運(yùn)算等多項(xiàng)任務(wù)中的表現(xiàn)均得到了大幅優(yōu)化。
值得一提的是,DeepSeek創(chuàng)始人梁文鋒也出現(xiàn)在了論文的合著作者名單之中,這無疑為這項(xiàng)研究增添了更多關(guān)注度。與此同時(shí),DeepSeek團(tuán)隊(duì)還同步開源了與該研究相關(guān)的記憶模塊Engram,為行業(yè)內(nèi)其他研究人員提供了進(jìn)一步探索和應(yīng)用的寶貴資源。















