DeepSeek新研究Engram架構：為AI裝上“百科全書” 提升推理與知識能力-生活家電-虎科技

手機版

虎科技 - 領先的互聯網科技媒體

DeepSeek新研究Engram架構：為AI裝上“百科全書” 提升推理與知識能力

時間：2026-01-14 07:26 來源：快訊作者：陸辰風

人工智能領域再迎突破性進展，DeepSeek研究團隊聯合北京大學在GitHub平臺發布了代號為“Engram”的最新研究成果，同步公開的學術論文《基于可擴展查找的條件記憶：大語言模型稀疏性的新維度》引發學界與產業界的廣泛關注。這項研究在傳統混合專家模型（MoE）之外開辟了新的技術路徑，通過構建顯式知識檢索機制，為提升大語言模型效率提供了全新范式。

當前主流大模型普遍采用MoE架構，其通過條件計算機制在推理階段僅激活部分參數，有效降低了計算成本。但研究團隊指出，現有架構存在根本性缺陷：模型記憶知識的方式仍依賴隱式存儲，回答"法國首都"這類簡單問題時，需通過多層注意力機制進行復雜矩陣運算，如同用超級計算機計算加減法。這種設計導致模型被迫用大量算力"死記硬背"固定事實，既浪費資源又限制了復雜邏輯處理能力。

針對這一痛點，Engram架構創新性地將自然語言處理中的N-gram模型與深度學習結合，構建了基于哈希映射的可學習向量檢索系統。該模塊嵌入Transformer主干網絡后，形成"檢索-融合"雙階段工作流：首先通過多頭哈希將局部上下文壓縮為檢索鍵，實現近似O(1)時間復雜度的查表操作；隨后利用上下文感知門控機制，將檢索到的靜態記憶向量與動態隱藏狀態進行加權融合。這種設計使模型在處理已知知識時直接調用記憶庫，將算力集中于未知問題的邏輯推演。

實驗數據顯示，在總參數量和計算量恒定的條件下，當20%-25%的稀疏參數分配給Engram模塊時，模型性能呈現最優"U型曲線"。基于此發現的Engram-27B模型，在知識密集型任務中表現尤為突出：MMLU基準測試得分提升3.4分，中文CMMLU基準提升4.0分。更令人意外的是，該模型在復雜推理任務中也取得顯著進步，BBH基準提升5.0分，代碼生成任務Humaneval提升3.0分，展現出記憶模塊對邏輯能力的正向促進作用。

進一步的可解釋性分析揭示，Engram通過承擔基礎語言模式記憶任務，有效增加了模型的"有效深度"。傳統模型底層網絡忙于構建詞法組合等淺層特征，而引入Engram后，這些固定模式通過查表直接獲取，使主干網絡得以將更多資源投入高層語義理解。這種計算與記憶的解耦，使模型在不增加層數的情況下，實現了推理能力的質的飛躍。

在工程實現層面，Engram架構展現出突破性的基礎設施適配能力。其確定性哈希檢索機制支持預取策略，使系統能在正式計算前確定所需記憶向量。實驗證明，1000億參數的記憶表可完全存儲于CPU內存，通過PCIe通道異步傳輸至GPU，僅增加不到3%的推理延遲。這種存儲-計算解耦方案，為構建TB級超大規模記憶庫提供了可行路徑，有望顯著降低算力集群建設成本。

隨著Engram與年初發布的流形約束超連接（mHC）技術相繼問世，DeepSeek-V4的架構輪廓逐漸清晰。新架構將融合mHC優化專家間通信效率，同時引入Engram作為獨立記憶模塊，形成"動態計算+靜態檢索"的協同工作模式。這種仿生設計借鑒了人類大腦"海馬體負責記憶、新皮層負責計算"的分工原理，為構建更高效、更博學的人工智能系統指明了方向。

更多>同類內容

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

2025小紅書熱門行業崛起：六大領域數據飆升	AI浪潮下百度人才戰略升級：MTS管培生擴招1
鈦動科技：以智能引擎驅動科技潮牌出海，解	從文庫“變身”到搜索“蝶變”，百度AI重構

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

DeepSeek新研究Engram架構：為AI裝上“百科全書” 提升推理與知識能力