谷歌DeepMind與香港大學聯合研發的“草稿紙分塊”(Scratchpad Patching,簡稱SP)技術,為字節級語言模型的發展開辟了新路徑。這項以預印本形式發布于arXiv平臺(編號2605.09630)的研究,通過創新機制解決了傳統模型在處理長字節序列時的效率與質量矛盾,為AI文本處理提供了更通用的解決方案。
傳統語言模型依賴分詞器將文本切割為詞語片段,但面對罕見詞、外語或代碼時,分詞錯誤常導致模型理解偏差。字節級模型雖能繞過分詞器,直接處理計算機存儲的最小單位——字節,卻面臨序列長度激增帶來的計算成本問題。例如,一段文本的字節序列長度可能是詞語序列的三到四倍,直接處理會大幅增加模型負擔。
為平衡效率與質量,研究人員提出“分塊”策略,將連續字節打包為“補丁”供模型處理。然而,這種策略引入了新問題——“補丁滯后”:模型預測當前字節時,只能依賴上一個補丁的舊信息,而非當前補丁內已處理的部分。這種信息延遲在補丁較大時尤為明顯,導致預測質量下降。例如,固定16字節分塊的模型在自然語言任務中的準確率比不分塊的字節級模型低約6個百分點。
SP技術的核心在于“邊讀邊記草稿”。與傳統模型僅在補丁結束時生成總結不同,SP允許在補丁內部特定位置提前匯總已讀字節,形成臨時草稿供模型參考。這些草稿僅用于當前計算,不會被永久存儲,因此不增加內存占用。實驗表明,SP使模型在預測時能依賴更近的“匯報”,顯著緩解了信息滯后問題。
研究團隊設計了一套精巧的訓練方案,確保草稿機制的高效實現。訓練時,草稿狀態被展開并拼接至主干網絡輸入,通過并行計算避免時間成本增加;推理時,草稿即用即棄,僅保留正式補丁狀態,內存開銷與普通模型持平。SP采用基于預測熵的觸發策略,僅在模型不確定度高時生成草稿,避免不必要的計算。例如,在英文文本中,草稿觸發點多集中在單詞邊界或罕見詞首字母,符合人類閱讀習慣。
在統一測試框架下,SP技術展現了顯著優勢。實驗覆蓋代碼生成、自然語言理解等任務,參評模型包括純字節級模型、傳統分詞器模型及四種分塊策略家族(固定大小、SpaceByte、基于熵、H-Net)。結果顯示,所有分塊策略在加入SP后,質量均顯著提升,而內存占用保持不變。例如,固定16字節分塊模型在加入SP后,自然語言任務準確率從48.0提升至54.2,接近不分塊的字節級模型(54.1),同時內存占用仍小16倍。
代碼生成任務中,SP的增益更為突出。固定8字節分塊模型在MBPP測試集上的通過率從24.1提升至32.1,Humaneval測試集從13.0提升至15.9;固定16字節分塊模型的通過率分別從18.2提升至27.5,從10.5提升至14.8。自然語言理解任務中,SpaceByte加SP的平均準確率從54.5提升至56.2,熵分塊加SP從53.2提升至55.3,部分簡單分塊策略的性能甚至超越復雜策略,表明SP可能重新定義分塊策略的重要性。
針對“SP是否僅通過增加計算量提升性能”的質疑,研究團隊進行了等算力對比實驗。結果顯示,在固定大小、SpaceByte、熵分塊三種策略中,SP版本在相同計算量下的驗證集比特數(BPB)均優于非SP版本,證明其提升源于計算資源的針對性分配,而非單純增加算力。唯一例外是H-Net策略,其學習型補丁邊界與SP的熵觸發機制存在位置偏移耦合,導致部分計算重復。
多語言測試中,SP技術縮小了模型對非英語語言的性能差距。在FLORES-200數據集的200種語言評估中,純字節級模型因不依賴語言特定規則表現最穩,傳統分詞器模型因訓練語料偏英語表現較差,而加入SP的補丁模型整體排名提升,與純字節級模型的差距顯著縮小。
SP的另一實用優勢是推理靈活性。傳統補丁模型的補丁大小在訓練時固定,部署后無法調整;SP模型則允許在推理時動態調節補丁大小或草稿頻率,無需重新訓練。例如,調高熵觸發閾值可減少草稿生成,提升推理速度;調低閾值則增加草稿密度,提高質量。這種調節能力為模型在不同場景下的部署提供了彈性空間。
盡管SP技術已取得突破,研究團隊仍指出其局限:訓練階段草稿狀態會增加計算量,需探索更高效的草稿設計;當前草稿更新規則較簡單,未來可借鑒循環神經網絡優化;SP在多層級補丁架構中的系統性研究尚屬空白;與H-Net的兼容性問題也需進一步解決。這些挑戰為后續研究指明了方向。
















