基於校準的混合專家語言模型專家剪枝
獨立研究
2026 年 2 月
本文提出一種透過選擇性移除專家來壓縮混合專家(MoE)語言模型的框架,其中專家的重要性透過推理過程中的實際表現進行衡量。不同於基於靜態模型參數估計重要性的權重方法,我們的校準方法透過在多樣化工作負載上的實際推理來對專家進行評分,產生顯著更準確的重要性排序。我們引入三種互補技術:層自適應專家分配,允許每層根據其敏感度保留不同數量的專家;語言感知專家保護,在壓縮過程中檢測並保護語言專門化的專家;以及 Zerobias 路由器最佳化,一種零成本的後處理步驟,透過中和過時的路由器偏置來恢復剪枝懸崖點的品質。我們在三個模型系列上驗證了本方法:GPT-OSS-20B(無損壓縮,MMLU 78% 保持在 10.4 GB)、Qwen3-30B-A3B(語言感知剪枝,MMLU 79% 含思考模式在 14 GB)以及 Qwen3-Coder-Next 80B(50% 剪枝,MMLU 72% 在 24.4 GB)。在所有模型中,我們發現了一種普遍的剪枝懸崖現象,即品質在狹窄的剪枝範圍內從保持完整急劇轉變為完全崩潰,並證明專家重要性分布的基尼係數可以預測懸崖的陡峭程度。我們的框架不需要 GPU 訓練,不需要梯度計算,在消費級硬體上一小時內即可完成。
1. 引言
混合專家(MoE)語言模型透過每個 token 僅激活其總參數的一小部分來實現前沿級別的品質。近期模型如 DeepSeek-V3(總計 671B,活躍 37B)、Qwen3-Coder-Next(總計 80B,每 token 約 3B 活躍)和 GPT-OSS-20B(總計 21B,活躍 3.6B)表明,MoE 架構能以推理成本的一小部分達到或超越密集模型的水準。然而,其總參數量—量化後往往達數十到數百 GB—超出了消費級硬體的記憶體容量。
現有壓縮技術解決了大小問題,但未利用 MoE 模型呈現的結構性機會。訓練後量化(GPTQ、AWQ、GGUF Q4)對所有參數均勻地降低精度,將模型視為一個整體區塊。知識蒸餾可以產生較小的學生模型,但需要昂貴的重新訓練。兩種方法都未能利用區分 MoE 與密集模型的基本特性:存在離散的、獨立參數化的專家子網路,可根據其功能貢獻選擇性地保留或移除。
我們提出基於校準的專家剪枝:透過在代表性工作負載上的實際推理來衡量專家重要性,然後從每層中移除最不重要的專家。此方法直接操作量化後的 GGUF 模型檔案,不需要反量化、不需要梯度計算,也不需要重新訓練。輸出為一個每層專家數更少的有效 GGUF 檔案,可立即進行推理。
我們的貢獻包括:
- 基於校準的重要性評分,顯著優於基於權重的指標(MMLU +15pp,日文任務 +20pp)。
- 層自適應專家分配,允許每層根據其敏感度保留動態決定的專家數量,從而保持品質。
- 語言感知專家保護,檢測並保護語言專門化的專家,實現面向特定市場的壓縮。
- Zerobias 路由器最佳化,透過中和過時的路由器偏置來恢復剪枝懸崖點的品質,以零成本擴展無損壓縮前沿。
- 跨模型驗證,在三種架構(每層 32、128 和 512 個專家)上驗證,證明剪枝懸崖是普遍且可預測的。
2. 方法
2.1 概述
我們的剪枝流程分為四個階段:(1)校準資料收集,(2)重要性評分,(3)基於層自適應分配的剪枝計劃生成,以及(4)GGUF 檔案剪枝。該流程以量化後的 GGUF 模型和一組校準提示詞作為輸入,產生每層專家數可變的剪枝 GGUF 檔案。
2.2 基於校準的重要性評分
每個校準提示詞都透過完整模型運行,對於每一層和每個專家,我們記錄路由器選擇該專家的頻率以及選擇時的偏好強度。重要性分數結合這兩個訊號:一個既被頻繁激活又被強烈偏好的專家獲得高分,而一個很少被使用或弱閘控的專家獲得低分。
校準集應涵蓋剪枝模型預期處理的工作負載。對於通用壓縮,我們使用涵蓋程式碼生成、數學推理、事實回憶和自然語言問答的提示詞。對於特定語言的壓縮,我們添加目標語言的提示詞。
2.3 層自適應專家分配
MoE 模型中並非所有層對專家移除的敏感度相同。某些層具有高度專門化的專家,移除任何一個都會導致顯著的品質損失;而其他層則擁有可以安全移除的冗餘專家。我們的層自適應方法計算每層的重要性分布,並根據保留專家和剪枝專家之間測量到的重要性差距,為每層分配不同的保留數量。
這產生了某些層保留幾乎所有專家而其他層移除大量專家的模型。產生的 GGUF 檔案具有可變的 experts_per_layer 元資料欄位,標準推理引擎(llama.cpp)目前不支援此格式。我們開發了 moe-stream,一個開源的 Rust 推理引擎,來處理這些可變專家模型。專家數量均勻的模型(例如 GPT-OSS-20B 從 32 剪枝到每層 28 個專家)仍然與 llama.cpp 相容。
2.4 語言感知專家保護
具有足夠專家數量的 MoE 模型在訓練過程中會發展出語言專門化的專家。在 Qwen3-30B-A3B(每層 128 個專家)中,我們透過多語言校準提示詞的差異頻率分析,識別出 30 個日文專門化專家和 15 個英文專門化專家。相比之下,GPT-OSS-20B(每層 32 個專家)顯示近乎均勻的路由(基尼係數 = 0.041),沒有語言專門化;而 GLM-5(每層 256 個專家)展現出更強的專門化(15 個日文專門化專家,基尼係數 = 0.444)。
對於面向特定市場的壓縮(例如日本市場),我們保護檢測到的語言專門化專家免於剪枝,不論其全域重要性分數如何。這確保即使在施加積極壓縮時,語言能力也能得到保留。
2.5 Zerobias 路由器最佳化
MoE 路由器包含在預訓練期間使用完整專家集合校準的學習偏置項。剪枝後,這些偏置可能變得失準:先前將 token 導向現已移除的專家的偏置會產生路由真空,而剩餘專家的偏置不再反映其在縮減集合中的相對重要性。
Zerobias 將所有路由器偏置設為零,強制路由器僅依賴與輸入相關的路由權重。這是一個零成本的後處理步驟—除了修改 GGUF 檔案中的偏置張量外,不需要訓練或計算。
3. 實驗結果
3.1 GPT-OSS-20B:無損壓縮
GPT-OSS-20B 是一個 21B 參數的 MoE 模型,每層 32 個專家,使用 top-2 sigmoid 路由和 MXFP4 格式。由於該模型的專家數量太少,無法進行有意義的層自適應分配,因此採用均勻剪枝(每層移除相同數量的專家)。
| 配置 | 大小 | 每層專家數 | MMLU | GSM8K | HumanEval |
|---|---|---|---|---|---|
| 原始模型 | 11.67 GB | 32 | 78% | — | — |
| 剪枝 28/32 | 10.40 GB | 28 | 78% | 92% | 78% |
| 剪枝 27/32 | ~10.1 GB | 27 | 68% | — | — |
| 27/32 + Zerobias | ~9.4 GB | 27 | 77% | 84% | — |
| 剪枝 26/32 | ~9.7 GB | 26 | 69% | — | — |
28/32 模型實現了無損壓縮:MMLU 78%(與原始模型相同)、GSM8K 92%(46/50)和 HumanEval 78%(39/50)。檔案大小從 11.67 GB 縮減至 10.40 GB(−10.9%),幅度適中但品質零損失。
在 27/32 專家時,出現急劇的剪枝懸崖:每層僅移除一個專家,MMLU 就從 78% 驟降至 68%(−10pp)。應用 Zerobias 後恢復了大部分損失(77%,與原始模型相差 −1pp),產生了 9.4 GB 的近無損模型。值得注意的是,未應用 Zerobias 的 26/32 得分為 69%—高於未應用 Zerobias 的 27/32(68%)—揭示了懸崖是集中在 28→27 轉變處的階躍函數。
3.2 Qwen3-30B-A3B:語言感知剪枝
Qwen3-30B-A3B 是一個 30B 參數的 MoE 模型,48 層中每層 128 個專家。更多的專家使得層自適應分配和語言感知保護變得有效。
| 配置 | 大小 | 保留率 | MMLU | 備註 |
|---|---|---|---|---|
| 原始模型 | 17.3 GB | 100% | 77% | — |
| 剪枝 90% | 15.6 GB | 90% | 73% | −4pp |
| 剪枝 80%(日文感知) | 14.0 GB | 80% | 79%(思考開啟) | 日文 90% |
| 剪枝 70% | 12.3 GB | 70% | 51% | 懸崖(−26pp) |
| 剪枝 60% | — | 60% | 崩潰 | — |
80% 保留率模型(14.0 GB)搭配語言感知日文專家保護,達到 MMLU 79%(啟用思考模式)、GSM8K 92% 和日文品質 90%。這證明語言感知剪枝可以同時實現壓縮和保留多語言品質。
在 80% 和 70% 保留率之間出現急劇懸崖:MMLU 從 72% 驟降至 51%(−21pp),進一步剪枝則導致完全崩潰。這確立了 80% 保留率(14 GB)是該模型的實際下限。
校準 vs. 基於權重的評分
| 方法 | MMLU | 日文 | GSM8K |
|---|---|---|---|
| 基於校準 + 日文保護 | 74% | 85% | 92% |
| 基於權重 + 日文保護 | 60% | 65% | — |
在相同保留率下,基於校準的評分在 MMLU 上超過基於權重的評分 +14pp,在日文評估中超過 +20pp。兩種方法產生根本不同的專家保留集合—權重範數無法預測推理時的重要性。
3.3 Qwen3-Coder-Next 80B:深度剪枝
Qwen3-Coder-Next 是一個 80B 參數的 MoE 模型,48 層中每層 512 個專家(每 token 約 3B 活躍)。大量的專家數使得積極的層自適應剪枝成為可能。
| 配置 | 大小 | 保留率 | MMLU | 其他 |
|---|---|---|---|---|
| 原始 Q4 | ~48 GB | 100% | 77% | HumanEval 74% |
| v7(剪枝 44%) | 27.68 GB | 56% | 70% | HumanEval 72%, LCB Easy 83% |
| 剪枝 50% | 24.4 GB | 50% | 72% | — |
| 剪枝 55% | ~20 GB | 45% | 60% | 懸崖(−12pp) |
| 剪枝 65% | ~17.9 GB | 35% | 隨機 | 完全崩潰 |
50% 剪枝模型(24.4 GB)達到 MMLU 72%—保持了原始品質的 93.5%,同時可放入 24 GB 消費級硬體記憶體中。這明顯優於對同一模型的 Q2 量化,後者會產生類似的檔案大小(約 25–28 GB),但由於對所有權重均勻精度損失,MMLU 估計僅為 55–60%。
在 50% 和 45% 保留率之間出現懸崖(−12pp),35% 保留率則產生隨機輸出。50% 保留率是該模型最深的可行壓縮點。
3.4 專家剪枝 vs. 量化
| 方法 | 目標大小 | 壓縮手段 | 剩餘精度 | 品質影響 |
|---|---|---|---|---|
| 專家剪枝 | 24.4 GB | 移除 50% 的專家 | 完整 Q4(4-bit) | MMLU 72% |
| Q2 量化 | ~25–28 GB | 所有權重降至 2-bit | 2-bit | MMLU ~55–60% |
專家剪枝和量化是正交的壓縮技術。專家剪枝移除整個專家子網路,同時保留剩餘專家的完整量化精度。量化則對所有參數均勻降低精度。在相同檔案大小下,專家剪枝達到顯著更高的品質,因為保留的專家以原始精度運行,而激進量化則降低每個權重的品質。
此外,專家剪枝可以應用於已經量化的模型(正如我們對 Q4_K_M GGUF 檔案所做的),使得兩種技術可以組合使用:先量化進行權重級壓縮,再專家剪枝進行結構級壓縮。
4. 跨模型發現
4.1 普遍的剪枝懸崖
所有三個模型系列都展現出急劇的剪枝懸崖—一個狹窄的剪枝率範圍,品質在其中從完全保持轉變為完全崩潰。這不是逐漸的退化,而是一種相變。
| 模型 | 每層專家數 | 安全剪枝量 | 懸崖 | 基尼係數 |
|---|---|---|---|---|
| GPT-OSS-20B | 32 | 4 個專家(~12.5%) | 28 → 27(−10pp) | 0.041 |
| Qwen3-30B-A3B | 128 | ~26 個專家(~20%) | 80% → 70%(−21pp) | 0.233 |
| Qwen3-80B | 512 | ~256 個專家(~50%) | 50% → 45%(−12pp) | — |
一個統一的預測指標浮現:專家重要性分布的基尼係數可以預測懸崖的陡峭程度。低基尼係數的模型(近乎均勻的重要性,例如 GPT-OSS 的 0.041)展現出每個專家更尖銳的懸崖,因為每個專家都有實質性的貢獻。高基尼係數的模型(更傾斜的重要性)展現出更漸進的退化,允許在懸崖前進行更深的剪枝。
4.2 品質退化順序
在所有剪枝實驗中,我們觀察到隨著剪枝增加,能力退化呈現一致的順序:
- 程式碼生成(最脆弱)—最先退化,在有效程式消失前先產生偽代碼
- 算術 —類似相變的錯誤(例如 15+27=45)
- 推理 —邏輯連貫性下降
- 事實知識(最穩健)—最後退化,分布在許多專家之中
這一順序對校準設計具有重要意義:確保校準集覆蓋程式碼生成(最脆弱的能力)至關重要,因為僅程式碼評估能揭示僅問答測試無法發現的失敗模式。
5. 主要負面結果
在超過 22 個研究階段中,我們系統性地評估了許多未能成功的方法。我們總結最重要的負面結果,作為未來工作的邊界條件。
| 方法 | 結果 | 關鍵見解 |
|---|---|---|
| Gate L2 範數剪枝(REAP) | HumanEval 70% 在 50% | 靜態權重指標失效;需要基於校準的評分 |
| 基於權重的重要性 | MMLU 60%(vs 校準 74%) | 權重範數無法預測推理時的重要性 |
| 均勻剪枝比例 | 80B MMLU 64% | 層自適應分配對品質至關重要 |
| 英文最佳化強制懲罰 | MMLU 58% | 語言專家同時貢獻於 STEM 推理 |
| 路由增強 + 剪枝 | MMLU 56%(−21pp) | 增強和剪枝計劃必須聯合計算 |
| 專家即適配器(KD) | 層 MSE −15%,端到端 −2pp | 層級改進 ≠ 端到端改進 |
| TinyLoRA(13 參數) | MMLU −4pp 在懸崖處 | 微參數調整不足以恢復 MoE |
| GRPO 路由器訓練 | MMLU 67%(−5pp) | 基於梯度的偏置最佳化不及 Zerobias |
| Zerobias 迭代剪枝 | 26/32: 65%(−4pp) | Zerobias 具有懸崖特異性;超出懸崖則有害 |
| 密集 SLM 剪枝(4B) | FFN 25%:崩潰 | 密集模型缺乏專家級冗餘;MoE ≫ 密集模型的壓縮效率 |
| MoE 消融 | 最大一致性 56% | 安全行為分散分布,非專家局部化 |
跨領域教訓:所有負面結果中最一致的發現是,路由器偏置校準—而非專家容量—是剪枝後品質的主導因素。專家即適配器實現了 15% 的 MSE 降低但端到端 −2pp。TinyLoRA 和 GRPO 路由器訓練都導致品質下降。只有 Zerobias(在懸崖點)和基於校準的剪枝(避開懸崖)產生正面結果。這意味著保持路由器正確分配 token 的能力,比任何單個專家的表示容量更為重要。
6. 推理引擎:moe-stream
層自適應剪枝產生每層專家數不同的模型,標準推理引擎(llama.cpp)不支援此格式。我們開發了 moe-stream,一個開源的 Rust 推理引擎,來處理這些可變專家模型。
主要功能:
- 三種推理模式:GPU 常駐(模型 < 80% RAM)、GPU 混合(80–90% RAM)和 SSD 串流(> 90% RAM)。模式根據模型大小和可用記憶體自動選擇。
- SSD 串流:透過從 NVMe SSD 按需串流專家權重,運行超出 RAM 容量的模型。在 24 GB 硬體上 48 GB 模型約 2 tok/s。
- Q4 量化矩陣乘法:跳過反量化直接在 Q4 權重上計算,提供 +79% 的加速(1.16 → 2.07 tok/s)。
- Metal GPU 計算:Apple Silicon 上的硬體加速推理(GPU 常駐模型約 55 tok/s)。
- 可變專家數量:完整支援 GGUF 檔案中的
experts_per_layer元資料。
專家數量均勻的模型(GPT-OSS-20B 28/32、27/32)可在 llama.cpp 和 moe-stream 上運行。專家數量因層而異的模型(Qwen3-30B-A3B JP-80pct、Qwen3-Coder-Next 50pct)需要 moe-stream。
7. 結論
我們提出了一個透過選擇性移除專家來壓縮 MoE 語言模型的實用框架。核心原則如下:
- 校準優於權重。透過實際推理衡量專家重要性產生的結果遠優於靜態權重分析(MMLU +15pp,語言任務 +20pp)。
- 層自適應分配。每層對剪枝的敏感度不同;自適應分配在最重要的地方保持品質。
- 語言感知保護。具有足夠專家數量的模型會發展出語言專門化路由,保護這些專家可在不損失品質的情況下實現面向特定市場的壓縮。
- 懸崖處的 Zerobias。當剪枝達到懸崖點時,將路由器偏置歸零是最有效的恢復技術—超越基於梯度的最佳化、專家適配器訓練和微參數調整。
- 懸崖具有普遍性。所有測試的 MoE 架構都展現出急劇的剪枝懸崖,可由專家重要性的基尼係數預測。
實際成果是 MoE 模型可以在消費級硬體上以極小的品質損失進行顯著壓縮:GPT-OSS-20B 從 11.67 GB 壓縮至 9.4 GB(MMLU 77%),Qwen3-30B-A3B 從 17.3 GB 壓縮至 14.0 GB(MMLU 79% 含思考模式),Qwen3-Coder-Next 80B 從約 48 GB 壓縮至 24.4 GB(MMLU 72%)。整個流程不需要 GPU 訓練,不需要梯度計算,在一小時內即可完成。
預剪枝模型
所有模型均可在 HuggingFace 上取得:
| 模型 | 大小 | MMLU | llama.cpp | moe-stream |
|---|---|---|---|---|
| PrunedHub GPT-OSS-20B-28x | 10.4 GB | 78% | Yes | Yes |
| PrunedHub GPT-OSS-20B-27x-Zerobias | ~9.4 GB | 77% | Yes | Yes |
| PrunedHub Qwen3-30B-A3B-JP-80pct | 14.0 GB | 79% | No | Required |
| PrunedHub Qwen3-Coder-Next-50pct | 24.4 GB | 72% | No | Required |
引用
@misc{goba-ai-labs-expert-pruning-2026,
title={Calibration-Based Expert Pruning for Mixture-of-Experts Language Models},
author={GOBA-AI-Labs},
year={2026},
url={https://goba-ai-labs.github.io/paper/}
}