較正に基づくMixture-of-Experts言語モデルのエキスパート刈り込み
独立研究
2026年2月
本研究では、推論時に測定されたエキスパートの重要度に基づいて選択的にエキスパートを除去することにより、Mixture-of-Experts(MoE)言語モデルを圧縮するフレームワークを提案する。静的なモデルパラメータから重要度を推定する重み基準の指標とは異なり、本手法の較正に基づくアプローチは、多様なワークロード上での実際の推論を通じてエキスパートをスコアリングし、大幅に正確な重要度ランキングを生成する。本研究では3つの相補的な手法を導入する:各層の感度に基づいて異なる数のエキスパートを保持する層適応的エキスパート割り当て、圧縮時に言語特化エキスパートを検出・保護する言語認識エキスパート保護、および古いルーターバイアスを中和することで刈り込みクリフ地点の品質を回復するゼロコストの後処理ステップであるZerobiasルーター最適化。本手法を3つのモデルファミリーで検証した:GPT-OSS-20B(ロスレス圧縮、10.4 GBでMMLU 78%維持)、Qwen3-30B-A3B(言語認識刈り込み、14 GBで思考モードMMLU 79%)、Qwen3-Coder-Next 80B(50%刈り込み、24.4 GBでMMLU 72%)。全モデルにおいて、品質が狭い刈り込み範囲内で保持から崩壊へ急激に遷移する普遍的な刈り込みクリフ現象を特定し、エキスパート重要度分布のジニ係数がクリフの急峻さを予測することを示した。本フレームワークはGPU訓練不要、勾配計算不要であり、民生ハードウェア上で1時間以内に完了する。
1. はじめに
Mixture-of-Experts(MoE)言語モデルは、トークンごとに全パラメータのごく一部のみを活性化することで、フロンティアレベルの品質を達成する。DeepSeek-V3(総パラメータ671B、活性パラメータ37B)、Qwen3-Coder-Next(総パラメータ80B、トークンあたり活性パラメータ約3B)、GPT-OSS-20B(総パラメータ21B、活性パラメータ3.6B)などの最近のモデルは、MoEアーキテクチャが推論コストのごく一部で密なモデルと同等以上の性能を達成できることを実証している。しかし、その総パラメータ数—量子化された形式でも数十から数百ギガバイトに達することが多い—は、民生ハードウェアのメモリ容量を超えている。
既存の圧縮手法はサイズの問題に対処するが、MoEモデルが提供する構造的な機会を活用していない。訓練後量子化(GPTQ、AWQ、GGUF Q4)は全パラメータに対して一様に精度を下げ、モデルを単一のブロックとして扱う。知識蒸留はより小さな生徒モデルを生成できるが、高コストの再訓練が必要である。どちらのアプローチも、MoEを密なモデルから区別する根本的な特性を活用していない:すなわち、機能的寄与に基づいて選択的に保持または除去できる、離散的で独立にパラメータ化されたエキスパートサブネットワークの存在である。
本研究では較正に基づくエキスパート刈り込みを提案する:代表的なワークロード上での実際の推論を通じてエキスパートの重要度を測定し、各層から最も重要度の低いエキスパートを除去する手法である。この手法は量子化されたGGUFモデルファイル上で直接動作し、逆量子化、勾配計算、再訓練のいずれも必要としない。出力は層ごとにエキスパート数が削減された有効なGGUFファイルであり、即座に推論に使用できる。
本研究の貢献は以下の通りである:
- 較正に基づく重要度スコアリング:重み基準の指標を大幅に上回る性能(MMLU +15pp、日本語タスク +20pp)。
- 層適応的エキスパート割り当て:各層が感度に基づいて動的に決定されたエキスパート数を保持することで品質を維持。
- 言語認識エキスパート保護:言語特化エキスパートを検出・保護し、市場特化型の圧縮を実現。
- Zerobiasルーター最適化:古いルーターバイアスを中和することで刈り込みクリフ地点の品質を回復し、ゼロコストでロスレス圧縮の限界を拡張。
- モデル横断的検証:3つのアーキテクチャ(層あたり32、128、512エキスパート)において、刈り込みクリフが普遍的かつ予測可能であることを実証。
2. 手法
2.1 概要
本刈り込みパイプラインは4つの段階で動作する:(1) 較正データ収集、(2) 重要度スコアリング、(3) 層適応的割り当てを伴う刈り込み計画の生成、(4) GGUFファイルの刈り込み。パイプラインは量子化されたGGUFモデルと較正プロンプトのセットを入力として受け取り、層ごとに可変のエキスパート数を持つ刈り込み済みGGUFファイルを出力する。
2.2 較正に基づく重要度スコアリング
各較正プロンプトをモデル全体に通し、各層・各エキスパートについて、ルーターがそのエキスパートを選択する頻度と、選択時にどの程度強く選好するかを記録する。重要度スコアはこれら2つのシグナルを統合する:頻繁に活性化され、かつ強く選好されるエキスパートは高いスコアを受け、稀にしか使用されないか弱くゲーティングされるエキスパートは低いスコアを受ける。
較正セットは、刈り込み後のモデルが処理することが期待されるワークロードを網羅すべきである。汎用圧縮の場合、コード生成、数学的推論、事実的想起、自然言語による質問応答をカバーするプロンプトを使用する。言語特化型圧縮の場合、対象言語のプロンプトを追加する。
2.3 層適応的エキスパート割り当て
MoEモデルの全ての層がエキスパート除去に対して等しく敏感なわけではない。一部の層は高度に特化したエキスパートを持ち、いずれか1つを除去するだけで大きな品質低下を引き起こすが、他の層は冗長なエキスパートを持ち安全に除去できる。本手法の層適応的アプローチは、層ごとの重要度分布を計算し、保持されるエキスパートと刈り込まれるエキスパート間の測定された重要度ギャップに基づいて、各層に異なる保持数を割り当てる。
これにより、一部の層はほぼ全てのエキスパートを保持し、他の層では大幅にエキスパートが除去されたモデルが生成される。結果として得られるGGUFファイルは可変のexperts_per_layerメタデータフィールドを持ち、標準的な推論エンジン(llama.cpp)では現在サポートされていない。これらの可変エキスパートモデルを扱うため、オープンソースのRust推論エンジンmoe-streamを開発した。均一なエキスパート数を持つモデル(例:GPT-OSS-20Bの全層32から28への刈り込み)はllama.cppとの互換性を維持する。
2.4 言語認識エキスパート保護
十分なエキスパート数を持つMoEモデルは、訓練中に言語特化エキスパートを発達させる。Qwen3-30B-A3B(層あたり128エキスパート)では、多言語較正プロンプトにわたる差分頻度分析により、30の日本語特化エキスパートと15の英語特化エキスパートを同定した。対照的に、GPT-OSS-20B(層あたり32エキスパート)はほぼ均一なルーティング(ジニ係数 = 0.041)を示し言語特化がない一方、GLM-5(層あたり256エキスパート)はさらに強い特化(15の日本語特化エキスパート、ジニ係数 = 0.444)を示す。
市場特化型圧縮(例:日本市場向け)では、検出された言語特化エキスパートを、そのグローバル重要度スコアに関わらず刈り込みから保護する。これにより、積極的な圧縮が適用された場合でも言語能力が維持される。
2.5 Zerobiasルーター最適化
MoEルーターは、全エキスパートセットで事前訓練中に較正された学習済みバイアス項を含む。刈り込み後、これらのバイアスは不正確になる可能性がある:以前は存在しなくなったエキスパートにトークンを誘導していたバイアスがルーティングの空白を生み出し、残存エキスパートのバイアスは縮小されたセット内での相対的重要度を反映しなくなる。
Zerobiasは全てのルーターバイアスをゼロに設定し、ルーターが入力依存のルーティング重みのみに依拠するよう強制する。これはゼロコストの後処理ステップであり—GGUFファイル内のバイアステンソルの修正以外に訓練も計算も不要である。
3. 結果
3.1 GPT-OSS-20B:ロスレス圧縮
GPT-OSS-20Bは、層あたり32エキスパート、top-2シグモイドルーティング、MXFP4フォーマットの21Bパラメータ MoEモデルである。このモデルはエキスパート数が少なく、層適応的割り当てが有意義に機能しないため、均一刈り込み(各層から同数のエキスパートを除去)を使用する。
| 構成 | サイズ | エキスパート/層 | MMLU | GSM8K | HumanEval |
|---|---|---|---|---|---|
| オリジナル | 11.67 GB | 32 | 78% | — | — |
| 刈り込み 28/32 | 10.40 GB | 28 | 78% | 92% | 78% |
| 刈り込み 27/32 | ~10.1 GB | 27 | 68% | — | — |
| 27/32 + Zerobias | ~9.4 GB | 27 | 77% | 84% | — |
| 刈り込み 26/32 | ~9.7 GB | 26 | 69% | — | — |
28/32モデルはロスレス圧縮を達成する:MMLU 78%(オリジナルと同一)、GSM8K 92%(46/50)、HumanEval 78%(39/50)。ファイルサイズの11.67 GBから10.40 GBへの削減(−10.9%)は控えめだが、品質コストはゼロである。
27/32エキスパートで急峻な刈り込みクリフが出現する:層あたりたった1つのエキスパートの除去で、MMLUが78%から68%(−10pp)に低下する。Zerobiasを適用することでこの損失の大部分が回復され(77%、オリジナルから−1pp)、9.4 GBの準ロスレスモデルが得られる。注目すべきことに、Zerobiasなしの26/32は69%であり、Zerobiasなしの27/32(68%)を上回る—このことは、クリフが28→27の遷移に集中したステップ関数であることを示している。
3.2 Qwen3-30B-A3B:言語認識刈り込み
Qwen3-30B-A3Bは、48層にわたり層あたり128エキスパートを持つ30Bパラメータ MoEモデルである。エキスパート数が多いため、層適応的割り当てと言語認識保護が効果的に機能する。
| 構成 | サイズ | 保持率 | MMLU | 備考 |
|---|---|---|---|---|
| オリジナル | 17.3 GB | 100% | 77% | — |
| 刈り込み 90% | 15.6 GB | 90% | 73% | −4pp |
| 刈り込み 80%(日本語認識) | 14.0 GB | 80% | 79%(思考モード) | 日本語 90% |
| 刈り込み 70% | 12.3 GB | 70% | 51% | クリフ(−26pp) |
| 刈り込み 60% | — | 60% | 崩壊 | — |
言語認識日本語エキスパート保護を適用した保持率80%モデル(14.0 GB)は、MMLU 79%(思考モード有効時)、GSM8K 92%、日本語品質90%を達成する。これは、言語認識刈り込みが圧縮と多言語品質の維持を同時に達成できることを実証している。
80%と70%の保持率の間で急峻なクリフが出現する:MMLUが72%から51%(−21pp)に低下し、さらなる刈り込みは完全な崩壊を引き起こす。これにより、80%の保持率(14 GB)がこのモデルの実用的な下限として確立される。
較正手法と重み基準手法の比較
| 手法 | MMLU | 日本語 | GSM8K |
|---|---|---|---|
| 較正ベース + 日本語保護 | 74% | 85% | 92% |
| 重みベース + 日本語保護 | 60% | 65% | — |
較正に基づくスコアリングは、同じ保持率において重み基準のスコアリングをMMLUで+14pp、日本語評価で+20pp上回る。2つの手法は根本的に異なるエキスパート保持セットを生成する—重みノルムは推論時の重要度を予測しない。
3.3 Qwen3-Coder-Next 80B:深い刈り込み
Qwen3-Coder-Nextは、48層にわたり層あたり512エキスパートを持つ80Bパラメータ MoEモデルである(トークンあたり活性パラメータ約3B)。エキスパート数が多いため、積極的な層適応的刈り込みが可能である。
| 構成 | サイズ | 保持率 | MMLU | その他 |
|---|---|---|---|---|
| オリジナル Q4 | ~48 GB | 100% | 77% | HumanEval 74% |
| v7(44%刈り込み) | 27.68 GB | 56% | 70% | HumanEval 72%、LCB Easy 83% |
| 50%刈り込み | 24.4 GB | 50% | 72% | — |
| 55%刈り込み | ~20 GB | 45% | 60% | クリフ(−12pp) |
| 65%刈り込み | ~17.9 GB | 35% | ランダム | 完全崩壊 |
50%刈り込みモデル(24.4 GB)はMMLU 72%を達成する—24 GBの民生ハードウェアメモリに収まりつつ、オリジナル品質の93.5%を維持する。これは同モデルのQ2量子化と比較して顕著に優れている。Q2量子化は類似のファイルサイズ(約25–28 GB)を生成するが、全重みに対する均一な精度低下によりMMLU推定55–60%となる。
50%から45%の保持率の間でクリフが出現し(−12pp)、35%の保持率ではランダムな出力となる。50%の保持率がこのモデルの最深の実用的圧縮である。
3.4 エキスパート刈り込みと量子化の比較
| アプローチ | 目標サイズ | 手法 | 残存精度 | 品質への影響 |
|---|---|---|---|---|
| エキスパート刈り込み | 24.4 GB | エキスパートの50%を除去 | フル Q4(4-bit) | MMLU 72% |
| Q2 量子化 | ~25–28 GB | 全重みを2-bitに削減 | 2-bit | MMLU ~55–60% |
エキスパート刈り込みと量子化は直交する圧縮技術である。エキスパート刈り込みは残存エキスパートの完全な量子化精度を維持しつつ、エキスパートサブネットワーク全体を除去する。量子化は全パラメータに対して均一に精度を低下させる。同一ファイルサイズにおいて、保持されたエキスパートが元の精度で動作するため、エキスパート刈り込みは大幅に高い品質を達成する一方、積極的な量子化は全ての重みを劣化させる。
さらに、エキスパート刈り込みは既に量子化されたモデルの上に適用できる(本研究ではQ4_K_M GGUFファイルに対して行っている)ため、2つの技術は合成可能である:まず重みレベルの圧縮に量子化を適用し、次に構造的圧縮にエキスパート刈り込みを適用する。
4. モデル横断的知見
4.1 普遍的な刈り込みクリフ
3つのモデルファミリー全てが急峻な刈り込みクリフ—品質が完全に保持された状態から完全に崩壊する状態へ遷移する狭い刈り込み率の範囲—を示す。これは漸進的な劣化ではなく、相転移である。
| モデル | エキスパート/層 | 安全な刈り込み | クリフ | ジニ係数 |
|---|---|---|---|---|
| GPT-OSS-20B | 32 | 4エキスパート(~12.5%) | 28 → 27(−10pp) | 0.041 |
| Qwen3-30B-A3B | 128 | ~26エキスパート(~20%) | 80% → 70%(−21pp) | 0.233 |
| Qwen3-80B | 512 | ~256エキスパート(~50%) | 50% → 45%(−12pp) | — |
統一的な予測因子が浮上する:エキスパート重要度分布のジニ係数がクリフの急峻さを予測する。低いジニ係数(ほぼ均一な重要度、例:GPT-OSSの0.041)を持つモデルは、全てのエキスパートが実質的に寄与しているため、エキスパートあたりのクリフがより急峻になる。より高いジニ係数(より偏った重要度)を持つモデルはより緩やかな劣化を示し、クリフに達するまでにより深い刈り込みが可能となる。
4.2 品質劣化の順序
全ての刈り込み実験において、刈り込みが進むにつれて能力劣化の一貫した順序が観察される:
- コード生成(最も脆弱)— 最初に劣化し、有効なプログラムが消失する前に擬似コードを出力する
- 算術 — 相転移的なエラー(例:15+27=45)
- 推論 — 論理的整合性の低下
- 事実的知識(最も頑健)— 最後に劣化し、多数のエキスパートに分散している
この順序は較正設計にとって重要である:較正セットがコード生成(最も脆弱な能力)をカバーすることが不可欠であり、コード専用の評価によってQ&Aのみのテストでは見えない障害モードが明らかになる。
5. 主な否定的結果
22の研究フェーズにわたり、成功しなかった多数のアプローチを体系的に評価した。将来の研究の境界条件として、最も重要な否定的結果を要約する。
| アプローチ | 結果 | 主な知見 |
|---|---|---|
| Gate L2ノルム刈り込み(REAP) | 50%でHumanEval 70% | 静的重み指標は不十分;較正ベースのスコアリングが必要 |
| 重みベース重要度 | MMLU 60%(較正74%に対し) | 重みノルムは推論時の重要度を予測しない |
| 均一刈り込み比率 | 80B MMLU 64% | 層適応的割り当てが品質維持に不可欠 |
| 英語最適化強制ペナルティ | MMLU 58% | 言語エキスパートはSTEM推論にも寄与する |
| ルーティングブースト + 刈り込み | MMLU 56%(−21pp) | ブーストと刈り込み計画は共同で計算する必要がある |
| Expert-as-Adapter(知識蒸留) | 層MSE −15%、E2E −2pp | 層レベルの改善 ≠ エンドツーエンドの改善 |
| TinyLoRA(13パラメータ) | クリフでMMLU −4pp | マイクロパラメータ調整はMoE回復に不十分 |
| GRPOルーター訓練 | MMLU 67%(−5pp) | 勾配ベースのバイアス最適化はZerobiasに劣る |
| Zerobias反復刈り込み | 26/32:65%(−4pp) | Zerobiasはクリフ特異的;クリフを超えると有害 |
| 密なSLM刈り込み(4B) | FFN 25%:崩壊 | 密なモデルにはエキスパートレベルの冗長性がない;圧縮ではMoE ≫ 密なモデル |
| MoE abliteration | 最大一貫性 56% | 安全性の振る舞いは分散しており、エキスパートに局在しない |
横断的な教訓: 全ての否定的結果を通じて最も一貫した知見は、ルーターバイアスの較正—エキスパートの容量ではなく—が刈り込み後の品質を支配する要因であるということである。Expert-as-AdapterはMSEを15%削減するがエンドツーエンドでは−2ppとなる。TinyLoRAとGRPOルーター訓練はいずれも品質を劣化させる。Zerobias(クリフ地点において)と較正に基づく刈り込み(クリフを回避する)のみが正の結果を生む。これは、トークンを正しく分配するルーターの能力を維持することが、個々のエキスパートの表現能力よりも重要であることを意味する。
6. 推論エンジン:moe-stream
層適応的刈り込みは層ごとに異なるエキスパート数を持つモデルを生成するが、標準的な推論エンジン(llama.cpp)はこれをサポートしていない。これらの可変エキスパートモデルを扱うため、オープンソースのRust推論エンジンmoe-streamを開発した。
主な機能:
- 3つの推論モード:GPU常駐(モデルがRAMの80%未満)、GPUハイブリッド(RAMの80–90%)、SSDストリーミング(RAMの90%超)。モデルサイズと利用可能メモリに基づいて自動選択される。
- SSDストリーミング:NVMe SSDからオンデマンドでエキスパート重みをストリーミングし、RAMを超えるモデルを実行。24 GBハードウェア上で48 GBモデルに対して約2 tok/s。
- Q4量子化行列積:逆量子化をスキップしてQ4重み上で直接計算し、+79%の高速化を実現(1.16 → 2.07 tok/s)。
- Metal GPU計算:Apple Silicon上でのハードウェアアクセラレーション推論(GPU常駐モデルで約55 tok/s)。
- 可変エキスパート数:GGUFファイル内の
experts_per_layerメタデータの完全サポート。
均一なエキスパート数を持つモデル(GPT-OSS-20B 28/32、27/32)はllama.cppとmoe-streamの両方で動作する。層適応的なエキスパート数を持つモデル(Qwen3-30B-A3B JP-80pct、Qwen3-Coder-Next 50pct)はmoe-streamが必要である。
7. 結論
本研究では、エキスパートを選択的に除去することでMoE言語モデルを圧縮する実用的なフレームワークを提示した。主要な原則は以下の通りである:
- 重みより較正を。実際の推論を通じてエキスパートの重要度を測定することで、静的重み分析よりも劇的に優れた結果を生む(MMLU +15pp、言語タスク +20pp)。
- 層適応的割り当て。各層は刈り込みに対して異なる感度を持つ;適応的割り当ては最も重要な箇所で品質を維持する。
- 言語認識保護。十分なエキスパート数を持つモデルは言語特化ルーティングを発達させ、これらのエキスパートを保護することで品質損失なしの市場特化型圧縮が可能になる。
- クリフでのZerobias。刈り込みがクリフ地点に達した場合、ルーターバイアスのゼロ化が最も効果的な回復手法であり—勾配ベースの最適化、エキスパートアダプター訓練、マイクロパラメータ調整を凌駕する。
- クリフは普遍的である。テストした全てのMoEアーキテクチャが急峻な刈り込みクリフを示し、エキスパート重要度のジニ係数から予測可能である。
実用的な成果として、MoEモデルは最小限の品質損失で民生ハードウェア上で大幅に圧縮できる:GPT-OSS-20Bは11.67 GBから9.4 GB(MMLU 77%)、Qwen3-30B-A3Bは17.3 GBから14.0 GB(思考モードでMMLU 79%)、Qwen3-Coder-Next 80Bは約48 GBから24.4 GB(MMLU 72%)。パイプライン全体はGPU訓練不要、勾配計算不要であり、1時間以内に完了する。
刈り込み済みモデル
全モデルはHuggingFaceで公開中:
| モデル | サイズ | MMLU | llama.cpp | moe-stream |
|---|---|---|---|---|
| PrunedHub GPT-OSS-20B-28x | 10.4 GB | 78% | 対応 | 対応 |
| PrunedHub GPT-OSS-20B-27x-Zerobias | ~9.4 GB | 77% | 対応 | 対応 |
| PrunedHub Qwen3-30B-A3B-JP-80pct | 14.0 GB | 79% | 非対応 | 必須 |
| PrunedHub Qwen3-Coder-Next-50pct | 24.4 GB | 72% | 非対応 | 必須 |
引用
@misc{goba-ai-labs-expert-pruning-2026,
title={Calibration-Based Expert Pruning for Mixture-of-Experts Language Models},
author={GOBA-AI-Labs},
year={2026},
url={https://goba-ai-labs.github.io/paper/}
}