혼합 전문가 언어 모델을 위한 보정 기반 전문가 가지치기

GOBA-AI-Labs

독립 연구

2026년 2월

초록

본 연구에서는 추론 과정에서 측정된 중요도에 기반하여 전문가를 선택적으로 제거함으로써 혼합 전문가(Mixture-of-Experts, MoE) 언어 모델을 압축하는 프레임워크를 제시한다. 정적 모델 파라미터로부터 중요도를 추정하는 가중치 기반 지표와 달리, 본 보정 기반 접근법은 다양한 워크로드에 대한 실제 추론을 통해 전문가 점수를 산출하여, 보다 정확한 중요도 순위를 생성한다. 본 연구에서는 세 가지 상호 보완적 기법을 도입한다: 각 레이어가 민감도에 따라 서로 다른 수의 전문가를 유지할 수 있도록 하는 레이어 적응형 전문가 할당, 압축 과정에서 언어 특화 전문가를 탐지 및 보존하는 언어 인식 전문가 보호, 그리고 오래된 라우터 바이어스를 무력화하여 가지치기 절벽 지점에서 품질을 회복하는 무비용 후처리 단계인 Zerobias 라우터 최적화이다. 본 접근법을 세 가지 모델 계열에서 검증하였다: GPT-OSS-20B(무손실 압축, 10.4 GB에서 MMLU 78% 유지), Qwen3-30B-A3B(언어 인식 가지치기, 14 GB에서 사고 모드 시 MMLU 79%), Qwen3-Coder-Next 80B(50% 가지치기, 24.4 GB에서 MMLU 72%). 모든 모델에서 품질이 좁은 가지치기 범위 내에서 유지에서 붕괴로 급격히 전환되는 보편적 가지치기 절벽 현상을 확인하였으며, 전문가 중요도 분포의 지니 계수가 절벽의 급격함을 예측함을 보인다. 본 프레임워크는 GPU 훈련이 불필요하고, 기울기 계산이 필요 없으며, 소비자용 하드웨어에서 1시간 이내에 완료된다.

1. 서론

혼합 전문가(MoE) 언어 모델은 토큰당 전체 파라미터의 일부만을 활성화함으로써 최첨단 수준의 품질을 달성한다. DeepSeek-V3(총 671B, 활성 37B), Qwen3-Coder-Next(총 80B, 토큰당 활성 ~3B), GPT-OSS-20B(총 21B, 활성 3.6B) 등 최신 모델들은 MoE 아키텍처가 밀집(dense) 모델에 비해 훨씬 적은 추론 비용으로 동등하거나 우수한 성능을 낼 수 있음을 보여준다. 그러나 이들의 총 파라미터 수—양자화 후에도 수십에서 수백 기가바이트에 달하는—는 소비자용 하드웨어의 메모리 용량을 초과한다.

기존 압축 기법들은 크기 문제를 다루지만 MoE 모델이 제시하는 구조적 기회를 활용하지 못한다. 훈련 후 양자화(GPTQ, AWQ, GGUF Q4)는 모든 파라미터에 대해 정밀도를 균일하게 낮추어 모델을 단일 블록으로 취급한다. 지식 증류는 더 작은 학생 모델을 생성할 수 있지만 비용이 많이 드는 재훈련이 필요하다. 두 방법 모두 MoE를 밀집 모델과 구별하는 근본적 특성—기능적 기여도에 따라 선택적으로 유지하거나 제거할 수 있는 이산적이고 독립적으로 파라미터화된 전문가 서브네트워크의 존재—을 활용하지 않는다.

본 연구에서는 보정 기반 전문가 가지치기를 제안한다. 대표적인 워크로드에 대한 실제 추론을 통해 전문가 중요도를 측정한 후, 각 레이어에서 가장 중요도가 낮은 전문가를 제거하는 방식이다. 이 방법은 양자화된 GGUF 모델 파일에 직접 적용되며, 역양자화, 기울기 계산, 재훈련이 불필요하다. 출력은 레이어당 전문가 수가 감소된 유효한 GGUF 파일로, 즉시 추론에 사용할 수 있다.

본 연구의 기여는 다음과 같다:

보정 기반 중요도 평가: 가중치 기반 지표를 현저히 능가하는 성능(MMLU +15pp, 일본어 태스크에서 +20pp).
레이어 적응형 전문가 할당: 각 레이어가 민감도에 따라 동적으로 결정된 수의 전문가를 유지하여 품질을 보존.
언어 인식 전문가 보호: 언어 특화 전문가를 탐지 및 보존하여 시장별 압축을 가능하게 함.
Zerobias 라우터 최적화: 오래된 라우터 바이어스를 무력화하여 가지치기 절벽 지점에서 무비용으로 품질을 회복하고, 무손실 압축 한계를 확장.
교차 모델 검증: 세 가지 아키텍처(레이어당 32, 128, 512 전문가)에서 가지치기 절벽이 보편적이며 예측 가능함을 입증.

2. 방법

2.1 개요

본 가지치기 파이프라인은 네 단계로 운영된다: (1) 보정 데이터 수집, (2) 중요도 평가, (3) 레이어 적응형 할당을 포함한 가지치기 계획 생성, (4) GGUF 파일 가지치기. 파이프라인은 양자화된 GGUF 모델과 보정 프롬프트 세트를 입력으로 받아, 레이어별로 가변적인 전문가 수를 가진 가지치기된 GGUF 파일을 생성한다.

2.2 보정 기반 중요도 평가

각 보정 프롬프트를 전체 모델에 통과시키고, 모든 레이어와 전문가에 대해 라우터가 해당 전문가를 얼마나 자주 선택하는지, 선택 시 얼마나 강하게 선호하는지를 기록한다. 중요도 점수는 이 두 신호를 결합한다: 자주 활성화되면서 강하게 선호되는 전문가는 높은 점수를 받고, 드물게 사용되거나 약하게 게이팅되는 전문가는 낮은 점수를 받는다.

보정 세트는 가지치기된 모델이 처리할 것으로 예상되는 워크로드를 포괄해야 한다. 범용 압축의 경우, 코드 생성, 수학적 추론, 사실적 회상, 자연어 질의응답을 포함하는 프롬프트를 사용한다. 언어별 압축의 경우, 대상 언어의 프롬프트를 추가한다.

주요 발견: 보정 기반 평가는 가중치 기반 평가를 현저히 능가한다. Qwen3-30B-A3B에서 80% 전문가 유지 시, 보정 기반은 MMLU 74%를 달성하는 반면 가중치 기반은 60%에 그친다(+15pp 차이). 일본어 평가에서는 보정 기반이 85%, 가중치 기반이 65%를 달성하였다(+20pp). 가중치 기반 평가는 추론 품질을 최적화하지 못하는 근본적으로 다른 전문가 유지 집합을 산출한다.

2.3 레이어 적응형 전문가 할당

MoE 모델의 모든 레이어가 전문가 제거에 동일하게 민감한 것은 아니다. 일부 레이어는 고도로 전문화된 전문가를 가지고 있어 하나라도 제거하면 상당한 품질 저하가 발생하는 반면, 다른 레이어는 안전하게 제거할 수 있는 중복 전문가를 보유하고 있다. 본 레이어 적응형 접근법은 레이어별 중요도 분포를 계산하고, 유지되는 전문가와 제거되는 전문가 사이의 측정된 중요도 격차에 따라 각 레이어에 서로 다른 유지 수를 할당한다.

이를 통해 일부 레이어는 거의 모든 전문가를 유지하고 다른 레이어는 상당수가 제거된 모델이 생성된다. 결과 GGUF 파일은 가변적인 experts_per_layer 메타데이터 필드를 가지며, 표준 추론 엔진(llama.cpp)은 현재 이를 지원하지 않는다. 이러한 가변 전문가 모델을 처리하기 위해 오픈소스 Rust 추론 엔진인 moe-stream을 개발하였다. 균일한 전문가 수를 가진 모델(예: GPT-OSS-20B를 전 레이어에서 32에서 28 전문가로 가지치기한 경우)은 llama.cpp와 호환된다.

2.4 언어 인식 전문가 보호

충분한 전문가 수를 가진 MoE 모델은 훈련 과정에서 언어 특화 전문가를 발달시킨다. Qwen3-30B-A3B(레이어당 128 전문가)에서는 다국어 보정 프롬프트에 대한 차등 빈도 분석을 통해 30개의 일본어 전문 전문가와 15개의 영어 전문 전문가를 식별하였다. 반면, GPT-OSS-20B(레이어당 32 전문가)는 거의 균일한 라우팅(Gini = 0.041)을 보이며 언어 특화가 없고, GLM-5(레이어당 256 전문가)는 더욱 강한 특화(일본어 전문가 15개, Gini = 0.444)를 나타낸다.

전문가 수가 언어 특화를 지배한다: 32 전문가 → 0 언어 전문가(Gini 0.041); 128 전문가 → 30 전문가(Gini 0.233); 256 전문가 → 15 전문가(Gini 0.444). 전문가 수가 많은 모델일수록 언어별 라우팅을 포함하여 더 명확한 기능적 특화를 발달시킨다.

시장별 압축(예: 일본 시장)의 경우, 감지된 언어 전문 전문가를 전역 중요도 점수와 관계없이 가지치기로부터 보호한다. 이를 통해 공격적인 압축이 적용되더라도 언어 능력이 보존된다.

2.5 Zerobias 라우터 최적화

MoE 라우터는 전체 전문가 세트로 사전 훈련 과정에서 보정된 학습된 바이어스 항을 포함한다. 가지치기 후 이러한 바이어스는 잘못 보정될 수 있다: 이전에 토큰을 현재 부재한 전문가로 유도하던 바이어스가 라우팅 공백을 생성하고, 나머지 전문가의 바이어스는 축소된 세트에서의 상대적 중요도를 더 이상 반영하지 못한다.

Zerobias는 모든 라우터 바이어스를 0으로 설정하여 라우터가 입력 의존적 라우팅 가중치에만 의존하도록 강제한다. 이는 무비용 후처리 단계로—GGUF 파일의 바이어스 텐서 수정 외에 훈련이나 연산이 필요하지 않다.

Zerobias는 절벽에 특화된다: 가지치기 절벽(GPT-OSS-20B 27/32 전문가)에서 Zerobias는 MMLU +9pp를 회복한다(68% → 77%), 안전 작동점(28/32 = 78%)에 근접한다. 그러나 잘 보정된 28/32 지점에서 Zerobias는 유해하다(−14pp). 원래 바이어스가 여전히 유용한 라우팅 정보를 인코딩하고 있기 때문이다. Zerobias는 원래 바이어스가 모델의 중복 여유를 넘어선 가지치기로 인해 잘못 보정된 경우에만 유효하다.

3. 실험 결과

3.1 GPT-OSS-20B: 무손실 압축

GPT-OSS-20B는 레이어당 32 전문가, top-2 시그모이드 라우팅, MXFP4 형식을 가진 21B 파라미터 MoE 모델이다. 이 모델은 의미 있는 레이어 적응형 할당을 수행하기에는 전문가 수가 너무 적으므로 균일 가지치기(각 레이어에서 동일한 수의 전문가 제거)를 사용한다.

표 1: GPT-OSS-20B 가지치기 결과 (Q4_K_M, MMLU 100문항 0-shot, GSM8K 50문항 0-shot)
구성	크기	레이어당 전문가	MMLU	GSM8K	HumanEval
원본	11.67 GB	32	78%	—	—
가지치기 28/32	10.40 GB	28	78%	92%	78%
가지치기 27/32	~10.1 GB	27	68%	—	—
27/32 + Zerobias	~9.4 GB	27	77%	84%	—
가지치기 26/32	~9.7 GB	26	69%	—	—

28/32 모델은 무손실 압축을 달성한다: MMLU 78%(원본과 동일), GSM8K 92%(46/50), HumanEval 78%(39/50). 11.67 GB에서 10.40 GB로의 파일 크기 감소(−10.9%)는 미미하지만, 품질 비용은 전혀 없다.

27/32 전문가에서 급격한 가지치기 절벽이 나타난다: 레이어당 전문가 하나를 제거하는 것만으로 MMLU가 78%에서 68%로 하락한다(−10pp). Zerobias를 적용하면 이 손실의 대부분을 회복하여(77%, 원본 대비 −1pp) 준무손실 수준의 9.4 GB 모델을 생성한다. 주목할 점은 Zerobias 없는 26/32의 점수가 69%로, Zerobias 없는 27/32(68%)보다 높다는 것이다—이는 절벽이 28→27 전환에 집중된 계단 함수임을 보여준다.

3.2 Qwen3-30B-A3B: 언어 인식 가지치기

Qwen3-30B-A3B는 48개 레이어에 걸쳐 레이어당 128 전문가를 가진 30B 파라미터 MoE 모델이다. 더 많은 전문가를 보유함으로써 레이어 적응형 할당과 언어 인식 보호가 효과적이 된다.

표 2: Qwen3-30B-A3B 가지치기 곡선 (Q4_K_M, MMLU 100문항)
구성	크기	유지율	MMLU	비고
원본	17.3 GB	100%	77%	—
가지치기 90%	15.6 GB	90%	73%	−4pp
가지치기 80% (일본어 인식)	14.0 GB	80%	79% (사고 모드 ON)	JA 90%
가지치기 70%	12.3 GB	70%	51%	절벽 (−26pp)
가지치기 60%	—	60%	붕괴	—

언어 인식 일본어 전문가 보호가 적용된 80% 유지 모델(14.0 GB)은 MMLU 79%(사고 모드 활성화 시), GSM8K 92%, 일본어 품질 90%를 달성한다. 이는 언어 인식 가지치기가 압축과 다국어 품질 보존을 동시에 달성할 수 있음을 보여준다.

80%와 70% 유지율 사이에 급격한 절벽이 나타난다: MMLU가 72%에서 51%로 하락하며(−21pp), 추가 가지치기는 완전한 붕괴를 초래한다. 이는 80% 유지(14 GB)가 이 모델의 실질적 하한선임을 확립한다.

보정 기반 vs. 가중치 기반 평가

표 3: 중요도 평가 방법 비교 (30B-A3B, 80% 유지)
방법	MMLU	일본어	GSM8K
보정 기반 + 일본어 보호	74%	85%	92%
가중치 기반 + 일본어 보호	60%	65%	—

보정 기반 평가는 동일한 유지율에서 MMLU +14pp, 일본어 평가 +20pp으로 가중치 기반 평가를 능가한다. 두 방법은 근본적으로 다른 전문가 유지 집합을 산출한다—가중치 노름은 추론 시의 중요도를 예측하지 못한다.

3.3 Qwen3-Coder-Next 80B: 심층 가지치기

Qwen3-Coder-Next는 48개 레이어에 걸쳐 레이어당 512 전문가를 가진 80B 파라미터 MoE 모델이다(토큰당 활성 ~3B). 많은 전문가 수는 공격적인 레이어 적응형 가지치기를 가능하게 한다.

표 4: Qwen3-Coder-Next 80B 가지치기 (Q4_K_M, MMLU 100문항)
구성	크기	유지율	MMLU	기타
원본 Q4	~48 GB	100%	77%	HumanEval 74%
v7 (44% 가지치기)	27.68 GB	56%	70%	HumanEval 72%, LCB Easy 83%
50% 가지치기	24.4 GB	50%	72%	—
55% 가지치기	~20 GB	45%	60%	절벽 (−12pp)
65% 가지치기	~17.9 GB	35%	무작위	완전 붕괴

50% 가지치기 모델(24.4 GB)은 MMLU 72%를 달성하여—원본 품질의 93.5%를 유지하면서 24 GB 소비자 하드웨어 메모리에 적합하다. 이는 동일 모델의 Q2 양자화와 비교할 때 주목할 만하다. Q2 양자화는 유사한 파일 크기(~25–28 GB)를 생성하지만, 모든 가중치에 대한 균일한 정밀도 손실로 인해 MMLU 55–60%로 추정된다.

50%에서 45% 유지율 사이에 절벽이 나타나며(−12pp), 35% 유지율에서는 무작위 출력이 생성된다. 50% 유지율이 이 모델의 최대 가지치기 깊이이다.

3.4 전문가 가지치기 vs. 양자화

표 5: 유사한 크기에서의 전문가 가지치기와 공격적 양자화 비교
접근법	목표 크기	방법	잔여 정밀도	품질 영향
전문가 가지치기	24.4 GB	전문가 50% 제거	Q4 전체 (4비트)	MMLU 72%
Q2 양자화	~25–28 GB	모든 가중치를 2비트로 축소	2비트	MMLU ~55–60%

전문가 가지치기와 양자화는 직교하는 압축 기법이다. 전문가 가지치기는 전체 전문가 서브네트워크를 제거하면서 나머지 전문가에 대해서는 완전한 양자화 정밀도를 유지한다. 양자화는 모든 파라미터에 대해 정밀도를 균일하게 감소시킨다. 동일한 파일 크기에서 전문가 가지치기가 현저히 높은 품질을 달성하는데, 이는 유지된 전문가가 원래 정밀도로 작동하는 반면, 공격적 양자화는 모든 가중치를 열화시키기 때문이다.

나아가 전문가 가지치기는 이미 양자화된 모델 위에 적용할 수 있어(본 연구에서 Q4_K_M GGUF 파일에 대해 수행한 바와 같이), 두 기법을 조합할 수 있다: 먼저 가중치 수준 압축을 위한 양자화, 이후 구조적 압축을 위한 전문가 가지치기.

4. 교차 모델 발견

4.1 보편적 가지치기 절벽

세 가지 모델 계열 모두 급격한 가지치기 절벽—좁은 가지치기 범위 내에서 품질이 완전 보존에서 완전 파괴로 전환되는 현상—을 보인다. 이는 점진적 열화가 아닌 상전이이다.

표 6: 모델 계열별 가지치기 절벽 특성
모델	레이어당 전문가	안전 가지치기	절벽	Gini
GPT-OSS-20B	32	4 전문가 (~12.5%)	28 → 27 (−10pp)	0.041
Qwen3-30B-A3B	128	~26 전문가 (~20%)	80% → 70% (−21pp)	0.233
Qwen3-80B	512	~256 전문가 (~50%)	50% → 45% (−12pp)	—

통합적 예측 인자가 부상한다: 전문가 중요도 분포의 지니 계수가 절벽의 급격함을 예측한다. 낮은 지니 계수(거의 균일한 중요도, 예: GPT-OSS의 0.041)를 가진 모델은 모든 전문가가 실질적으로 기여하기 때문에 전문가당 더 급격한 절벽을 보인다. 높은 지니 계수(더 편향된 중요도)를 가진 모델은 절벽 전까지 더 깊은 가지치기가 가능하며 더 점진적인 열화를 보인다.

4.2 품질 열화 순서

모든 가지치기 실험에서 가지치기가 증가함에 따라 일관된 능력 열화 순서가 관찰된다:

코드 생성(가장 취약) — 가장 먼저 열화되며, 유효한 프로그램이 사라지기 전에 의사 코드를 생성
산술 — 상전이와 유사한 오류 발생(예: 15+27=45)
추론 — 논리적 일관성 저하
사실적 지식(가장 견고) — 가장 마지막에 열화되며, 다수의 전문가에 분산 저장

이 순서는 보정 설계에 중요한 의미를 갖는다: 보정 세트가 코드 생성(가장 취약한 능력)을 포괄하도록 하는 것이 핵심이며, 코드 전용 평가만이 Q&A 전용 테스트에서는 보이지 않는 실패 모드를 드러낸다.

5. 주요 부정적 결과

22개 연구 단계에 걸쳐 성공하지 못한 수많은 접근법을 체계적으로 평가하였다. 향후 연구를 위한 경계 조건으로서 가장 중요한 부정적 결과를 요약한다.

표 7: 주요 부정적 결과 요약
접근법	결과	핵심 통찰
Gate L2 노름 가지치기 (REAP)	HumanEval 70% at 50%	정적 가중치 지표는 실패; 보정 기반 평가가 필요
가중치 기반 중요도	MMLU 60% (vs 보정 74%)	가중치 노름은 추론 시 중요도를 예측하지 못함
균일 가지치기 비율	80B MMLU 64%	레이어 적응형 할당이 품질에 핵심적
영어 최적화 강제 페널티	MMLU 58%	언어 전문가도 STEM 추론에 기여
라우팅 부스트 + 가지치기	MMLU 56% (−21pp)	부스트와 가지치기 계획을 공동으로 계산해야 함
Expert-as-Adapter (KD)	레이어 MSE −15%, E2E −2pp	레이어 수준의 개선 ≠ 종단간 개선
TinyLoRA (13 파라미터)	MMLU −4pp (절벽에서)	미세 파라미터 조정으로는 MoE 회복에 불충분
GRPO 라우터 훈련	MMLU 67% (−5pp)	기울기 기반 바이어스 최적화가 Zerobias보다 열등
Zerobias 반복 가지치기	26/32: 65% (−4pp)	Zerobias는 절벽에 특화; 절벽 너머에서는 유해
밀집 SLM 가지치기 (4B)	FFN 25%: 붕괴	밀집 모델은 전문가 수준의 중복성 부족; 압축에서 MoE ≫ Dense
MoE abliteration	최대 일관성 56%	안전성 행동이 분산되어 있으며 전문가에 국소화되지 않음

교차적 교훈: 모든 부정적 결과에서 가장 일관된 발견은 가지치기 후 품질에서 전문가 용량이 아닌 라우터 바이어스 보정이 지배적 요인이라는 것이다. Expert-as-Adapter는 MSE 15% 감소를 달성하지만 종단간으로는 −2pp이다. TinyLoRA와 GRPO 라우터 훈련 모두 품질을 저하시킨다. Zerobias(절벽 지점에서)와 보정 기반 가지치기(절벽을 회피하는)만이 긍정적 결과를 산출한다. 이는 토큰을 올바르게 분배하는 라우터의 능력을 보존하는 것이 개별 전문가의 표현 용량보다 더 중요함을 시사한다.

6. 추론 엔진: moe-stream

레이어 적응형 가지치기는 레이어별로 서로 다른 전문가 수를 가진 모델을 생성하며, 표준 추론 엔진(llama.cpp)은 이를 지원하지 않는다. 이러한 가변 전문가 모델을 처리하기 위해 오픈소스 Rust 추론 엔진인 moe-stream을 개발하였다.

주요 기능:

세 가지 추론 모드: GPU 상주(모델 < RAM 80%), GPU 하이브리드(RAM 80–90%), SSD 스트리밍(> RAM 90%). 모델 크기와 가용 메모리에 따라 자동 선택.
SSD 스트리밍: NVMe SSD에서 필요 시 전문가 가중치를 스트리밍하여 RAM보다 큰 모델을 실행. 24 GB 하드웨어에서 48 GB 모델 기준 ~2 tok/s.
Q4 양자화 행렬 곱셈: 역양자화를 건너뛰고 Q4 가중치에서 직접 연산하여 +79% 속도 향상(1.16 → 2.07 tok/s).
Metal GPU 연산: Apple Silicon에서 하드웨어 가속 추론(GPU 상주 모델 기준 ~55 tok/s).
가변 전문가 수: GGUF 파일의 experts_per_layer 메타데이터 완전 지원.

균일한 전문가 수를 가진 모델(GPT-OSS-20B 28/32, 27/32)은 llama.cpp와 moe-stream 모두에서 작동한다. 레이어 적응형 수를 가진 모델(Qwen3-30B-A3B JP-80pct, Qwen3-Coder-Next 50pct)은 moe-stream이 필요하다.

7. 결론

본 연구에서는 전문가를 선택적으로 제거하여 MoE 언어 모델을 압축하는 실용적 프레임워크를 제시하였다. 핵심 원칙은 다음과 같다:

가중치보다 보정. 실제 추론을 통한 전문가 중요도 측정은 정적 가중치 분석보다 극적으로 우수한 결과를 산출한다(MMLU +15pp, 언어 태스크에서 +20pp).
레이어 적응형 할당. 각 레이어는 가지치기에 대한 민감도가 다르며, 적응형 할당은 가장 중요한 부분에서 품질을 보존한다.
언어 인식 보호. 충분한 전문가 수를 가진 모델은 언어 특화 라우팅을 발달시키며, 이러한 전문가를 보호함으로써 품질 손실 없이 시장별 압축이 가능하다.
절벽에서의 Zerobias. 가지치기가 절벽 지점에 도달했을 때, 라우터 바이어스를 0으로 설정하는 것이 가장 효과적인 회복 기법이다—기울기 기반 최적화, 전문가 어댑터 훈련, 미세 파라미터 조정을 능가한다.
절벽은 보편적이다. 테스트된 모든 MoE 아키텍처는 전문가 중요도의 지니 계수로 예측 가능한 급격한 가지치기 절벽을 보인다.

실질적 성과는 MoE 모델을 소비자 하드웨어에서 최소한의 품질 손실로 크게 압축할 수 있다는 것이다: GPT-OSS-20B는 11.67에서 9.4 GB로(MMLU 77%), Qwen3-30B-A3B는 17.3에서 14.0 GB로(사고 모드 시 MMLU 79%), Qwen3-Coder-Next 80B는 ~48에서 24.4 GB로(MMLU 72%). 전체 파이프라인은 GPU 훈련이 불필요하고, 기울기 계산이 필요 없으며, 1시간 이내에 완료된다.

사전 가지치기 모델

모든 모델은 HuggingFace에서 이용 가능합니다:

모델	크기	MMLU	llama.cpp	moe-stream
PrunedHub GPT-OSS-20B-28x	10.4 GB	78%	Yes	Yes
PrunedHub GPT-OSS-20B-27x-Zerobias	~9.4 GB	77%	Yes	Yes
PrunedHub Qwen3-30B-A3B-JP-80pct	14.0 GB	79%	No	Required
PrunedHub Qwen3-Coder-Next-50pct	24.4 GB	72%	No	Required

인용

@misc{goba-ai-labs-expert-pruning-2026,
  title={Calibration-Based Expert Pruning for Mixture-of-Experts Language Models},
  author={GOBA-AI-Labs},
  year={2026},
  url={https://goba-ai-labs.github.io/paper/}
}