M4 MacBook에서 3.2B LLM을 구동하는 삼층 샌드위치 아키텍처
들어가며 MacBook Air M4에 16GB 통합 메모리가 달려있다. PyTorch로 3B 모델을 학습시키면 몇 분 안에 팬이 돌아가고, 무팬 모델에서는 서멀 스로틀링이 걸린다. Bit-Axon은 이 제약을 아키텍처 단에서 해결한 3.2B 파라미터 하이브리드 언어 모델이다. 핵심 아이디어는 삼층 샌드위치 구조다: 24개 레이어를 세 구간으로 나누어 각각 다른 연산 방식을 적용한다. L L L a a a y y y e e e r r r 1 1 9 7 - - - 8 1 2 : 6 4 : : █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ █ S S S P W M u A r + e + M A M o x o E o E n - S S M → → → 문 심 출 맥 층 력 흡 추 합 수 론 성 ( ( ( O O 선 ( ( 형 1 n ) ) + 메 어 희 모 텐 소 리 션 ) ) ) 이 구조는 단순한 직관적 분할이 아니다. Transformer 아키텍처가 직면한 세 가지 근본적인 한계 — 제곱 복잡도, 메모리 폭발, 연산 밀도 — 에 대해 각 구간이 다른 해결책을 제시한다. 이 포스트에서는 각 레이어 그룹의 수학적 기초부터 MLX 프레임워크 최적화, 서멀 인식 학습까지, MacBook에서 LLM을 구동하는 전체 설계를 살펴본다. ...