
“AI 팩토리” 안에서 실제로 무슨 기술이 돌아가는가
AI 데이터센터는 이제 단순히 “서버를 많이 모아둔 곳”이 아니다.
실제로 안으로 들어가 보면, 정교하게 설계된 열(Heat), 전력(Power), 데이터 흐름(Data Flow)의 전쟁터에 가깝다.
- 랙 하나가 30~40kW를 넘기 시작하고
- 엔비디아 GB200 NVL72 같은 시스템은 랙 하나가 120kW를 소비하며
- 2027년 이후에는 500kW~1MW 랙까지 거론되는 세상에서
데이터센터 기술의 핵심은 “어떻게 이 열과 전력을 제어하면서, GPU들이 쉬지 않고 계산하게 만들 것인가”로 수렴한다.
그래서 오늘은 산업의 구조나 밸류체인 이야기를 내려놓고,
기술 자체의 원리와 동작 방식을 자세히 풀어본다.
- 냉각: 공랭의 한계, DLC(Direct-to-Chip), 액침 냉각의 구조
- 전력 인프라: 변압기→UPS→버스덕트→랙 내부 48V, 그리고 SiC 전력반도체
- 메모리: HBM의 적층 구조, TSV, 열 문제와 패키징
- CXL: CPU·GPU와 메모리 사이에서 실제로 어떤 신호가 오가는지
- DPU: 네트워크·스토리지 작업을 어떻게 CPU에서 떼어내는지
- 스토리지: 체크포인트 I/O가 왜 학습 속도를 결정하는지
“이번 글은 기술 중심 설명입니다. 산업 구조·시장의 큰 그림은 전체 흐름을 먼저 보는 것을 추천드립니다.”
1. 기술 원리 : AI 데이터센터를 움직이는 핵심 기술 메커니즘

1. 랙 전력 밀도와 열역학적 한계
1) 랙 전력 밀도란?
- 랙(Rack) 하나가 순간적으로 소비하는 전력(kW)을 의미
- 예전에는 5~10kW 정도면 충분했지만,
- AI 가속기가 쌓이면서 30~40kW가 기본, 80~120kW 랙이 등장
2) 왜 열이 문제가 되는가?
GPU는 전기를 거의 그대로 열로 바꿔버린다.
- 전력 1W는 곧 1J/s의 열이 된다.
- 100kW 랙은 매초 100,000줄의 열이 발생한다는 뜻이다.
- 이 열을 제때 빼내지 못하면 칩 온도는 올라가고,
- 클럭이 떨어지거나(쓰로틀링)
- 수명이 단축되고
- 최악의 경우 장비가 보호 모드로 꺼진다.
3) 공기의 한계
공랭식 데이터센터는 차가운 공기를 앞에서 넣고, 더운 공기를 뒤에서 뽑아낸다.
- 공기의 비열은 약 1.0kJ/kg·K
- 물은 약 4.2kJ/kg·K → 같은 온도 상승으로 옮길 수 있는 열에 제한이 있다.
100kW의 열을 공기로만 식히려면:
- 엄청난 풍량(공기 흐름)이 필요
- 그 풍량을 만들기 위한 팬 전력이 커짐
- 랙 주변에 “열섬(Hot Spot)”이 생겨 온도가 균일하게 떨어지지 않음
→ 그래서 30~40kW를 넘기면 공랭은 이론상 가능하더라도 실질적으로 비효율이 된다.
| 항목 | 내용 |
|---|---|
| 랙 전력 밀도 | 랙 하나가 소비하는 전력(kW) |
| 과거 | 5~10kW, 공랭으로 충분 |
| 현재 AI 랙 | 30~40kW(일반 AI), 120kW(GB200 NVL72) |
| 문제 | 공기로는 열과 풍량, 팬 전력, 소음 모두 한계 |
| 결론 | 30kW 이후부터는 액체 기반 냉각 필수 |
2. Direct-to-Chip 액체 냉각(DLC/DTC)의 구조와 동작
DLC(Direct Liquid Cooling)는 이름 그대로 칩 위에 액체를 직접 가져다 대는 방식이다.
(1) 기본 구조
- 콜드 플레이트(Cold Plate)
- 구리(Cu) 혹은 알루미늄(Al) 블록 안에 미세한 유로(채널)가 파여 있다.
- GPU·CPU·HBM 위에 붙여, 열을 바로 받아낸다.
- 쿨런트(Coolant)
- 물이나 글리콜 혼합액
- 전기전도도가 낮으며 부식 방지 첨가제 포함
- CDU(Cooling Distribution Unit)
- 랙 혹은 로우(Row) 단위의 미니 냉각기
- 냉각수를 순환시키고, 외부 열교환기와 연결
- 매니폴드(Manifold)·호스·커넥터
- 랙 상단/후면에 매니폴드 설치
- 각 서버로 냉각수 공급
- 누수 방지를 위한 퀵 디스커넥트 커넥터와 누수 센서 필수
(2) 열 전달 경로
칩 → TIM(서멀 인터페이스) → 콜드 플레이트 금속 → 콜드 플레이트 내부의 냉각수 → 매니폴드 → CDU → 외부 열교환기 → 외부 공기/수로 방출.
핵심은 발열원과 냉각수의 거리를 최대한 줄이는 것.
이 덕분에 80~120kW 랙을 안정적으로 운영할 수 있다.
(3) 하이브리드 구조
- GPU·CPU·HBM 등 “핵심 발열원”은 DLC로 식히고
- 나머지 부품(SSD, 전원부 등)은 여전히 공랭 → 그래서 DLC + 공랭 하이브리드 구조가 일반적이다.
| 요소 | 역할 | 기술 포인트 |
|---|---|---|
| 콜드 플레이트 | 칩과 냉각수 사이 인터페이스 | 미세 채널 설계, 접촉저항 최소화 |
| 쿨런트 | 열 운반 | 비전도성, 부식 방지 |
| CDU | 랙/로우 단위 열 제거 | 폐쇄 루프, 외부 열교환기 연계 |
| 매니폴드·호스 | 냉각수 분배 | 누수 방지 커넥터, 센서 중요 |
| 구조 | 칩 직결 + 공랭 보조 | 80~120kW 랙의 베이스라인 |

3. 액침 냉각(Immersion Cooling)의 물리적 특징
액침 냉각은 서버 전체를 절연 액체에 담가버리는 방식이다.
(1) 단상(Single-Phase) 액침
- 유체가 끓지 않고 액체 상태로만 순환
- 열을 받은 액체가 자연 대류 또는 펌프로 움직이며, 열을 탱크 외부 열교환기로 전달
- 미네랄 오일, 합성 에스테르 계열 등 사용
- 장점: 구조 단순, 관리 쉬움
- 단점: 열전달 효율이 투페이즈보다 낮음
(2) 이상(Two-Phase) 액침
- 유체가 칩 표면에서 끓는다(Boiling)
- 액체가 증기로 변하면서 기화열(Latent Heat)을 활용해 많은 열을 흡수
- 기화된 유체는 상단 콘덴서에서 다시 액체로 응축되어 떨어짐
- 장점: 열전달 효율 최고, 250kW 이상 초고밀도 가능
- 단점: 유체 가격, 환경 규제(PFAS), 밀폐·누출 관리 난이도
(3) 팬 제거 효과
- 공랭 서버는 각 GPU·CPU마다 팬이 달려 있음
- 액침에서는 탱크 내 대류에 의존 → 서버 팬 제거 가능
- 이로 인해 서버 전력의 10~15% 절감 효과
(4) 한국 기업의 역할
- GS칼텍스, SK엔무브:
- 기존 윤활유·기유 기술을 바탕으로 저점도·고절연·저휘발 특성을 가진 액침유 개발
- 데이터센터 실증 진행 중
- H3 Solution:
- 액침 전용 서버 설계(보드, 재질, 부품 배치까지 액침 최적화)
| 구분 | 단상 액침 | 투페이즈 액침 |
|---|---|---|
| 상변화 | 없음 | 끓음(기화) |
| 열전달 | 대류 중심 | 기화열 활용, 효율 최고 |
| 밀도 | ~150kW+ | 250kW~1MW 구간까지 |
| 난이도 | 중간 | 매우 높음(유체·밀폐·환경) |
| 서버팬 | 대부분 제거 가능 | 제거 가능 |
4. 전력 인프라와 전력반도체의 역할
(1) 고압에서 1V까지 : 전력 변환 단계
AI 데이터센터의 전기는 다음 단계를 거친다.
- 송전선 고압(수백 kV) → 변전소/수전설비
- 중저압(수십 kV) → 데이터센터로 인입
- 저압(수백 V AC) → 내부 배전반
- 48V DC → 랙 단위 전력 분배
- 12V/1V 미만 → 서버 PSU, VRM으로 GPU·CPU에 공급
각 단계마다 변압기, 정류기, DC-DC 컨버터가 들어간다.
이 과정에서의 효율이 전체 운영 비용을 좌우한다.
(2) 왜 SiC/GaN인가?
기존 실리콘(Si) 기반 전력반도체는 고전압·고온에서 한계가 있다.
- SiC(실리콘 카바이드):
- 밴드갭이 크고, 절연파괴 전계가 커서 고전압에 유리
- 고온에서도 누설전류가 적다
- UPS, 고용량 PFC, 서버 PSU 48V 스테이지에 적합
- GaN(질화갈륨):
- 고주파 스위칭에 강함
- 작은 패키지로도 높은 효율
- 서버 파워서플라이 1차측 등에 적용 가능
한국에서는:
- SK키파운드리: 8인치 SiC 공정
- KEC: 서버 파워·데이터센터용 MOSFET
- 아이큐랩: SiC 일괄 생산 공장 구축
| 단계 | 전압 영역 | 기술 요소 |
|---|---|---|
| 송전 → 수전 | 수백 kV → 수십 kV | 초고압 변압기 |
| 수전 → 배전 | 수십 kV → 수백 V | 변압기·차단기 |
| 배전 → 랙 | 수백 V AC → 48V DC | UPS·정류기·SiC |
| 랙 → 칩 | 48V → 12V/1V | DC-DC 컨버터·VRM |

5. HBM의 구조 : 왜 AI에서 필수인가?
HBM(High Bandwidth Memory)는 “대역폭을 위해 설계된 DRAM”이다.
(1) 구조적 특징
- 수직 적층(Stacking)
- 다수의 DRAM 다이를 수직으로 쌓는다(8단, 12단, 16단 등)
- 적층된 구조 전체를 하나의 “HBM 스택”으로 사용
- TSV(Through-Silicon Via)
- 각 다이를 관통하는 미세 구멍을 뚫고 도전 금속으로 채워,
- 상하층 간을 수직으로 연결
- 수천~수만 개의 TSV가 촘촘하게 배치됨
- 인터포저(Interposer) 및 패키징
- GPU와 HBM을 실리콘 인터포저 위에 나란히 붙이고
- 인터포저 내 미세 배선을 통해 GPU <-> HBM을 연결
- 이 패키징 기술이 바로 CoWoS/FC-BGA의 핵심
(2) 왜 HBM이 필요한가?
AI 모델 학습에서는 같은 시간 안에 처리해야 하는 데이터량이 폭증한다.
- GPU 코어는 더 빠르게 계산할 준비가 되어 있는데
- 메모리에서 데이터를 가져오기 느리면 연산 유닛이 놀게 된다.
HBM은:
- 통상 DRAM 대비 훨씬 넓은 I/O (수천 비트 병렬라인)
- 매우 높은 동작 속도 → 결과적으로 대역폭(GB/s)을 수십~수백 배 수준으로 끌어올린 메모리다.
(3) HBM3E → HBM4로의 진화 포인트
- 적층 단 수 증가(12-Hi → 16-Hi)
- 속도 향상
- Base Die에 로직 공정 삽입 → ECC·재구성·온도 관리 등 지능형 기능 가능
| 요소 | 설명 | 의미 |
|---|---|---|
| 적층(3D Stack) | DRAM 다이를 수직으로 쌓음 | 용량·대역폭 동시 확보 |
| TSV | 수직 관통 비아 | 초고속 상하 연결 |
| 인터포저 | GPU-HBM 중간 기판 | 고밀도 배선 담당 |
| HBM3E/4 | 차세대 HBM | AI 메모리 표준 |
6. CXL의 역할 : “용량”과 “유연성”을 여는 인터페이스
HBM이 속도를 해결한다면, CXL(Compute Express Link)은 용량과 확장성을 해결한다.
(1) CXL의 기본 구조
CXL은 PCIe PHY(물리 레이어)를 기반으로,
- CPU, GPU, DPU와
- 외부 메모리(DDR5, NAND 기반 메모리풀 등)를
- 낮은 지연으로 연결하는 인터페이스이다.
CXL 장치는 크게 세 가지 타입으로 나뉜다.
- Type 1: 가속기(캐시 일관 필요 없음)
- Type 2: GPU·가속기(메모리와 함께)
- Type 3: 메모리 전용 장치(CXL 메모리 확장 모듈)
(2) AI에서 CXL이 필요한 이유
LLM 추론에서는 KV Cache가 엄청난 용량을 차지한다.
- HBM은 빠르지만 용량이 적고 비싸다.
- KV Cache 전체를 HBM에 두면 비용·수율이 비현실적이다.
그래서 사용되는 구조:
- 자주 쓰이는 부분: HBM에
- 덜 자주 쓰이거나, 텐서 압축이 가능한 부분: CXL 메모리 풀에 → 이 두 영역을 하나의 논리적 메모리 공간처럼 보이도록 하는 것이 CXL의 강점이다.
(3) 한국의 CXL 생태계
- 삼성전자: CXL 메모리 모듈(CMM-D)
- SK하이닉스: CXL DDR 모듈
- 파네시아: CXL 3.x 스위치 & 컨트롤러 IP 개발
| 항목 | 설명 |
|---|---|
| CXL 역할 | CPU/GPU ↔ 외장 메모리 고속 연결 |
| Type 3 | 메모리 전용 장치 |
| AI 활용 | KV Cache, 대규모 파라미터 보관 |
| HBM vs CXL | HBM=속도 / CXL=용량·유연성 |
7.CPU, GPU, TPU, DPU의 차이점과 동작 원리
최근 엔비디아의 주가 흐름과 AI 데이터센터 관련 뉴스를 보면 생소한 반도체 용어들이 쏟아집니다. CPU와 GPU는 익숙한데, 구글이 만든다는 TPU는 무엇이고, 최근 뜬다는 DPU는 또 무엇일까요? 이 네 가지는 모두 ‘연산 장치’이지만, 태어난 목적과 무엇을 가장 잘하느냐가 완전히 다릅니다.
한 눈에 보는 핵심 요약
- CPU (Central Processing Unit): 컴퓨터의 두뇌. 복잡하고 순차적인 명령을 처리하는 만능 지휘관입니다.
- GPU (Graphics Processing Unit): 병렬 연산의 제왕. 수천 개의 코어로 그래픽과 AI 데이터를 동시에 쏟아붓듯 처리합니다.
- TPU (Tensor Processing Unit): AI 맞춤형 천재. 불필요한 기능을 빼고 오직 딥러닝(행렬 연산)에만 올인했습니다.
- DPU (Data Processing Unit): 데이터센터의 살림꾼. CPU가 하던 통신·보안 잡무를 가져와 효율을 극대화합니다.
(1) CPU: 순차 처리의 달인, 만능 지휘관 CPU는 소수의 매우 똑똑한 고성능 코어로 구성되어 명령어를 하나씩 순서대로 빠르게 처리하는 ‘직렬 연산(Serial Processing)’에 최적화된 장치입니다. 컴퓨터의 제어, 복잡한 논리 판단, 운영체제 실행 등 다방면의 작업을 수행하는 만능 지휘관 역할을 하지만, 한 번에 하나씩 일을 처리하는 구조 탓에 단순 반복 계산이 수억 번 필요한 대규모 AI 학습을 혼자 감당하기에는 속도와 효율 면에서 한계가 명확합니다.
(2) GPU: 물량 공세로 승부하는 병렬 연산의 핵심 GPU는 CPU보다 개별 성능은 낮지만 훨씬 많은 수천 개의 작은 코어를 탑재하여, 방대한 데이터를 동시에 처리하는 ‘병렬 연산’ 구조를 가집니다. 본래는 모니터의 수백만 픽셀을 동시에 쏘아주기 위해 개발되었으나, AI 딥러닝 과정이 행렬 곱셈이라는 무수한 단순 연산의 집합임이 밝혀지면서 재평가받았습니다. 현재는 이 강력한 물량 공세 능력을 바탕으로 AI 학습과 추론을 주도하는 ‘AI 시대의 곡괭이’로 자리 잡았습니다.
(3) TPU: 구글이 만든, 오직 AI만을 위한 스페셜리스트 TPU는 구글이 엔비디아 GPU의 독주를 막고 자사의 AI(알파고, 텐서플로우 등)를 가속화하기 위해 직접 설계한 주문형 반도체(ASIC)입니다. 범용성을 가진 GPU와 달리, 그래픽 출력 등 AI와 무관한 기능을 과감히 제거하고 오직 딥러닝의 핵심인 ‘텐서(Tensor) 연산’에만 회로를 집중시켰습니다. 덕분에 특정 AI 모델을 돌릴 때는 GPU보다 압도적인 전력 효율과 처리 속도를 보여주는 ‘AI 맞춤형 천재’입니다.
(4) DPU: CPU의 짐을 덜어주는 데이터센터의 살림꾼 DPU는 CPU가 본연의 연산에만 집중할 수 있도록 데이터센터의 통신, 보안, 저장(스토리지) 관련 잡무를 떼어내 전담하는 특수 프로세서입니다. 네트워크 패킷 처리나 데이터 암호화 같은 ‘인프라 관리’ 업무를 DPU가 대신 처리(Offload)해 줌으로써, CPU 자원의 낭비를 막고 데이터 병목 현상을 해결합니다. 최근 엔비디아뿐만 아니라 국내 스타트업 ‘망고부스트’ 등이 이 기술을 선도하며 데이터센터 효율화의 핵심 부품으로 떠오르고 있습니다.
| 구분 | CPU | GPU | TPU | DPU |
|---|---|---|---|---|
| 핵심 별명 | 만능 지휘관 | 작업반장 (물량) | AI 외골수 | 살림꾼 (보조) |
| 잘하는 것 | 복잡한 논리, OS 실행 | 대규모 병렬 연산 | 특정 AI 모델 학습/추론 | 데이터 이동, 보안, 압축 |
| 유연성 | 매우 높음 (모든 작업 가능) | 높음 (그래픽+AI) | 낮음 (AI 전용) | 낮음 (인프라 전용) |
| 주요 플레이어 | Intel, AMD | NVIDIA, AMD | Google (자체 사용) | NVIDIA, 망고부스트 |
2. 공정 흐름 : 기술이 실제로 한 덩어리로 동작하는 과정

열·전력·칩·네트워크까지 이어지는 전체 밸류체인을 다시 보고 싶다면?
여기서는 개별 기술이 아니라, AI 학습 한 번이 돌아갈 때 실제로 어떤 기술들이 순서대로 동작하는지를 공정처럼 살펴본다.
- 전력이 들어온다.
- 냉각수가 순환한다.
- GPU가 열을 뿜으며 연산한다.
- HBM·CXL이 데이터를 공급한다.
- DPU가 네트워크·스토리지를 정리한다.
- 체크포인트가 스토리지에 기록된다.
각 단계를 기술적으로 연결해보자.
1. 전력·냉각 루프
- 전력망에서 데이터센터까지
- 변압기에서 전압을 낮추고, UPS를 거쳐, 48V DC로 분배
- 전력 → 열로 변환
- GPU·CPU·HBM이 전력을 소비하며 열을 발생
- 열 → 냉각수로 이동
- 칩 → 콜드플레이트 → 냉각수
- 냉각수 → 외부로 열 방출
- CDU → 열교환기 → 외부 공기 혹은 냉각탑/건물 외부
이 루프가 끊기면, 즉시 클러스터 전체에 문제가 생긴다.
2. 데이터·메모리 루프
- 스토리지에서 데이터 로딩
- NVMe 스토리지 → 스토리지 노드 → 네트워크
- GPU에 배치
- CPU가 미니배치 생성, GPU로 전송
- HBM이 GPU 연산을 먹여 살림
- GPU 코어: 행렬 연산
- HBM: 연산에 필요한 텐서 데이터를 지속적으로 공급
- CXL 메모리 풀
- KV Cache, 파라미터 일부를 CXL 메모리로 분산
- 필요 시 GPU/CPU가 다시 가져옴
3. 네트워크·DPU 루프
- GPU 간 통신(예: AllReduce, AllGather)
- InfiniBand 혹은 고속 이더넷을 통해 파라미터/그래디언트 교환
- 이 과정에서:
- DPU가 패킷 처리, 암호화, 경로 제어
- CPU는 최소 개입
- 장애 시 체크포인트 기반 학습 재개
| 루프 | 주요 기술 | 핵심 포인트 |
|---|---|---|
| 전력·열 루프 | 변압기·48V·DLC·액침 | 전력 → 열 → 냉각수 → 외부 |
| 데이터·메모리 루프 | NVMe·HBM·CXL | 데이터 공급이 끊기면 GPU가 논다 |
| 네트워크 루프 | InfiniBand·DPU | GPU 간 통신·보안·경로 제어 담당 |
3. 장점 / 단점 : 기술 관점에서 보는 AI 데이터센터
1. 장점
- 초고밀도 연산 가능: 동일 면적·전력당 연산량 극대화
- 에너지 효율 최적화: DLC/액침 + SiC 전력반도체로 손실 감소
- 유연한 메모리 구성: HBM + CXL 조합으로 속도/용량 동시 확보
- 통신 성능 극대화: DPU + 고속 네트워크로 GPU 자원을 연산에 집중
2. 단점
- 설계 복잡도: 냉각·전력·패키징 기술을 모두 고려한 설계 필요
- 운영 난이도: DLC/액침 시스템은 누수·유체 관리 리스크
- 고장 시 영향 범위: 고밀도 환경이라 장애 하나가 큰 영역에 영향
- 전력·환경 제약: 전력망·용수·ESG 규제까지 함께 고려 필요
| 구분 | 내용 |
|---|---|
| 장점 | 고성능·고효율·고밀도·고확장성 |
| 단점 | 복잡도 증가·운영 난이도·전력·환경 제약 |
4. 경쟁 기술과 비교 : 비슷해 보이지만 실제로는 역할이 다른 것들
여기서는 헷갈리기 쉬운 쌍들만 기술적으로 비교해본다.
1. 공랭 vs DLC vs 액침
- 공랭:
- 장점: 단순, 저렴, 경험 많음
- 단점: 30~40kW 이상에선 비효율·소음·Hot Spot
- DLC:
- 장점: 고밀도 랙 대응, 기존 랙 구조 유지 가능
- 단점: 배관·매니폴드 설계 복잡, 누수 리스크
- 액침:
- 장점: 발열 해결 능력 최강, 팬 제거, 고밀도에 최적
- 단점: CAPEX, 유체 관리, 환경 규제 대응 필요
2. HBM vs DDR5 vs CXL
- DDR5: 범용 서버 DRAM, 싼 대신 대역폭 낮음
- HBM: AI 가속기를 위한 고대역폭 메모리, 적층·TSV 구조
- CXL: 외부 메모리 풀과 CPU/GPU 사이의 연결 인터페이스
→ HBM과 CXL은 “대체 관계”가 아니라 두 층 구조(온칩/오프칩)를 만드는 기술.
3. InfiniBand vs Ethernet + DPU
- InfiniBand: AI 학습용 백엔드, 초저지연·고신뢰
- Ethernet: 범용성·비용·운영 편의, 추론·서비스에 적합
- DPU: 두 환경 모두에서 네트워크 스택을 오프로드해 CPU 부담 감소
| 비교 축 | 기술 A | 기술 B | 관계 |
|---|---|---|---|
| 냉각 | 공랭 | DLC/액침 | 구간 분리 |
| 메모리 | HBM | CXL | 보완 |
| 네트워크 | InfiniBand | Ethernet + DPU | 용도 분리 |
5. 이 기술을 사용하는/개발하는 기업
- 냉각·열 관리:
- 액침유: GS칼텍스, SK엔무브
- 액침 서버: H3 Solution, GRC 등
- DLC 솔루션: 글로벌 쿨링 업체들(OEM 협업)
- 전력 인프라·전력반도체:
- 변압기·배전: LS일렉트릭, 효성중공업
- SiC 파운드리: SK키파운드리, 아이큐랩 등
- 서버 파워: KEC 등 MOSFET 업체
- 메모리·패키징:
- HBM: SK하이닉스, 삼성전자
- 패키징·기판: 이수페타시스, 대덕전자 등
- CXL·DPU·스토리지:
- CXL 스위치: 파네시아
- DPU: 망고부스트
- SSD 컨트롤러: 파두(FADU)
| 구간 | 주요 기술 | 관련 기업(예시) |
|---|---|---|
| 냉각 | DLC·액침·액침유 | GS칼텍스·SK엔무브·H3 |
| 전력 | 변압기·48V·SiC | LS·효성·SK키파운드리 |
| 메모리 | HBM·CXL | 삼성·SK·파네시아 |
| 패키징 | CoWoS·FC-BGA·MLB | 이수페타시스·대덕전자 |
| I/O | DPU·SSD 컨트롤러 | 망고부스트·파두 |
6. 기술만 놓고 보면, AI 데이터센터는 이렇게 보인다
이제까지의 내용은 “돈이 어디로 가느냐”가 아니라,
기술이 실제로 어떻게 작동하느냐에 초점을 맞춰 설명했다.
정리해보면:
- 열과 전력
- 120kW 랙 시대에 공랭은 한계
- DLC·액침·SiC 전력반도체가 필수 기술 스택이 된다.
- 메모리와 패키징
- HBM은 대역폭, CXL은 용량·확장성
- TSV·인터포저·CoWoS·FC-BGA가 AI 칩의 또 다른 심장이다.
- 네트워크와 DPU
- GPU 간 통신은 InfiniBand/고속 이더넷 위에서 돌아가고
- DPU가 네트워크·스토리지·보안을 CPU 대신 처리한다.
- 스토리지와 체크포인트
- NVMe·오브젝트 스토리지가 학습 효율의 숨은 결정 요소다.
| 관점 | 핵심 기술 | 한 줄 정리 |
|---|---|---|
| 열 | DLC·액침 | 공랭에서 액체 중심으로의 패러다임 전환 |
| 전력 | 48V·SiC | 전력 변환 효율이 곧 OPEX 절감 |
| 메모리 | HBM·CXL | 속도(HBM) + 용량(CXL) 두 층 구조 |
| 패키징 | CoWoS·FC-BGA | HBM+GPU를 묶는 진짜 핵심 공정 |
| 네트워크 | InfiniBand·DPU | GPU 간 통신과 I/O를 담당하는 신경망 |
| 스토리지 | NVMe·Checkpoint | 학습 재시작·효율에 결정적인 역할 |
FAQ
Q1. 왜 AI 데이터센터는 공랭만으로 운영이 어려워졌나요?
GPU가 랙당 80~120kW 이상의 열을 발생시키면서 공기의 열전달 능력으로는 제거가 불가능해졌기 때문인데, 공랭은 열용량·풍량·팬 효율 모두 한계에 도달했습니다.
Q2. DLC(Direct-to-Chip) 냉각의 핵심 장점은 무엇인가요?
칩 바로 위에 콜드플레이트를 장착해 열을 즉시 냉각수로 전달하는데, 발열원과 냉각 매체의 거리가 가장 짧아 고밀도 랙(80~120kW)에 안정적으로 대응할 수 있습니다.
Q3. 액침 냉각은 DLC와 무엇이 다르며, 어떤 환경에서 더 유리한가요?
DLC는 칩 위에 물을 직접 흐르게 하고, 액침은 서버 전체를 절연 액체에 담가 열을 통째로 제거하는데, 150kW 이상 초고밀도 환경에서는 액침이 더 높은 열관리 효율을 제공합니다.
Q4. HBM이 AI 가속기의 필수 메모리인 이유는 무엇인가요?
TSV 기반 적층 구조로 초고대역폭을 제공해 GPU 연산 속도를 유지시켜준다. DRAM 속도가 병목이 되던 문제를 해결하며 대규모 행렬 연산에 최적화되어 있습니다.
Q5. CXL 메모리는 HBM을 대체하나요? 아니면 보완하나요?
대체가 아니라 보완입니다.. HBM은 “속도”, CXL은 “용량·유연성”을 해결한다. AI 추론 시 필요한 대규모 KV Cache는 대부분 CXL 메모리 풀로 분산됩니다.
Q6. DPU는 GPU나 CPU와 어떤 역할 차이가 있나요?
DPU는 네트워크·보안·스토리지 작업을 CPU에서 분리해 전담하는 장치입니다.. GPU가 연산에만 집중할 수 있도록 데이터 이동·패킷 처리·암호화를 오프로드합니다.
Q7. AI 모델 학습이 빠른데도 전체 학습 시간이 길어지는 이유는 무엇인가요?
체크포인트 저장이나 데이터 I/O 병목 때문입니다. NVMe·오브젝트 스토리지 속도가 충분히 빠르지 않으면 GPU가 데이터를 기다리며 Idle 상태가 되어 학습 시간이 크게 늘어납니다.
“내일은 이 기술을 실제 만드는 기업들을 다룹니다.”
본 글은 기술·산업 이해를 돕기 위한 교육·정보 제공 목적이며, 특정 종목·자산·산업에 대한 투자 권유가 아닙니다. 투자 판단과 책임은 전적으로 투자자 본인에게 있습니다.