🔽contents

블로그 썸네일 8
AI 데이터센터는 이렇게 작동한다: 핵심 기술(DLC·액침·HBM·DPU)의 기술 원리 정리 7

“AI 팩토리” 안에서 실제로 무슨 기술이 돌아가는가

AI 데이터센터는 이제 단순히 “서버를 많이 모아둔 곳”이 아니다.

실제로 안으로 들어가 보면, 정교하게 설계된 열(Heat), 전력(Power), 데이터 흐름(Data Flow)의 전쟁터에 가깝다.

  • 랙 하나가 30~40kW를 넘기 시작하고
  • 엔비디아 GB200 NVL72 같은 시스템은 랙 하나가 120kW를 소비하며
  • 2027년 이후에는 500kW~1MW 랙까지 거론되는 세상에서

데이터센터 기술의 핵심은 “어떻게 이 열과 전력을 제어하면서, GPU들이 쉬지 않고 계산하게 만들 것인가”로 수렴한다.

그래서 오늘은 산업의 구조나 밸류체인 이야기를 내려놓고,

기술 자체의 원리와 동작 방식을 자세히 풀어본다.

  • 냉각: 공랭의 한계, DLC(Direct-to-Chip), 액침 냉각의 구조
  • 전력 인프라: 변압기→UPS→버스덕트→랙 내부 48V, 그리고 SiC 전력반도체
  • 메모리: HBM의 적층 구조, TSV, 열 문제와 패키징
  • CXL: CPU·GPU와 메모리 사이에서 실제로 어떤 신호가 오가는지
  • DPU: 네트워크·스토리지 작업을 어떻게 CPU에서 떼어내는지
  • 스토리지: 체크포인트 I/O가 왜 학습 속도를 결정하는지

“이번 글은 기술 중심 설명입니다. 산업 구조·시장의 큰 그림은 전체 흐름을 먼저 보는 것을 추천드립니다.”



2 2
AI 데이터센터는 이렇게 작동한다: 핵심 기술(DLC·액침·HBM·DPU)의 기술 원리 정리 8

1. 랙 전력 밀도와 열역학적 한계

1) 랙 전력 밀도란?

  • 랙(Rack) 하나가 순간적으로 소비하는 전력(kW)을 의미
  • 예전에는 5~10kW 정도면 충분했지만,
  • AI 가속기가 쌓이면서 30~40kW가 기본, 80~120kW 랙이 등장

2) 왜 열이 문제가 되는가?

GPU는 전기를 거의 그대로 열로 바꿔버린다.

  • 전력 1W는 곧 1J/s의 열이 된다.
  • 100kW 랙은 매초 100,000줄의 열이 발생한다는 뜻이다.
  • 이 열을 제때 빼내지 못하면 칩 온도는 올라가고,
    • 클럭이 떨어지거나(쓰로틀링)
    • 수명이 단축되고
    • 최악의 경우 장비가 보호 모드로 꺼진다.

3) 공기의 한계

공랭식 데이터센터는 차가운 공기를 앞에서 넣고, 더운 공기를 뒤에서 뽑아낸다.

  • 공기의 비열은 약 1.0kJ/kg·K
  • 물은 약 4.2kJ/kg·K → 같은 온도 상승으로 옮길 수 있는 열에 제한이 있다.

100kW의 열을 공기로만 식히려면:

  • 엄청난 풍량(공기 흐름)이 필요
  • 그 풍량을 만들기 위한 팬 전력이 커짐
  • 랙 주변에 “열섬(Hot Spot)”이 생겨 온도가 균일하게 떨어지지 않음

→ 그래서 30~40kW를 넘기면 공랭은 이론상 가능하더라도 실질적으로 비효율이 된다.

항목내용
랙 전력 밀도랙 하나가 소비하는 전력(kW)
과거5~10kW, 공랭으로 충분
현재 AI 랙30~40kW(일반 AI), 120kW(GB200 NVL72)
문제공기로는 열과 풍량, 팬 전력, 소음 모두 한계
결론30kW 이후부터는 액체 기반 냉각 필수

2. Direct-to-Chip 액체 냉각(DLC/DTC)의 구조와 동작

DLC(Direct Liquid Cooling)는 이름 그대로 칩 위에 액체를 직접 가져다 대는 방식이다.

(1) 기본 구조

  1. 콜드 플레이트(Cold Plate)
    • 구리(Cu) 혹은 알루미늄(Al) 블록 안에 미세한 유로(채널)가 파여 있다.
    • GPU·CPU·HBM 위에 붙여, 열을 바로 받아낸다.
  2. 쿨런트(Coolant)
    • 물이나 글리콜 혼합액
    • 전기전도도가 낮으며 부식 방지 첨가제 포함
  3. CDU(Cooling Distribution Unit)
    • 랙 혹은 로우(Row) 단위의 미니 냉각기
    • 냉각수를 순환시키고, 외부 열교환기와 연결
  4. 매니폴드(Manifold)·호스·커넥터
    • 랙 상단/후면에 매니폴드 설치
    • 각 서버로 냉각수 공급
    • 누수 방지를 위한 퀵 디스커넥트 커넥터누수 센서 필수

(2) 열 전달 경로

칩 → TIM(서멀 인터페이스) → 콜드 플레이트 금속 → 콜드 플레이트 내부의 냉각수 → 매니폴드 → CDU → 외부 열교환기 → 외부 공기/수로 방출.

핵심은 발열원과 냉각수의 거리를 최대한 줄이는 것.

이 덕분에 80~120kW 랙을 안정적으로 운영할 수 있다.

(3) 하이브리드 구조

  • GPU·CPU·HBM 등 “핵심 발열원”은 DLC로 식히고
  • 나머지 부품(SSD, 전원부 등)은 여전히 공랭 → 그래서 DLC + 공랭 하이브리드 구조가 일반적이다.
요소역할기술 포인트
콜드 플레이트칩과 냉각수 사이 인터페이스미세 채널 설계, 접촉저항 최소화
쿨런트열 운반비전도성, 부식 방지
CDU랙/로우 단위 열 제거폐쇄 루프, 외부 열교환기 연계
매니폴드·호스냉각수 분배누수 방지 커넥터, 센서 중요
구조칩 직결 + 공랭 보조80~120kW 랙의 베이스라인

3 2
AI 데이터센터는 이렇게 작동한다: 핵심 기술(DLC·액침·HBM·DPU)의 기술 원리 정리 9

3. 액침 냉각(Immersion Cooling)의 물리적 특징

액침 냉각은 서버 전체를 절연 액체에 담가버리는 방식이다.

(1) 단상(Single-Phase) 액침

  • 유체가 끓지 않고 액체 상태로만 순환
  • 열을 받은 액체가 자연 대류 또는 펌프로 움직이며, 열을 탱크 외부 열교환기로 전달
  • 미네랄 오일, 합성 에스테르 계열 등 사용
  • 장점: 구조 단순, 관리 쉬움
  • 단점: 열전달 효율이 투페이즈보다 낮음

(2) 이상(Two-Phase) 액침

  • 유체가 칩 표면에서 끓는다(Boiling)
  • 액체가 증기로 변하면서 기화열(Latent Heat)을 활용해 많은 열을 흡수
  • 기화된 유체는 상단 콘덴서에서 다시 액체로 응축되어 떨어짐
  • 장점: 열전달 효율 최고, 250kW 이상 초고밀도 가능
  • 단점: 유체 가격, 환경 규제(PFAS), 밀폐·누출 관리 난이도

(3) 팬 제거 효과

  • 공랭 서버는 각 GPU·CPU마다 팬이 달려 있음
  • 액침에서는 탱크 내 대류에 의존 → 서버 팬 제거 가능
  • 이로 인해 서버 전력의 10~15% 절감 효과

(4) 한국 기업의 역할

  • GS칼텍스, SK엔무브:
    • 기존 윤활유·기유 기술을 바탕으로 저점도·고절연·저휘발 특성을 가진 액침유 개발
    • 데이터센터 실증 진행 중
  • H3 Solution:
    • 액침 전용 서버 설계(보드, 재질, 부품 배치까지 액침 최적화)
구분단상 액침투페이즈 액침
상변화없음끓음(기화)
열전달대류 중심기화열 활용, 효율 최고
밀도~150kW+250kW~1MW 구간까지
난이도중간매우 높음(유체·밀폐·환경)
서버팬대부분 제거 가능제거 가능


4. 전력 인프라와 전력반도체의 역할

(1) 고압에서 1V까지 : 전력 변환 단계

AI 데이터센터의 전기는 다음 단계를 거친다.

  1. 송전선 고압(수백 kV) → 변전소/수전설비
  2. 중저압(수십 kV) → 데이터센터로 인입
  3. 저압(수백 V AC) → 내부 배전반
  4. 48V DC → 랙 단위 전력 분배
  5. 12V/1V 미만 → 서버 PSU, VRM으로 GPU·CPU에 공급

각 단계마다 변압기, 정류기, DC-DC 컨버터가 들어간다.

이 과정에서의 효율이 전체 운영 비용을 좌우한다.

(2) 왜 SiC/GaN인가?

기존 실리콘(Si) 기반 전력반도체는 고전압·고온에서 한계가 있다.

  • SiC(실리콘 카바이드):
    • 밴드갭이 크고, 절연파괴 전계가 커서 고전압에 유리
    • 고온에서도 누설전류가 적다
    • UPS, 고용량 PFC, 서버 PSU 48V 스테이지에 적합
  • GaN(질화갈륨):
    • 고주파 스위칭에 강함
    • 작은 패키지로도 높은 효율
    • 서버 파워서플라이 1차측 등에 적용 가능

한국에서는:

  • SK키파운드리: 8인치 SiC 공정
  • KEC: 서버 파워·데이터센터용 MOSFET
  • 아이큐랩: SiC 일괄 생산 공장 구축
단계전압 영역기술 요소
송전 → 수전수백 kV →
수십 kV
초고압 변압기
수전 → 배전수십 kV →
수백 V
변압기·차단기
배전 → 랙수백 V AC → 48V DCUPS·정류기·SiC
랙 → 칩48V → 12V/1VDC-DC 컨버터·VRM

4 2
AI 데이터센터는 이렇게 작동한다: 핵심 기술(DLC·액침·HBM·DPU)의 기술 원리 정리 10

5. HBM의 구조 : 왜 AI에서 필수인가?

HBM(High Bandwidth Memory)는 “대역폭을 위해 설계된 DRAM”이다.

(1) 구조적 특징

  1. 수직 적층(Stacking)
    • 다수의 DRAM 다이를 수직으로 쌓는다(8단, 12단, 16단 등)
    • 적층된 구조 전체를 하나의 “HBM 스택”으로 사용
  2. TSV(Through-Silicon Via)
    • 각 다이를 관통하는 미세 구멍을 뚫고 도전 금속으로 채워,
    • 상하층 간을 수직으로 연결
    • 수천~수만 개의 TSV가 촘촘하게 배치됨
  3. 인터포저(Interposer) 및 패키징
    • GPU와 HBM을 실리콘 인터포저 위에 나란히 붙이고
    • 인터포저 내 미세 배선을 통해 GPU <-> HBM을 연결
    • 이 패키징 기술이 바로 CoWoS/FC-BGA의 핵심

(2) 왜 HBM이 필요한가?

AI 모델 학습에서는 같은 시간 안에 처리해야 하는 데이터량이 폭증한다.

  • GPU 코어는 더 빠르게 계산할 준비가 되어 있는데
  • 메모리에서 데이터를 가져오기 느리면 연산 유닛이 놀게 된다.

HBM은:

  • 통상 DRAM 대비 훨씬 넓은 I/O (수천 비트 병렬라인)
  • 매우 높은 동작 속도 → 결과적으로 대역폭(GB/s)을 수십~수백 배 수준으로 끌어올린 메모리다.

(3) HBM3E → HBM4로의 진화 포인트

  • 적층 단 수 증가(12-Hi → 16-Hi)
  • 속도 향상
  • Base Die에 로직 공정 삽입 → ECC·재구성·온도 관리 등 지능형 기능 가능
요소설명의미
적층(3D Stack)DRAM 다이를 수직으로 쌓음용량·대역폭 동시 확보
TSV수직 관통 비아초고속 상하 연결
인터포저GPU-HBM 중간 기판고밀도 배선 담당
HBM3E/4차세대 HBMAI 메모리 표준

6. CXL의 역할 : “용량”과 “유연성”을 여는 인터페이스

HBM이 속도를 해결한다면, CXL(Compute Express Link)은 용량과 확장성을 해결한다.

(1) CXL의 기본 구조

CXL은 PCIe PHY(물리 레이어)를 기반으로,

  • CPU, GPU, DPU와
  • 외부 메모리(DDR5, NAND 기반 메모리풀 등)를
  • 낮은 지연으로 연결하는 인터페이스이다.

CXL 장치는 크게 세 가지 타입으로 나뉜다.

  • Type 1: 가속기(캐시 일관 필요 없음)
  • Type 2: GPU·가속기(메모리와 함께)
  • Type 3: 메모리 전용 장치(CXL 메모리 확장 모듈)

(2) AI에서 CXL이 필요한 이유

LLM 추론에서는 KV Cache가 엄청난 용량을 차지한다.

  • HBM은 빠르지만 용량이 적고 비싸다.
  • KV Cache 전체를 HBM에 두면 비용·수율이 비현실적이다.

그래서 사용되는 구조:

  • 자주 쓰이는 부분: HBM에
  • 덜 자주 쓰이거나, 텐서 압축이 가능한 부분: CXL 메모리 풀에 → 이 두 영역을 하나의 논리적 메모리 공간처럼 보이도록 하는 것이 CXL의 강점이다.

(3) 한국의 CXL 생태계

  • 삼성전자: CXL 메모리 모듈(CMM-D)
  • SK하이닉스: CXL DDR 모듈
  • 파네시아: CXL 3.x 스위치 & 컨트롤러 IP 개발
항목설명
CXL 역할CPU/GPU ↔ 외장 메모리 고속 연결
Type 3메모리 전용 장치
AI 활용KV Cache, 대규모 파라미터 보관
HBM vs CXLHBM=속도 / CXL=용량·유연성

7.CPU, GPU, TPU, DPU의 차이점과 동작 원리

최근 엔비디아의 주가 흐름과 AI 데이터센터 관련 뉴스를 보면 생소한 반도체 용어들이 쏟아집니다. CPU와 GPU는 익숙한데, 구글이 만든다는 TPU는 무엇이고, 최근 뜬다는 DPU는 또 무엇일까요? 이 네 가지는 모두 ‘연산 장치’이지만, 태어난 목적과 무엇을 가장 잘하느냐가 완전히 다릅니다.

한 눈에 보는 핵심 요약

  • CPU (Central Processing Unit): 컴퓨터의 두뇌. 복잡하고 순차적인 명령을 처리하는 만능 지휘관입니다.
  • GPU (Graphics Processing Unit): 병렬 연산의 제왕. 수천 개의 코어로 그래픽과 AI 데이터를 동시에 쏟아붓듯 처리합니다.
  • TPU (Tensor Processing Unit): AI 맞춤형 천재. 불필요한 기능을 빼고 오직 딥러닝(행렬 연산)에만 올인했습니다.
  • DPU (Data Processing Unit): 데이터센터의 살림꾼. CPU가 하던 통신·보안 잡무를 가져와 효율을 극대화합니다.

(1) CPU: 순차 처리의 달인, 만능 지휘관 CPU는 소수의 매우 똑똑한 고성능 코어로 구성되어 명령어를 하나씩 순서대로 빠르게 처리하는 ‘직렬 연산(Serial Processing)’에 최적화된 장치입니다. 컴퓨터의 제어, 복잡한 논리 판단, 운영체제 실행 등 다방면의 작업을 수행하는 만능 지휘관 역할을 하지만, 한 번에 하나씩 일을 처리하는 구조 탓에 단순 반복 계산이 수억 번 필요한 대규모 AI 학습을 혼자 감당하기에는 속도와 효율 면에서 한계가 명확합니다.

(2) GPU: 물량 공세로 승부하는 병렬 연산의 핵심 GPU는 CPU보다 개별 성능은 낮지만 훨씬 많은 수천 개의 작은 코어를 탑재하여, 방대한 데이터를 동시에 처리하는 ‘병렬 연산’ 구조를 가집니다. 본래는 모니터의 수백만 픽셀을 동시에 쏘아주기 위해 개발되었으나, AI 딥러닝 과정이 행렬 곱셈이라는 무수한 단순 연산의 집합임이 밝혀지면서 재평가받았습니다. 현재는 이 강력한 물량 공세 능력을 바탕으로 AI 학습과 추론을 주도하는 ‘AI 시대의 곡괭이’로 자리 잡았습니다.

(3) TPU: 구글이 만든, 오직 AI만을 위한 스페셜리스트 TPU는 구글이 엔비디아 GPU의 독주를 막고 자사의 AI(알파고, 텐서플로우 등)를 가속화하기 위해 직접 설계한 주문형 반도체(ASIC)입니다. 범용성을 가진 GPU와 달리, 그래픽 출력 등 AI와 무관한 기능을 과감히 제거하고 오직 딥러닝의 핵심인 ‘텐서(Tensor) 연산’에만 회로를 집중시켰습니다. 덕분에 특정 AI 모델을 돌릴 때는 GPU보다 압도적인 전력 효율과 처리 속도를 보여주는 ‘AI 맞춤형 천재’입니다.

(4) DPU: CPU의 짐을 덜어주는 데이터센터의 살림꾼 DPU는 CPU가 본연의 연산에만 집중할 수 있도록 데이터센터의 통신, 보안, 저장(스토리지) 관련 잡무를 떼어내 전담하는 특수 프로세서입니다. 네트워크 패킷 처리나 데이터 암호화 같은 ‘인프라 관리’ 업무를 DPU가 대신 처리(Offload)해 줌으로써, CPU 자원의 낭비를 막고 데이터 병목 현상을 해결합니다. 최근 엔비디아뿐만 아니라 국내 스타트업 ‘망고부스트’ 등이 이 기술을 선도하며 데이터센터 효율화의 핵심 부품으로 떠오르고 있습니다.

구분CPUGPUTPUDPU
핵심 별명만능 지휘관작업반장 (물량)AI 외골수살림꾼 (보조)
잘하는 것복잡한 논리, OS 실행대규모 병렬 연산특정 AI 모델 학습/추론데이터 이동, 보안, 압축
유연성매우 높음 (모든 작업 가능)높음 (그래픽+AI)낮음 (AI 전용)낮음 (인프라 전용)
주요 플레이어Intel, AMDNVIDIA, AMDGoogle (자체 사용)NVIDIA, 망고부스트


5 2
AI 데이터센터는 이렇게 작동한다: 핵심 기술(DLC·액침·HBM·DPU)의 기술 원리 정리 11

열·전력·칩·네트워크까지 이어지는 전체 밸류체인을 다시 보고 싶다면?

여기서는 개별 기술이 아니라, AI 학습 한 번이 돌아갈 때 실제로 어떤 기술들이 순서대로 동작하는지를 공정처럼 살펴본다.

  1. 전력이 들어온다.
  2. 냉각수가 순환한다.
  3. GPU가 열을 뿜으며 연산한다.
  4. HBM·CXL이 데이터를 공급한다.
  5. DPU가 네트워크·스토리지를 정리한다.
  6. 체크포인트가 스토리지에 기록된다.

각 단계를 기술적으로 연결해보자.

1. 전력·냉각 루프

  1. 전력망에서 데이터센터까지
    • 변압기에서 전압을 낮추고, UPS를 거쳐, 48V DC로 분배
  2. 전력 → 열로 변환
    • GPU·CPU·HBM이 전력을 소비하며 열을 발생
  3. 열 → 냉각수로 이동
    • 칩 → 콜드플레이트 → 냉각수
  4. 냉각수 → 외부로 열 방출
    • CDU → 열교환기 → 외부 공기 혹은 냉각탑/건물 외부

이 루프가 끊기면, 즉시 클러스터 전체에 문제가 생긴다.

2. 데이터·메모리 루프

  1. 스토리지에서 데이터 로딩
    • NVMe 스토리지 → 스토리지 노드 → 네트워크
  2. GPU에 배치
    • CPU가 미니배치 생성, GPU로 전송
  3. HBM이 GPU 연산을 먹여 살림
    • GPU 코어: 행렬 연산
    • HBM: 연산에 필요한 텐서 데이터를 지속적으로 공급
  4. CXL 메모리 풀
    • KV Cache, 파라미터 일부를 CXL 메모리로 분산
    • 필요 시 GPU/CPU가 다시 가져옴

3. 네트워크·DPU 루프

  1. GPU 간 통신(예: AllReduce, AllGather)
  2. InfiniBand 혹은 고속 이더넷을 통해 파라미터/그래디언트 교환
  3. 이 과정에서:
    • DPU가 패킷 처리, 암호화, 경로 제어
    • CPU는 최소 개입
  4. 장애 시 체크포인트 기반 학습 재개
루프주요 기술핵심 포인트
전력·열 루프변압기·48V·DLC·액침전력 → 열 → 냉각수 → 외부
데이터·메모리 루프NVMe·HBM·CXL데이터 공급이 끊기면 GPU가 논다
네트워크 루프InfiniBand·DPUGPU 간 통신·보안·경로 제어 담당

1. 장점

  • 초고밀도 연산 가능: 동일 면적·전력당 연산량 극대화
  • 에너지 효율 최적화: DLC/액침 + SiC 전력반도체로 손실 감소
  • 유연한 메모리 구성: HBM + CXL 조합으로 속도/용량 동시 확보
  • 통신 성능 극대화: DPU + 고속 네트워크로 GPU 자원을 연산에 집중

2. 단점

  • 설계 복잡도: 냉각·전력·패키징 기술을 모두 고려한 설계 필요
  • 운영 난이도: DLC/액침 시스템은 누수·유체 관리 리스크
  • 고장 시 영향 범위: 고밀도 환경이라 장애 하나가 큰 영역에 영향
  • 전력·환경 제약: 전력망·용수·ESG 규제까지 함께 고려 필요
구분내용
장점고성능·고효율·고밀도·고확장성
단점복잡도 증가·운영 난이도·전력·환경 제약

여기서는 헷갈리기 쉬운 쌍들만 기술적으로 비교해본다.

1. 공랭 vs DLC vs 액침

  • 공랭:
    • 장점: 단순, 저렴, 경험 많음
    • 단점: 30~40kW 이상에선 비효율·소음·Hot Spot
  • DLC:
    • 장점: 고밀도 랙 대응, 기존 랙 구조 유지 가능
    • 단점: 배관·매니폴드 설계 복잡, 누수 리스크
  • 액침:
    • 장점: 발열 해결 능력 최강, 팬 제거, 고밀도에 최적
    • 단점: CAPEX, 유체 관리, 환경 규제 대응 필요

2. HBM vs DDR5 vs CXL

  • DDR5: 범용 서버 DRAM, 싼 대신 대역폭 낮음
  • HBM: AI 가속기를 위한 고대역폭 메모리, 적층·TSV 구조
  • CXL: 외부 메모리 풀과 CPU/GPU 사이의 연결 인터페이스

→ HBM과 CXL은 “대체 관계”가 아니라 두 층 구조(온칩/오프칩)를 만드는 기술.

3. InfiniBand vs Ethernet + DPU

  • InfiniBand: AI 학습용 백엔드, 초저지연·고신뢰
  • Ethernet: 범용성·비용·운영 편의, 추론·서비스에 적합
  • DPU: 두 환경 모두에서 네트워크 스택을 오프로드해 CPU 부담 감소
비교 축기술 A기술 B관계
냉각공랭DLC/액침구간 분리
메모리HBMCXL보완
네트워크InfiniBandEthernet + DPU용도 분리

  • 냉각·열 관리:
    • 액침유: GS칼텍스, SK엔무브
    • 액침 서버: H3 Solution, GRC 등
    • DLC 솔루션: 글로벌 쿨링 업체들(OEM 협업)
  • 전력 인프라·전력반도체:
    • 변압기·배전: LS일렉트릭, 효성중공업
    • SiC 파운드리: SK키파운드리, 아이큐랩 등
    • 서버 파워: KEC 등 MOSFET 업체
  • 메모리·패키징:
    • HBM: SK하이닉스, 삼성전자
    • 패키징·기판: 이수페타시스, 대덕전자 등
  • CXL·DPU·스토리지:
    • CXL 스위치: 파네시아
    • DPU: 망고부스트
    • SSD 컨트롤러: 파두(FADU)
구간주요 기술관련 기업(예시)
냉각DLC·액침·액침유GS칼텍스·SK엔무브·H3
전력변압기·48V·SiCLS·효성·SK키파운드리
메모리HBM·CXL삼성·SK·파네시아
패키징CoWoS·FC-BGA·MLB이수페타시스·대덕전자
I/ODPU·SSD 컨트롤러망고부스트·파두

이제까지의 내용은 “돈이 어디로 가느냐”가 아니라,

기술이 실제로 어떻게 작동하느냐에 초점을 맞춰 설명했다.

정리해보면:

  1. 열과 전력
    • 120kW 랙 시대에 공랭은 한계
    • DLC·액침·SiC 전력반도체가 필수 기술 스택이 된다.
  2. 메모리와 패키징
    • HBM은 대역폭, CXL은 용량·확장성
    • TSV·인터포저·CoWoS·FC-BGA가 AI 칩의 또 다른 심장이다.
  3. 네트워크와 DPU
    • GPU 간 통신은 InfiniBand/고속 이더넷 위에서 돌아가고
    • DPU가 네트워크·스토리지·보안을 CPU 대신 처리한다.
  4. 스토리지와 체크포인트
    • NVMe·오브젝트 스토리지가 학습 효율의 숨은 결정 요소다.
관점핵심 기술한 줄 정리
DLC·액침공랭에서 액체 중심으로의 패러다임 전환
전력48V·SiC전력 변환 효율이 곧 OPEX 절감
메모리HBM·CXL속도(HBM) + 용량(CXL) 두 층 구조
패키징CoWoS·FC-BGAHBM+GPU를 묶는 진짜 핵심 공정
네트워크InfiniBand·DPUGPU 간 통신과 I/O를 담당하는 신경망
스토리지NVMe·Checkpoint학습 재시작·효율에 결정적인 역할


Q1. 왜 AI 데이터센터는 공랭만으로 운영이 어려워졌나요?

GPU가 랙당 80~120kW 이상의 열을 발생시키면서 공기의 열전달 능력으로는 제거가 불가능해졌기 때문인데, 공랭은 열용량·풍량·팬 효율 모두 한계에 도달했습니다.

Q2. DLC(Direct-to-Chip) 냉각의 핵심 장점은 무엇인가요?

칩 바로 위에 콜드플레이트를 장착해 열을 즉시 냉각수로 전달하는데, 발열원과 냉각 매체의 거리가 가장 짧아 고밀도 랙(80~120kW)에 안정적으로 대응할 수 있습니다.

Q3. 액침 냉각은 DLC와 무엇이 다르며, 어떤 환경에서 더 유리한가요?

DLC는 칩 위에 물을 직접 흐르게 하고, 액침은 서버 전체를 절연 액체에 담가 열을 통째로 제거하는데, 150kW 이상 초고밀도 환경에서는 액침이 더 높은 열관리 효율을 제공합니다.

Q4. HBM이 AI 가속기의 필수 메모리인 이유는 무엇인가요?

TSV 기반 적층 구조로 초고대역폭을 제공해 GPU 연산 속도를 유지시켜준다. DRAM 속도가 병목이 되던 문제를 해결하며 대규모 행렬 연산에 최적화되어 있습니다.

Q5. CXL 메모리는 HBM을 대체하나요? 아니면 보완하나요?

대체가 아니라 보완입니다.. HBM은 “속도”, CXL은 “용량·유연성”을 해결한다. AI 추론 시 필요한 대규모 KV Cache는 대부분 CXL 메모리 풀로 분산됩니다.

Q6. DPU는 GPU나 CPU와 어떤 역할 차이가 있나요?

DPU는 네트워크·보안·스토리지 작업을 CPU에서 분리해 전담하는 장치입니다.. GPU가 연산에만 집중할 수 있도록 데이터 이동·패킷 처리·암호화를 오프로드합니다.

Q7. AI 모델 학습이 빠른데도 전체 학습 시간이 길어지는 이유는 무엇인가요?

체크포인트 저장이나 데이터 I/O 병목 때문입니다. NVMe·오브젝트 스토리지 속도가 충분히 빠르지 않으면 GPU가 데이터를 기다리며 Idle 상태가 되어 학습 시간이 크게 늘어납니다.

“내일은 이 기술을 실제 만드는 기업들을 다룹니다.”

본 글은 기술·산업 이해를 돕기 위한 교육·정보 제공 목적이며, 특정 종목·자산·산업에 대한 투자 권유가 아닙니다. 투자 판단과 책임은 전적으로 투자자 본인에게 있습니다.