AI 엔지니어 필독 논문 10개 — ② NLP 혁명과 멀티모달 (BERT, GPT, ViT, DDPM)
BERT와 GPT로 시작된 언어 모델 시대. 그리고 Transformer를 이미지와 생성 모델로 확장한 ViT와 DDPM이 어떻게 AI 업계를 바꿨는지.
Series
논문 리뷰- 1AI 엔지니어 필독 논문 10개 — ① 기초 아키텍처 (Attention, VAE, GANs)
- 2AI 엔지니어 필독 논문 10개 — ② NLP 혁명과 멀티모달 (BERT, GPT, ViT, DDPM)
- 4[논문 리뷰] SEISMIC — Learned Sparse Retrieval을 마이크로초 단위로 끌어내리기
- 5[논문 리뷰] EnterpriseRAG-Bench: 사내 지식 RAG 벤치마크
- 6[논문 리뷰] A-RAG: Agentic RAG가 2026년의 기본기가 된 이유
- 7[논문 리뷰] Code as Agent Harness — LLM 에이전트의 계획·실행·검증 루프
- 8[논문 리뷰] DeepSeek-V4 — 1M Context에서 KV Cache 10% 수준으로 압축한 Hybrid Attention
한 줄 요약 — 2017년 Attention 이후, NLP는 완전히 다른 방향으로 나아갔다. 사전학습(Pretraining) + 미세조정(Fine-tuning) 패러다임이 표준이 되고, 이미지와 생성도 같은 원리로 진화했다.
지난 편에서 다룬 Attention Is All You Need는 시작일 뿐. 그 이후 2년 만에 BERT와 GPT가 동시에 나타났고, 이들은 완전히 다른 방식으로 Transformer를 활용했다.
4. BERT: Pre-training of Deep Bidirectional Transformers (2018)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Devlin et al., Google AI Language (2018)- NAACL
문제: "단어 임베딩" 시대의 끝
2017년까지:
단어 → 고정된 벡터 (Word2Vec, GloVe)
"bank" → [0.2, -0.5, 1.3, ...] (항상 같음)
문제: 맥락을 무시함
- 문장 1: "I went to the **bank** to withdraw money" (금융기관)
- 문장 2: "I sat on the **bank** of the river" (강둑)
→ 두 "bank"가 같은 벡터 (❌)
아이디어: 양방향(Bidirectional) 학습
BERT의 혁신은 간단하지만 강력하다:
"단어의 의미는 앞뒤 맥락 모두에서 나온다"
작동 방식:
기존 언어 모델 (Unidirectional):
"The bank was closed"
→ [The] → [bank] → [was] → [closed]
(왼쪽에서만 정보)
BERT (Bidirectional):
"The bank was closed"
↙ ↘
[The] bank [was] [closed]
↗ ↖
(모든 방향에서 정보)
사전학습 전략:
-
Masked Language Model (MLM)
입력: "The [MASK] was closed" 모델: "bank" 예측 → 앞뒤 모두 봐야 정답을 맞힐 수 있음 -
Next Sentence Prediction (NSP)
문장 A: "The bank was closed" 문장 B: "Tomorrow it will reopen" → 문장 B가 A 다음이 맞나? (문장 간 관계학습)
임팩트
- 상황 맞춤형 임베딩 — 같은 단어도 문맥에 따라 다른 벡터
- 미세조정(Fine-tuning) 표준화 — 대규모 사전학습 후 작은 데이터로 특정 작업 학습
- 산업 적용 급증 — Google Search에 곧바로 적용
구글 서치 변화:
예전: "bank" 검색 → 키워드 매칭
BERT: "I want to open a bank account" → 의도 파악 후 금융기관 관련 결과
5. GPT: Improving Language Understanding by Generative Pre-Training (2018)
Improving Language Understanding by Generative Pre-Training
Radford et al., OpenAI (2018)- (OpenAI Blog/arXiv only, 학회 미발표)
맥락: BERT vs GPT (같은 시기, 다른 철학)
BERT:
- 양방향 학습
- Masked prediction (빈칸 채우기)
- 언어 이해에 특화
- Google 주도
GPT:
- 단방향 학습 (왼쪽→오른쪽)
- 자동회귀(Autoregressive) (다음 단어 예측)
- 언어 생성에 특화
- OpenAI 주도
아이디어: 생성형 사전학습
BERT와 달리, GPT는 단어를 하나씩 순차적으로 생성하는 데 집중:
입력: "The bank was"
GPT: "... closed" 예측
입력: "The bank was closed"
GPT: "..." (다음 단어) 예측
입력: "The bank was closed. "
GPT: "Tomorrow it will reopen" 예측
이게 왜 중요한가?
BERT: [마스크 채우기] → 이해 중심
↓
GPT: [계속 쓰기] → 생성 중심
↓
→ 대화, 번역, 요약, 창의적 글쓰기
핵심: In-Context Learning
GPT의 진짜 혁신은 사전학습만으로도 여러 작업을 할 수 있다는 것:
명시적 미세조정 없이:
프롬프트: "정수를 프랑스어로 번역하시오. 1→un, 2→deux, 3→?"
GPT: "trois"
프롬프트: "다음 문장을 요약하시오: [긴 텍스트] 요약:"
GPT: "... (요약 생성)"
이는 프롬프트 엔지니어링의 시작이자, 나중에 ChatGPT의 기초가 된다.
임팩트
- 생성형 언어 모델의 시작 — GPT-2, GPT-3로 진화
- 프롬프팅 시대 개막 — 명시적 코딩 없이 자연어로 지시 가능
- 학회 미발표 논문의 영향력 — arXiv + 산업 적용으로 충분
- ChatGPT (2022) → 현재의 AI 시대 열기
6. ViT: An Image is Worth 16x16 Words (2020)
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
Dosovitskiy et al., Google Research (2020)- ICLR
문제: 이미지는 Transformer 없이?
2019년까지 이미지 인식은 CNN(Convolutional Neural Networks)의 전유물:
CNN 패러다임:
입력 이미지 → [Conv] → [Conv] → ... → 분류
왜 CNN?
- 이미지는 "지역적 구조"가 중요 (픽셀 근처가 관련)
- 가중치 공유로 효율적
하지만:
- 계산량이 많음 (큰 이미지일수록 지옥)
- 전역 맥락을 놓치기 쉬움 (먼 픽셀의 관계)
- Transformer 시대에 뒤처짐
혁신: 이미지를 "패치"로 나누기
ViT의 핵심 아이디어는 이미지도 시퀀스라는 것:
이미지 (224x224)
↓
16x16 패치로 분할 (총 196개 패치)
↓
각 패치 → 벡터로 임베딩
↓
Transformer 입력
↓
분류 결과
구체적으로:
224x224 이미지
├─ 16x16 패치 1: [0.1, 0.2, ..., 0.9] (768차원)
├─ 16x16 패치 2: [0.3, 0.1, ..., 0.5]
├─ 16x16 패치 3: ...
└─ ... (총 196개)
이들을 Transformer에 입력
→ Self-Attention으로 패치 간 관계 학습
→ 분류
왜 작동하는가?
이점:
1. 병렬화 가능 (CNN은 스트라이드로 순차성 있음)
2. 전역 의존성 직접 학습 (Attention)
3. 스케일 용이 (더 큰 모델, 더 많은 데이터)
비용:
- 엄청난 양의 학습 데이터 필요
- CNN의 "귀납 편향" 상실 (명시적으로 배워야 함)
임팩트
- 멀티모달 AI의 토대 — 텍스트(BERT/GPT) + 이미지(ViT)
- CLIP, Multimodal Vision Transformers의 시조
- 의료 이미징 실무 적용 — 의사 진단 보조
7. DDPM: Denoising Diffusion Probabilistic Models (2020)
문제: GAN은 훌륭하지만...
지난 편에서 본 GANs는 선명한 이미지를 생성하지만:
문제:
1. 학습이 불안정 (수렴이 어려움)
2. 모드 붕괴 (다양성 부족)
3. 디버깅 어려움 (Generator vs Discriminator 중 뭐가 문제?)
"더 안정적인 생성 모델이 있을까?"
아이디어: 역순 확산 (Reverse Diffusion)
DDPM은 확산 과정을 역으로 실행한다:
정방향 확산 (Diffusion):
깨끗한 이미지 → 점점 노이즈 추가 → 완전한 가우시안 노이즈
[이미지] → [흐릿함] → [더 흐릿함] → [??? 노이즈]
역방향 (Reverse):
노이즈 → 노이즈 제거 → 깨끗한 이미지
[노이즈] → [흐린 형태] → [이미지]
핵심은 학습:
Step 1: 깨끗한 이미지에 노이즈 추가
Step 2: 모델에게 "이 노이즈를 빼면?" 물음
Step 3: 모델이 노이즈 제거 방법 학습
반복 → 모델이 역순 확산 학습
수식:
Q: 정방향 확산 (확정적)
P: 역방향 (모델이 배움)
목표: Q의 역함수를 학습하는 P
임팩트
- 안정적인 생성 — GAN처럼 학습 불안정성 없음
- 성능 우수 — Stable Diffusion, DALL-E-3 등의 기초
- 이론적 아름다움 — 확률 이론으로 명확하게 설명 가능
현재 활용:
- Stable Diffusion (텍스트 → 이미지)
- 이미지 편집 (부분 재생성)
- 이미지 복원 (저해상도 → 고해상도)
NLP vs 멀티모달: 두 흐름의 수렴
2018: BERT, GPT (NLP 독립)
↓
2020: ViT, DDPM (이미지에 Transformer 적용)
↓
2021~: CLIP, LLaVA 등 (텍스트+이미지 통합)
↓
2023~: GPT-4V, Gemini (멀티모달 LLM 표준화)
| 논문 | 핵심 | 차이점 |
|---|---|---|
| BERT | 양방향 이해 | 인코더 중심 |
| GPT | 생성 능력 | 디코더 중심 |
| ViT | 이미지 처리 | 이미지→시퀀스 변환 |
| DDPM | 안정적 생성 | 확률 기반 역순 프로세스 |
정리
이 4개 논문의 공통점은 Transformer 위에서 뭔가를 변형했다는 것:
- BERT: 양방향 + 마스킹
- GPT: 생성형 + 자동회귀
- ViT: 이미지 → 시퀀스
- DDPM: 노이즈 제거
그 결과: 멀티모달, 생성, 이해를 통합하는 기초 마련
다음 편에서는 **실무 적용 3편(RAG, LoRA, PEFT)**과 AI 논문이 상업화되는 속도를 다룬다.