AI 엔지니어 필독 논문 10개 — ② NLP 혁명과 멀티모달 (BERT, GPT, ViT, DDPM)

💡

한 줄 요약 — 2017년 Attention 이후, NLP는 완전히 다른 방향으로 나아갔다. 사전학습(Pretraining) + 미세조정(Fine-tuning) 패러다임이 표준이 되고, 이미지와 생성도 같은 원리로 진화했다.

지난 편에서 다룬 Attention Is All You Need는 시작일 뿐. 그 이후 2년 만에 BERT와 GPT가 동시에 나타났고, 이들은 완전히 다른 방식으로 Transformer를 활용했다.

4. BERT: Pre-training of Deep Bidirectional Transformers (2018)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Devlin et al., Google AI Language (2018)- NAACL

arXiv

문제: "단어 임베딩" 시대의 끝

2017년까지:

단어 → 고정된 벡터 (Word2Vec, GloVe)
"bank" → [0.2, -0.5, 1.3, ...] (항상 같음)

문제: 맥락을 무시함
- 문장 1: "I went to the **bank** to withdraw money" (금융기관)
- 문장 2: "I sat on the **bank** of the river" (강둑)
→ 두 "bank"가 같은 벡터 (❌)

아이디어: 양방향(Bidirectional) 학습

BERT의 혁신은 간단하지만 강력하다:

"단어의 의미는 앞뒤 맥락 모두에서 나온다"

작동 방식:

기존 언어 모델 (Unidirectional):
"The bank was closed"
→ [The] → [bank] → [was] → [closed]
   (왼쪽에서만 정보)

BERT (Bidirectional):
"The bank was closed"
     ↙          ↘
   [The]  bank  [was]  [closed]
   ↗            ↖
(모든 방향에서 정보)

사전학습 전략:

Masked Language Model (MLM)

입력: "The [MASK] was closed"
모델: "bank" 예측
→  앞뒤 모두 봐야 정답을 맞힐 수 있음

Next Sentence Prediction (NSP)

문장 A: "The bank was closed"
문장 B: "Tomorrow it will reopen" 
→ 문장 B가 A 다음이 맞나? (문장 간 관계학습)

임팩트

상황 맞춤형 임베딩 — 같은 단어도 문맥에 따라 다른 벡터
미세조정(Fine-tuning) 표준화 — 대규모 사전학습 후 작은 데이터로 특정 작업 학습
산업 적용 급증 — Google Search에 곧바로 적용

구글 서치 변화:

예전: "bank" 검색 → 키워드 매칭
BERT: "I want to open a bank account" → 의도 파악 후 금융기관 관련 결과

5. GPT: Improving Language Understanding by Generative Pre-Training (2018)

Improving Language Understanding by Generative Pre-Training

Radford et al., OpenAI (2018)- (OpenAI Blog/arXiv only, 학회 미발표)

arXiv

맥락: BERT vs GPT (같은 시기, 다른 철학)

BERT:
- 양방향 학습
- Masked prediction (빈칸 채우기)
- 언어 이해에 특화
- Google 주도

GPT:
- 단방향 학습 (왼쪽→오른쪽)
- 자동회귀(Autoregressive) (다음 단어 예측)
- 언어 생성에 특화
- OpenAI 주도

아이디어: 생성형 사전학습

BERT와 달리, GPT는 단어를 하나씩 순차적으로 생성하는 데 집중:

입력: "The bank was"
GPT: "... closed" 예측

입력: "The bank was closed"
GPT: "..." (다음 단어) 예측

입력: "The bank was closed. "
GPT: "Tomorrow it will reopen" 예측

이게 왜 중요한가?

BERT:      [마스크 채우기] → 이해 중심
         ↓
GPT:     [계속 쓰기] → 생성 중심
         ↓
         → 대화, 번역, 요약, 창의적 글쓰기

핵심: In-Context Learning

GPT의 진짜 혁신은 사전학습만으로도 여러 작업을 할 수 있다는 것:

명시적 미세조정 없이:

프롬프트: "정수를 프랑스어로 번역하시오. 1→un, 2→deux, 3→?"
GPT: "trois"

프롬프트: "다음 문장을 요약하시오: [긴 텍스트] 요약:"
GPT: "... (요약 생성)"

이는 프롬프트 엔지니어링의 시작이자, 나중에 ChatGPT의 기초가 된다.

임팩트

생성형 언어 모델의 시작 — GPT-2, GPT-3로 진화
프롬프팅 시대 개막 — 명시적 코딩 없이 자연어로 지시 가능
학회 미발표 논문의 영향력 — arXiv + 산업 적용으로 충분
ChatGPT (2022) → 현재의 AI 시대 열기

6. ViT: An Image is Worth 16x16 Words (2020)

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Dosovitskiy et al., Google Research (2020)- ICLR

arXiv

문제: 이미지는 Transformer 없이?

2019년까지 이미지 인식은 CNN(Convolutional Neural Networks)의 전유물:

CNN 패러다임:
입력 이미지 → [Conv] → [Conv] → ... → 분류

왜 CNN?
- 이미지는 "지역적 구조"가 중요 (픽셀 근처가 관련)
- 가중치 공유로 효율적

하지만:

계산량이 많음 (큰 이미지일수록 지옥)
전역 맥락을 놓치기 쉬움 (먼 픽셀의 관계)
Transformer 시대에 뒤처짐

혁신: 이미지를 "패치"로 나누기

ViT의 핵심 아이디어는 이미지도 시퀀스라는 것:

이미지 (224x224)
   ↓
16x16 패치로 분할 (총 196개 패치)
   ↓
각 패치 → 벡터로 임베딩
   ↓
Transformer 입력
   ↓
분류 결과

구체적으로:

224x224 이미지
├─ 16x16 패치 1: [0.1, 0.2, ..., 0.9] (768차원)
├─ 16x16 패치 2: [0.3, 0.1, ..., 0.5]
├─ 16x16 패치 3: ...
└─ ... (총 196개)

이들을 Transformer에 입력
→ Self-Attention으로 패치 간 관계 학습
→ 분류

왜 작동하는가?

이점:
1. 병렬화 가능 (CNN은 스트라이드로 순차성 있음)
2. 전역 의존성 직접 학습 (Attention)
3. 스케일 용이 (더 큰 모델, 더 많은 데이터)

비용:
- 엄청난 양의 학습 데이터 필요
- CNN의 "귀납 편향" 상실 (명시적으로 배워야 함)

임팩트

멀티모달 AI의 토대 — 텍스트(BERT/GPT) + 이미지(ViT)
CLIP, Multimodal Vision Transformers의 시조
의료 이미징 실무 적용 — 의사 진단 보조

7. DDPM: Denoising Diffusion Probabilistic Models (2020)

Denoising Diffusion Probabilistic Models

Ho et al., UC Berkeley (2020)- NeurIPS

arXiv

문제: GAN은 훌륭하지만...

지난 편에서 본 GANs는 선명한 이미지를 생성하지만:

문제:
1. 학습이 불안정 (수렴이 어려움)
2. 모드 붕괴 (다양성 부족)
3. 디버깅 어려움 (Generator vs Discriminator 중 뭐가 문제?)

"더 안정적인 생성 모델이 있을까?"

아이디어: 역순 확산 (Reverse Diffusion)

DDPM은 확산 과정을 역으로 실행한다:

정방향 확산 (Diffusion):
깨끗한 이미지 → 점점 노이즈 추가 → 완전한 가우시안 노이즈
[이미지] → [흐릿함] → [더 흐릿함] → [??? 노이즈]

역방향 (Reverse):
노이즈 → 노이즈 제거 → 깨끗한 이미지
[노이즈] → [흐린 형태] → [이미지]

핵심은 학습:

Step 1: 깨끗한 이미지에 노이즈 추가
Step 2: 모델에게 "이 노이즈를 빼면?" 물음
Step 3: 모델이 노이즈 제거 방법 학습

반복 → 모델이 역순 확산 학습

수식:

Q: 정방향 확산 (확정적)
P: 역방향 (모델이 배움)

목표: Q의 역함수를 학습하는 P

임팩트

안정적인 생성 — GAN처럼 학습 불안정성 없음
성능 우수 — Stable Diffusion, DALL-E-3 등의 기초
이론적 아름다움 — 확률 이론으로 명확하게 설명 가능

현재 활용:

Stable Diffusion (텍스트 → 이미지)
이미지 편집 (부분 재생성)
이미지 복원 (저해상도 → 고해상도)

NLP vs 멀티모달: 두 흐름의 수렴

2018: BERT, GPT (NLP 독립)
      ↓
2020: ViT, DDPM (이미지에 Transformer 적용)
      ↓
2021~: CLIP, LLaVA 등 (텍스트+이미지 통합)
      ↓
2023~: GPT-4V, Gemini (멀티모달 LLM 표준화)

논문	핵심	차이점
BERT	양방향 이해	인코더 중심
GPT	생성 능력	디코더 중심
ViT	이미지 처리	이미지→시퀀스 변환
DDPM	안정적 생성	확률 기반 역순 프로세스

정리

이 4개 논문의 공통점은 Transformer 위에서 뭔가를 변형했다는 것:

BERT: 양방향 + 마스킹
GPT: 생성형 + 자동회귀
ViT: 이미지 → 시퀀스
DDPM: 노이즈 제거

그 결과: 멀티모달, 생성, 이해를 통합하는 기초 마련

다음 편에서는 **실무 적용 3편(RAG, LoRA, PEFT)**과 AI 논문이 상업화되는 속도를 다룬다.

AI 엔지니어 필독 논문 10개 — ② NLP 혁명과 멀티모달 (BERT, GPT, ViT, DDPM)

4. BERT: Pre-training of Deep Bidirectional Transformers (2018)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

문제: "단어 임베딩" 시대의 끝

아이디어: 양방향(Bidirectional) 학습

임팩트

5. GPT: Improving Language Understanding by Generative Pre-Training (2018)

Improving Language Understanding by Generative Pre-Training

맥락: BERT vs GPT (같은 시기, 다른 철학)

아이디어: 생성형 사전학습

핵심: In-Context Learning

임팩트

6. ViT: An Image is Worth 16x16 Words (2020)

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

문제: 이미지는 Transformer 없이?

혁신: 이미지를 "패치"로 나누기

왜 작동하는가?

임팩트

7. DDPM: Denoising Diffusion Probabilistic Models (2020)

Denoising Diffusion Probabilistic Models

문제: GAN은 훌륭하지만...

아이디어: 역순 확산 (Reverse Diffusion)

임팩트

NLP vs 멀티모달: 두 흐름의 수렴

정리

Comments

On this page