AI 엔지니어 필독 논문 10개 — ① 기초 아키텍처 (Attention, VAE, GANs)
AI 면접 단골 논문 10개를 정리한 시리즈 첫 편. Attention Is All You Need, VAE, GANs가 어떻게 현대 AI의 기초를 다졌는지 이해한다.
5 posts tagged
AI 면접 단골 논문 10개를 정리한 시리즈 첫 편. Attention Is All You Need, VAE, GANs가 어떻게 현대 AI의 기초를 다졌는지 이해한다.
DeepSeek-V4는 기존 Multi-Head Attention의 개념을 바탕으로, Compressed Sparse Attention(CSA)와 Heavily Compressed Attention(HCA)을 결합한 Hybrid Attention으로 1M token context를 지원하면서도 KV cache를 90% 감축했다. 이전 Attention 이해하기 시리즈의 Q/K/V와 Multi-Head Attention 개념을 이어 DeepSeek-V4가 어떻게 구현했는지 살펴본다.
이전 글에서 등장한 Transformer의 3가지 Attention(Encoder Self-Attention, Decoder Masked Self-Attention, Encoder-Decoder Attention)이 각각 어떻게 동작하는지, 그리고 Multi-Head Attention이 왜 필요한지 정리한다.