Paper Review06.092026-06-09 12:5010 min read거대 비전-언어 모델은 단 3개의 Attention Head로 충분하다Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding — 텍스트로 지시한 물체를 이미지에서 찾는 작업, 수천 개의 Attention Head 중 단 3개만으로 가능하다는 놀라운 발견.#vision-language-model#attention-mechanism#visual-grounding+3