지난 글에서 이어집니다."Attention을 안다"고 말하는 사람들이 많습니다. 하지만 $Q, K, V$의 개념을 넘어, 왜 굳이 '여러 개의 머리(Multi-Head)'를 달아야 했는지 그 설계 철학까지 깊게 고민해 본 사람은 많지 않습니다.왜 하나로는 부족했을까요? 단순히 병렬 연산을 위해서일까요?오늘은 트랜스포머가 문맥을 입체적으로 이해하는 비결, 그리고 이 우아한 설계 뒤에 숨겨진 '공짜 점심'의 마법에 대해 이야기해 보겠습니다.하나의 시선이 가진 한계잠시 $d_{model}=512$인 단일 헤드(Single-Head) 어텐션을 상상해 봅시다. 문장을 읽을 때, 하나의 단어는 문맥 속에서 여러 단어와 동시에 복잡한 관계를 맺습니다."그 동물은 길을 건너지 않았다. 왜냐하면 그것은 너무 피곤했기 때..