'LLM' 태그의 글 목록

[딥러닝] 트랜스포머 Multi-Head Attention: 여러 개의 눈으로 세상을 보는 법

지난 글에서 이어집니다."Attention을 안다"고 말하는 사람들이 많습니다. 하지만 $Q, K, V$의 개념을 넘어, 왜 굳이 '여러 개의 머리(Multi-Head)'를 달아야 했는지 그 설계 철학까지 깊게 고민해 본 사람은 많지 않습니다.왜 하나로는 부족했을까요? 단순히 병렬 연산을 위해서일까요?오늘은 트랜스포머가 문맥을 입체적으로 이해하는 비결, 그리고 이 우아한 설계 뒤에 숨겨진 '공짜 점심'의 마법에 대해 이야기해 보겠습니다.하나의 시선이 가진 한계잠시 $d_{model}=512$인 단일 헤드(Single-Head) 어텐션을 상상해 봅시다. 문장을 읽을 때, 하나의 단어는 문맥 속에서 여러 단어와 동시에 복잡한 관계를 맺습니다."그 동물은 길을 건너지 않았다. 왜냐하면 그것은 너무 피곤했기 때..

트랜스포머 시리즈 2026.01.12

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

민성 Skystarry의 연구 창고

LLM 1

티스토리툴바