
책을 읽다가 self-attention 열 병렬화의 그림이 이상한 것을 발견
GPU 0: Q₁ ⊗ K₁ᵀ → Softmax → Dropout → ⊗ V₁ → Y₁
GPU 1: Q₂ ⊗ V₂ → Softmax → Dropout → ⊗ K₂ᵀ → Y₂
GPU1에서 Q₂ ⊗ V₂를 먼저 계산하고 나중에 K₂ᵀ를 곱함.
Self-Attention 표준 공식인 Attention(Q, K, V) = Softmax(Q · Kᵀ / √d) · V와 다르고, 위 방식대로 계산하면 수학적으로 완전히 다른 연산으로 보는 게 타당함.

아니나 다를까 K2와 V2의 위치가 바뀌어 있더라..
중간중간 트랩이 있는 걸 주의하면서 읽어야 할 듯.