[LLM 실전 AI 애플리케이션 개발] 5장 그림 5.13 텐서 병렬화 이미지 오류 수정

2026. 1. 31. 16:03·Reference/LLM을 활용한 실전 AI 애플리케이션 개발

책을 읽다가 self-attention 열 병렬화의 그림이 이상한 것을 발견

GPU 0: Q₁ ⊗ K₁ᵀ → Softmax → Dropout → ⊗ V₁ → Y₁

GPU 1: Q₂ ⊗ V₂ → Softmax → Dropout → ⊗ K₂ᵀ → Y₂

 

GPU1에서 Q₂ ⊗ V₂를 먼저 계산하고 나중에 K₂ᵀ를 곱함.

Self-Attention 표준 공식인 Attention(Q, K, V) = Softmax(Q · Kᵀ / √d) · V와 다르고, 위 방식대로 계산하면 수학적으로 완전히 다른 연산으로 보는 게 타당함.

 

https://huggingface.co/docs/transformers/v4.15.0/parallelism#tensor-parallelism

아니나 다를까 K2와 V2의 위치가 바뀌어 있더라..

 

중간중간 트랩이 있는 걸 주의하면서 읽어야 할 듯.

저작자표시 비영리 (새창열림)
'Reference/LLM을 활용한 실전 AI 애플리케이션 개발' 카테고리의 다른 글
  • [LLM 실전 AI 애플리케이션 개발] 2장 Feed Forward Layer 오류 수정
나죽못고나강뿐
나죽못고나강뿐
싱클레어, 대부분의 사람들이 가는 길은 쉽고, 우리가 가는 길은 어려워요. 우리 함께 이 길을 가봅시다.
  • 나죽못고나강뿐
    코드를 찢다
    나죽못고나강뿐
  • 전체
    오늘
    어제
    • 분류 전체보기 (494)
      • Computer Science (61)
        • Git & Github (4)
        • Network (17)
        • Computer Structure & OS (13)
        • Software Engineering (5)
        • Database (9)
        • Security (5)
        • Concept (8)
      • Frontend (22)
        • React (14)
        • Android (4)
        • iOS (4)
      • Backend (85)
        • Spring Boot & JPA (53)
        • Django REST Framework (14)
        • MySQL (10)
        • Nginx (1)
        • FastAPI (4)
        • kotlin (2)
        • OpenSearch (1)
      • DevOps (24)
        • Docker & Kubernetes (11)
        • Naver Cloud Platform (1)
        • AWS (2)
        • Linux (6)
        • Jenkins (0)
        • GoCD (3)
      • Coding Test (112)
        • Solution (104)
        • Algorithm (7)
        • Data structure (0)
      • Reference (147)
        • Effective-Java (90)
        • Pragmatic Programmer (0)
        • CleanCode (11)
        • Clean Architecture (5)
        • Test-Driven Development (4)
        • Relational Data Modeling No.. (0)
        • Microservice Architecture (2)
        • 알고리즘 문제 해결 전략 (9)
        • Modern Java in Action (0)
        • Spring in Action (0)
        • DDD start (0)
        • Design Pattern (6)
        • 대규모 시스템 설계 (7)
        • JVM 밑바닥까지 파헤치기 (4)
        • The Pragmatic Programmer (1)
        • AI Engineering (6)
        • LLM을 활용한 실전 AI 애플리케이션 개발 (2)
      • Service Planning (2)
      • Side Project (5)
      • AI (1)
      • MATLAB & Math Concept & Pro.. (2)
      • Review (26)
      • Interview (4)
      • IT News (3)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

    • 깃
  • 공지사항

    • 요새 하고 있는 것
    • 한동안 포스팅은 어려울 것 같습니다. 🥲
    • N Tech Service 풀스택 신입 개발자가 되었습니다⋯
    • 취업 전 계획 재조정
    • 취업 전까지 공부 계획
  • 인기 글

  • 태그

  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.2
나죽못고나강뿐
[LLM 실전 AI 애플리케이션 개발] 5장 그림 5.13 텐서 병렬화 이미지 오류 수정
상단으로

티스토리툴바