Strategy
·
Review
1. Introduction 📌 Dissonance블로그에 공부, 프로젝트, 취업, 삶을 대하는 태도와 관련한 전략들을 공유해왔고 최근에는 자소서 첨삭까지 해주고는 있지만, 할 때마다 뿌듯함이나 보람이 아니라 자괴감이 쌓여간다.개인의 신념 문제는 밑에서 다룰 것이지만, 가장 큰 괴리는 '조언이 이렇게 가벼워도 되는 건가'라는 질문을 스스로에게 끝없이 할 수밖에 없다는 구조에 있다. "행위의 동기가 올바랐고, 결과가 좋았으니 고민하지 않아도 된다"는 타인의 격려는 딱히 도움이 되지는 않았다.세상 모든 사람들을 속일 수 있을 지언정, 나는 그 행위의 동기가 올바르지 않았고, 좋은 결과가 나온 건 내 덕분이 아닌 그들의 역량 덕분이었다는 사실을 스스로에게 속일 수 없기 때문이다.단순 자기 만족과 커리어를 위..
[AI Engineering] 9장. Inference Optimization
·
Reference/AI Engineering
PPT 만든다고 11pm에 퇴근하는 나 ㅋ 서빙 효율성 판단 척도비용처리량지연시간단순 GPU 연산 능력으로 평가하는 건 무리가 있음.비효율적으로 돌아가는데 단순히 열심히 계산하다고 MFU 높고, Bandwidth 문제인데 GPU 활용도가 떨어진다고 측정될 수 있음. -> 그래서 MBU 개념이 등장함목표는 처리량 높이고 지연시간 낮추기. 그런데 어떻게? 추론의 2단계Prefill: 사전 계산Decoding: 자기회귀 방식으로 token을 순차적 생성decoding 단계와 다르게 prefill은 병렬 처리가 가능하고, 그렇게 해야 효율적덕분에 둘의 병목 원인이 다름.여기서 우리는 크게 세 가지 부분으로 나누어 추론 효율성과 성능을 높일 아이디어를 찾을 수 있음prefill: 메모리 잘 써서 연산량 줄이기mo..
[LLM 실전 AI 애플리케이션 개발] 5장 그림 5.13 텐서 병렬화 이미지 오류 수정
·
Reference/LLM을 활용한 실전 AI 애플리케이션 개발
책을 읽다가 self-attention 열 병렬화의 그림이 이상한 것을 발견GPU 0: Q₁ ⊗ K₁ᵀ → Softmax → Dropout → ⊗ V₁ → Y₁GPU 1: Q₂ ⊗ V₂ → Softmax → Dropout → ⊗ K₂ᵀ → Y₂ GPU1에서 Q₂ ⊗ V₂를 먼저 계산하고 나중에 K₂ᵀ를 곱함.Self-Attention 표준 공식인 Attention(Q, K, V) = Softmax(Q · Kᵀ / √d) · V와 다르고, 위 방식대로 계산하면 수학적으로 완전히 다른 연산으로 보는 게 타당함. 아니나 다를까 K2와 V2의 위치가 바뀌어 있더라.. 중간중간 트랩이 있는 걸 주의하면서 읽어야 할 듯.
[AI Engineering] 8장. Dataset Engineering
·
Reference/AI Engineering
내용이 거의 고이즈미 신지로 화법."1 더하기 1은 2다. 왜냐면 그것이 수학이기에." (끄덕)그만큼 당연한 말을 늘어놓고 있음. Data Curationcuration원래 미술관에서 기획자들이 우수한 작품을 뽑아 전시하는 행위다른 사람이 만들어놓은 콘텐츠를 목적에 따라 분류하고 배포하는 일 (양질의 콘텐츠만을 취합·선별·조합·분류해 특별한 의미를 부여하고 가치를 재창출하는 행위)Data with COTData with Tool useData with ConversationSingle TurnMulti TurnData QualityThere's many factors for data qualityRelevant -> 이커머스는 얘가 중요한 듯Aligned with task requirements -> 개..