[대규모 시스템 설계] 8장. URL 단축키 설계
·
Reference/대규모 시스템 설계
💡 해당 내용은 "가상 면접 사례로 배우는 대규모 시스템 설계 기초"를 참조하여 작성하였습니다.1. Introduction 📌 Opening내용도 쉽고 짧다.심심풀이 삼아 읽어보기 좋은 파트. 📌 Usecaseoriginal URL을 단축 URL로 표현해야 하며, 단축 URL로 original URL로 갈 수 있어야 한다.단축 URL 결과는 짧을 수록 좋다.연산쓰기 연산: 매일 1억 개의 단축 URL 생성초당 쓰기 연산: 100 (million * writes/day) / 24 (hr/day) / 3,600 (sec/hr) = 1,157 (writes/sec)읽기 연산: 초당 11,600 (reads/sec) (assume, 읽기 연산 : 쓰기 연산 = 10 : 1)저장 공간URL 단축 서비스를 1..
[요즘 개발자를 위한 시스템 설계 수업] 1부 1~3장
·
Reference/요즘 개발자를 위한 시스템 설계 수업
설 연휴 기간 동안 하루도 쉰 적이 없는데 불구하고, 너무 바빠서 블로그 포스팅을 할 겨를이 없었다. 시작하기 앞서, 이건 별로 추천하고 싶은 책은 아니다.번역이 이상한 부분도 있고, 내용 자체가 틀린 점도 있으며, 설명이 상당히 불친절하다.챕터 순서 배치도 뭔가 이상하게 짜여 있어서 이해를 방해한다는 느낌까지 받았다. 대규모 시스템 설계 책은 구체적인 usecase를 던져주고 필요한 때에 적절히 지식을 던져주는데, 이 책은 "일단 먹어. 그리고 그걸 먹은 이유는 나중에 설명해줄게"라는 식으로 전개가 되어 혼란을 준다.그 와중에 내용이 워낙 어려우니 쉽게 설명하려고 얕은 부분만 적어놨는데, 필요한 내용까지도 덜어내는 덕에 책만으로는 절대 이해할 수 없는 상황을 만들어 놨다.(Practical Byzant..
[AI Engineering] 9장. Inference Optimization
·
Reference/AI Engineering
PPT 만든다고 11pm에 퇴근하는 나 ㅋ 서빙 효율성 판단 척도비용처리량지연시간단순 GPU 연산 능력으로 평가하는 건 무리가 있음.비효율적으로 돌아가는데 단순히 열심히 계산하다고 MFU 높고, Bandwidth 문제인데 GPU 활용도가 떨어진다고 측정될 수 있음. -> 그래서 MBU 개념이 등장함목표는 처리량 높이고 지연시간 낮추기. 그런데 어떻게? 추론의 2단계Prefill: 사전 계산Decoding: 자기회귀 방식으로 token을 순차적 생성decoding 단계와 다르게 prefill은 병렬 처리가 가능하고, 그렇게 해야 효율적덕분에 둘의 병목 원인이 다름.여기서 우리는 크게 세 가지 부분으로 나누어 추론 효율성과 성능을 높일 아이디어를 찾을 수 있음prefill: 메모리 잘 써서 연산량 줄이기mo..
[LLM 실전 AI 애플리케이션 개발] 5장 그림 5.13 텐서 병렬화 이미지 오류 수정
·
Reference/LLM을 활용한 실전 AI 애플리케이션 개발
책을 읽다가 self-attention 열 병렬화의 그림이 이상한 것을 발견GPU 0: Q₁ ⊗ K₁ᵀ → Softmax → Dropout → ⊗ V₁ → Y₁GPU 1: Q₂ ⊗ V₂ → Softmax → Dropout → ⊗ K₂ᵀ → Y₂ GPU1에서 Q₂ ⊗ V₂를 먼저 계산하고 나중에 K₂ᵀ를 곱함.Self-Attention 표준 공식인 Attention(Q, K, V) = Softmax(Q · Kᵀ / √d) · V와 다르고, 위 방식대로 계산하면 수학적으로 완전히 다른 연산으로 보는 게 타당함. 아니나 다를까 K2와 V2의 위치가 바뀌어 있더라.. 중간중간 트랩이 있는 걸 주의하면서 읽어야 할 듯.