[AI Engineering] 4. Evaluate AI Systems
·
Reference/AI Engineering
평가가 중요한 건 아는데, 평가를 어떻게 할 것인지?연구용 모델이면 벤치마크 때려넣으면 됨. 책에서 나오는 것처럼 폐쇄형 측정하듯이.코드 작업 AI Agent라면 accept, reject 클릭 횟수를 측정해보면 되지 않을지?사용자 경험 개선도 DAU가 어느정도 나와야 데이터가 의미가 생김. 개발 단계에서 해당 방법을 사용하긴 어려움.목표했던 컴포넌트를 식별해서 올바른 작업을 수행했는지, 맥락을 잘 이해했는지, 도메인을 이해했는지 등 척도를 나누어 평가해볼 수 있을 듯 함.일단 모든 프롬프트와 결과물을 기록만 해두는 중. → 나중에 그 기록들을 묶어서 평가해봐라.AI 업체에서 말한 벤치마킹 결과에 비해 사용자 만족도가 떨어진다면?GPT 5는 왜 "모호한 프롬프트에는 덜 관대해졌다"는 표현을 사용했으면서,..
완벽한 아키텍처에 대한 믿음
·
Computer Science/Concept
1. Introduction 📌 Topic헥사고날 아키텍처를 따로 깊게 배운 적이 없는데, 요새 내가 즐겨쓰는 구조가 헥사고날 아키텍처라고 책이 말해주더라.띠옹, 나는 그 유명한 육각형 그림 말고는 본 적도 없는데 이게 무슨 일이지. 좋은 소프트웨어 설계에 대해 끊임없이 고민해본 개발자라면, 아마 나와 비슷한 경험을 겪어봤을 이가 적지 않을 것이다. Atomic design pattern, FSD, MVC, MVVM, 헥사고날 아키텍처, SOA, DDD 같은 용어 따위에 매몰되지 않아도, 여러 이슈들을 부딪혀가며 깎고 깎고 깎다보면 다들 비슷한 형태로 귀결된다.이 정도까지 오면 선호도에 따른 차이가 대부분인데, 이건 원칙을 어떻게 해석하고 적용하냐의 차이에서 비롯하는 듯하다.가끔 보면 이게 경전 해석이..
Followership
·
Review
1. Introduction 📌 Again with the retrospectives?"또 회고야?" 그렇다, 또 회고다.정확히는 신입으로 일하면서 취한 전략을 적고, 이를 자가 검토하기 위함이다.나를 위해 적은 글이라 읽는 사람은 전혀 고려하지 않았다. 그래도 명색이 기술 블로그라 기술 포스팅 비중을 더 높이고 싶으나, 최근에 포트폴리오 첨삭을 하느라 개인 공부 시간이 많이 줄어든 턱에 적을 소재가 별로 없다.이렇게 많이 들어올 줄 나도 몰랐지...곧 상반기 채용 시즌이라, 인당 8~9시간씩 집중해서 봤더니 두통이 도져서 환기할 겸 적게 되었다.연말 느낌도 내볼 겸~ 나는 2차 면접에서 '책임감'과 '팔로우십'을 강조했었다.합격하려고 급조한 발언이 아니라, 지금도 중요하다고 생각하고 스스로 내뱉은 ..
[OpenSearch] 데이터가 만 건밖에 조회가 안 돼요
·
Backend/OpenSearch
1. Introduction 📌 "It's only got 10,000 downloads!"학생 때는 서버 운영비가 부족해서 OpenSearch를 만져볼 겨를이 없었고, 애초에 데이터가 만 건이나 쌓일 일도 없었다.그래서 OpenSearch에 Pagination으로 정보를 조회하는 기능에서 "데이터가 최대 만 개밖에 다운이 안 돼요!"라는 말을 들었을 때, 지난 번에 count가 제대로 되지 않는 이슈 때문이겠거니 싶었다. 무슨 소리냐면, OpenSearch Count API Doc에서 나오듯 track_total_hits 파라미터를 true로 설정하지 않으면 count가 최대 10,000개밖에 표시되지 않는 이슈(ElasticSearch도 마찬가지라고 한다)가 있었는데,구현해놓은 OpenSearch ..