[AI Engineering] 4. Evaluate AI Systems
·
Reference/AI Engineering
평가가 중요한 건 아는데, 평가를 어떻게 할 것인지?연구용 모델이면 벤치마크 때려넣으면 됨. 책에서 나오는 것처럼 폐쇄형 측정하듯이.코드 작업 AI Agent라면 accept, reject 클릭 횟수를 측정해보면 되지 않을지?사용자 경험 개선도 DAU가 어느정도 나와야 데이터가 의미가 생김. 개발 단계에서 해당 방법을 사용하긴 어려움.목표했던 컴포넌트를 식별해서 올바른 작업을 수행했는지, 맥락을 잘 이해했는지, 도메인을 이해했는지 등 척도를 나누어 평가해볼 수 있을 듯 함.일단 모든 프롬프트와 결과물을 기록만 해두는 중. → 나중에 그 기록들을 묶어서 평가해봐라.AI 업체에서 말한 벤치마킹 결과에 비해 사용자 만족도가 떨어진다면?GPT 5는 왜 "모호한 프롬프트에는 덜 관대해졌다"는 표현을 사용했으면서,..