Evaluation
5 posts
[AI Agent] AI Engineering Review (12주차)
Updated:AI Agent 과정을 정리합니다. LLM 기초와 프롬프트 엔지니어링에서 시작해 RAG, Evaluation, Agent 설계, Observability, Cost, Security, Fine-tuning까지 운영 가능한 AI 시스템을 만들기 위해 필요한 흐름을 되짚습니다.
[AI Agent] LLM Evaluation Preview (5주차)
Updated:LLM/RAG 시스템의 품질을 숫자로 증명하는 평가 체계를 소개합니다. Golden Dataset, Calibration Dataset, LLM-as-a-Judge, RAGAS 메트릭을 통해 감에 의존하는 평가에서 데이터 기반 의사결정으로 전환하는 방법을 다룹니다.
[SageMaker] SageMaker Jumpstart Evaluation(Ground Truth)을 구성하여 사람이 LLM 평가하기
Sagemaker Ground Truth 기능을 활용해 휴먼 피드백을 실행합니다.
[SageMaker] SageMaker Jumpstart의 Custom dataset을 통해 LLM 평가하기
Updated:Sagemaker 환경에서 Custom dataset을 통해 모델의 성능을 평가합니다.
[SageMaker] SageMaker Jumpstart의 Public Datasets를 통해 LLM 평가하기
Sagemaker를 통해 LLM 모델의 성능을 평가할 수 있습니다.