[AI Agent] Advanced RAG 리뷰(4주차)

Naive RAG의 한계를 Query, Retrieval, Generation 3단계로 나누어 보완하는 Advanced RAG 기법들을 실무 관점에서 정리합니다. Hybrid Search와 Re-ranking 등 우선 적용할 기법부터 GraphRAG, Agentic RAG 같은 최신 아키텍처까지 전체 지형을 다룹니다.

Naive RAG의 한계를 Query, Retrieval, Generation 세 단계로 나누어 보완하는 Advanced RAG 기법들의 전체 지형을 정리할 수 있습니다.

우선 4주차 과제에서 다룬 Hybrid Search와 Re-ranking을 중심으로 실무 관점에서 리뷰합니다.


개요

3주차에서는 RAG 파이프라인을 구축하고 Golden Dataset으로 품질을 측정하는 방법을 다뤘습니다.

하지만 파이프라인을 만들고 평가해보면 금방 벽에 부딪힙니다. 질문이 조금만 애매해져도 엉뚱한 청크가 끌려오고, 정답 근거를 담은 청크가 Top-K 밖으로 밀려나는 일이 반복되죠.

Advanced RAG는 이런 Naive RAG의 한계를 검색 전(Pre-Retrieval)·검색 후(Post-Retrieval)·생성(Generation) 단계에 별도의 처리 레이어를 끼워넣어 해결하는 접근입니다.

이번 글에서는 다음 내용을 다룹니다.


Naive RAG가 실패하는 지점

Naive RAG는 “질문 → 임베딩 → Top-K 벡터 검색 → LLM 생성” 구조가 전부입니다. 단순한 만큼 실패 모드도 단순하게 반복됩니다.

따라서 Advanced RAG의 핵심 질문은 두 가지입니다. 질문을 어떻게 바꿔야 좋은 문서를 불러올 수 있는가, 그리고 불러온 문서를 어떻게 정제해야 LLM이 잘 쓸 수 있는가.

이 두 질문이 각각 Query 단계와 Retrieval 단계 기법으로, 그리고 생성 자체를 교정하는 것이 Generation 단계 기법으로 이어집니다.

AI 에이전트 기억이란 무엇인가요? | IBM
AI 에이전트 기억은 인공지 능(AI) 시스템이 과거 경험을 저장하고 회상하여 의사 결정, 인식 및 전체 성능을 향상시키는 능력을 의미합니다.

Advanced RAG의 3단계 프레임

단계 해결 대상 대표 기법
Query 사용자 질문이 검색에 부적합한 경우 HyDE, Multi-Query, Step-back, Decomposition, RAG-Fusion
Retrieval 검색 결과 품질·순서·범위 문제 Hybrid Search, Re-ranking, Parent/Sentence Window, ColBERT, MMR
Generation 컨텍스트 품질 점검·재검색·추론 결합 Self-RAG, CRAG, GraphRAG, Agentic RAG, Adaptive RAG, Long RAG

실무에서 한 번에 다 넣을 필요는 없습니다. 기본 RAG → Hybrid Search + Re-ranking → Query 변환 → Self-reflection 순서로 필요할 때 하나씩 붙여가는 방식이 일반적입니다.


Query 단계 개선 기법

사용자가 던진 질문을 그대로 쓰지 않고, 검색에 유리한 형태로 변환·확장하는 단계입니다. 질문 자체를 바꾸는 레이어라고 생각하시면 됩니다.

HyDE (Hypothetical Document Embeddings)

Query2Doc

Multi-Query Retrieval

Step-back Prompting

Query Decomposition / Sub-question Generation

RAG-Fusion

Multi-Query의 합집합 문제(중복·정렬 혼란)를 랭킹 차원에서 해소한다는 점이 차별점입니다.

Query 단계 기법은 대부분 LLM 호출 비용과 지연시간을 대가로 재현율(recall)을 올리는 트레이드오프입니다. 실시간성이 중요한 서비스라면 Multi-Query의 변형 개수나 HyDE 생성 길이부터 먼저 조여보시는 것을 권장드립니다.


Retrieval 단계 개선 기법

질문은 그대로 두고 검색 엔진과 검색 결과 자체를 개선하는 단계입니다.

실무 체감상 가장 투자 대비 효과가 좋은 영역이기도 합니다.

Hybrid Search (Dense + Sparse/BM25)

검색 방식 매칭 방법 강점 약점
벡터(Dense) 임베딩 유사도 의미적 유사성 고유명사·숫자 매칭 실패
BM25(Sparse) 정확한 단어 매칭 키워드·용어 의역 표현 포착 불가
Hybrid 두 점수를 가중합·RRF로 결합 의미+키워드 동시 커버 가중치 튜닝 필요

Re-ranking (Cross-encoder, Cohere Rerank 등)

Parent Document Retriever

Sentence Window Retrieval

Auto-merging Retrieval

ColBERT / Late Interaction

MMR (Maximum Marginal Relevance)


Generation 단계 개선 및 최신 아키텍처

여기서부터는 단순히 “검색을 잘하자”를 넘어, 생성 과정에서 스스로 검증·재검색·추론을 수행하는 방향의 기법들입니다.

2024~2026년 사이 RAG가 Agent 쪽으로 급격히 기울고 있는 흐름을 반영합니다.

Self-RAG (자가 성찰 RAG)

CRAG (Corrective RAG)

GraphRAG

Agentic RAG

Adaptive RAG

Long RAG

언제 좋은가: 모델 비용이 낮아지고 컨텍스트가 수백만 토큰대로 커지면서, 2025년 이후 “청킹을 덜 해도 되는가”라는 실험이 계속 늘고 있습니다.

실제 프로덕션에서는 이 모든 기법을 한꺼번에 넣기보다는, Hybrid Search + Reranker를 기본 베이스라인으로 두고, 도메인 특성에 따라 GraphRAG(관계형 지식 필요)나 Agentic RAG(다중 소스 라우팅 필요)를 선택적으로 얹는 방식을 선택하게 됩니다.


4주차 과제에서의 실습

이번 과제는 3주차에서 만든 Naive RAG 파이프라인에 Pre-Retrieval / Post-Retrieval 레이어를 실제로 끼워보는 것이 핵심이었습니다. 범위를 넓게 가져가기보다, 위에서 정리한 기법 중 실무에서 가장 먼저 적용하게 되는 3가지에 집중했습니다.

과제에서 구현한 기법

핵심 구조를 코드로 보면 다음과 같은 형태입니다.

과제를 하면서 확인한 포인트

메타데이터 필터링은 검색 기법이 아니라 스키마 설계에 가깝습니다. 청킹할 때 어떤 메타데이터를 남길지를 먼저 결정해야 효과가 납니다.

중요한 것은 기법을 많이 쌓는 것이 아니라, Golden Dataset 위에서 각 기법이 붙을 때마다 recall과 정답 정확도가 어떻게 움직이는지 숫자로 확인하는 습관입니다.

기법을 늘릴수록 품질이 오른다는 보장은 없습니다.


정리: Advanced RAG 전체 그림

단계 질문 우선 적용 기법 필요시 추가
Query 질문을 어떻게 바꿀까 Multi-Query, Step-back HyDE, Decomposition, RAG-Fusion
Retrieval 무엇을 어떻게 가져올까 Hybrid Search, Reranker Parent/Sentence Window, ColBERT, MMR
Generation 생성에서 어떻게 검증할까 메타데이터 필터링, 컨텍스트 압축 Self-RAG, CRAG, GraphRAG, Agentic RAG
12화 복잡한 RAG 분해하기-Modular RAG란?
RAG의 성능을 개선하는 비법, 모듈화 | 지금까지 검색증강생성(RAG, Retrieval Augmented Generation)을 구성하는 핵심적인 요소들에 대해 배워보았습니다. RAG 파이프라인을 구성하는 요소인 임베딩 모델과 벡터 DB 그리고 최종적인 LLM 답변의 전체적인 톤 앤 매너와 제약사항 등을 통해 답변을 제어하는 시스템 프롬프트(System Prompt)까지 검색증강생성 파이프라인에