Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting
초록
RAG은 LLM의 생성 능력과 외부 지식 소스를 결합하여 보다 정확한 최신 응답을 제공합니다. 최근의 RAG 발전은 반복적인 LLM 개선 또는 LLM의 추가 명령어 튜닝을 통해 획득한 자체 비판 기능을 통해 검색 결과를 개선하는 데 중점을 두고 있습니다. 이 작업에서는 더 큰 규모의 제너럴리스트 LM을 활용해 더 작은 규모의 디스틸레이션된 스페셜리스트 LM이 병렬로 생성한 여러 RAG 초안을 효율적으로 검증하는 프레임워크인 Speculative RAG를 소개합니다. 각 초안은 검색된 문서의 별개의 하위 집합에서 생성되므로 초안당 입력 토큰 수를 줄이면서 증거에 대한 다양한 관점을 제공합니다. 이 접근 방식은 각 하위 집합에 대한 이해도를 높이고 긴 문맥에 대한 잠재적인 위치 편향을 완화합니다. 이 방식은 소규모 전문가 LM에게 초안 작성을 위임하고 대규모 제너럴리스트 LM이 초안에 대해 한 번의 검증 패스를 수행함으로써 RAG를 가속화합니다. 광범위한 실험을 통해 추측 RAG는 TriviaQA, MuSiQue, PubHealth 및 ARC-Challenge 벤치마크에서 지연 시간을 줄이면서 최첨단 성능을 달성하는 것으로 입증되었습니다. 특히 PubHealth에서 기존 RAG 시스템에 비해 지연 시간을 51% 줄이면서 정확도를 최대 12.97%까지 향상시켰습니다.