Summary

본 논문은 데이터베이스 상에서 자연어 질문에 답변하는 AI 시스템의 한계를 지적하며, 기존 Text2SQL 방식과 RAG 방식의 제한점을 극복할 수 있는 새로운 패러다임인 TAG(Table-Augmented Generation)를 제안합니다. TAG는 자연어 모델과 데이터베이스 간의 다양한 상호 작용을 포괄적으로 고려하여 기존 방식으로는 해결할 수 없었던 복잡한 질문에 대한 답변을 가능하게 하며, 이를 위한 새로운 연구 방향을 제시합니다. 본 연구에서는 TAG 문제를 분석하기 위한 벤치마크를 개발하고, 기존 방법들이 질문의 20%만 정확하게 답변하는 것을 확인하여 TAG에 대한 심층적인 연구의 필요성을 강조합니다.

Text2SQL is Not Enough: Unifying AI and Databases with TAG

논문: https://arxiv.org/abs/2408.14717

초록

데이터베이스를 통해 자연어 질문을 처리하는 AI 시스템은 엄청난 가치를 창출할 수 있습니다. 이러한 시스템을 통해 사용자는 데이터 관리 시스템의 확장 가능한 계산 능력과 함께 언어 모델(LM)의 강력한 추론 및 지식 기능을 활용할 수 있습니다. 이러한 결합된 기능을 통해 사용자는 사용자 정의 데이터 소스에 대해 임의의 자연어 질문을 할 수 있습니다. 그러나 기존의 방법과 벤치마크는 이러한 설정을 충분히 탐색하지 못합니다. Text2SQL 방법은 관계형 대수로 표현할 수 있는 자연어 질문에만 초점을 맞추기 때문에 실제 사용자가 원하는 질문의 극히 일부만을 나타냅니다. 마찬가지로, 검색 증강 생성(RAG)은 데이터베이스 내의 하나 또는 몇 개의 데이터 레코드에 대한 포인트 조회로 답변할 수 있는 쿼리의 제한된 하위 집합을 고려합니다. 저희는 데이터베이스를 통해 자연어 질문에 답하기 위한 통합된 범용 패러다임인 테이블 증강 생성(TAG)을 제안합니다. TAG 모델은 이전에 탐색되지 않았던 LM과 데이터베이스 간의 광범위한 상호작용을 나타내며, 데이터에 대한 LM의 세계 지식과 추론 능력을 활용할 수 있는 흥미로운 연구 기회를 창출합니다. 태그 문제를 연구하기 위한 벤치마크를 체계적으로 개발하여 표준 방법이 쿼리의 20% 이하만 정답으로 처리한다는 사실을 발견하고 이 분야에 대한 추가 연구의 필요성을 확인했습니다. 벤치마크 코드는 이 https URL에서 공개합니다.