Instance-adaptive Zero-shot Chain-of-Thought Prompting
본 논문은 실제 추론 작업에서 대규모 언어 모델(LLM)의 성능을 향상시키기 위한 간단하고 효과적인 전략으로 등장하는 제로 샷 생각의 사슬(CoT) 프롬프팅에 대해 다룹니다. 하지만 모든 인스턴스에 균일하게 적용되는 단일 작업 수준 프롬프트의 효과는 본질적으로 제한적이므로, 각 인스턴스와 프롬프트 간의 상호 작용을 면밀히 고려하는 것이 더 적절한 접근 방식입니다. 본 연구에서는 좋은 프롬프트와 나쁜 프롬프트를 적응적으로 구분하여 제로샷 CoT 추론 방식의 대안으로 인스턴스 적응형 프롬프팅 알고리즘을 소개합니다.
초록
제로 샷 생각의 사슬(CoT) 프롬프트는 실제 추론 작업에서 대규모 언어 모델(LLM)의 성능을 향상시키기 위한 간단하고 효과적인 전략으로 떠오르고 있습니다. 하지만 하나의 프롬프트가 모든 인스턴스에 적합한 파트너가 될 수 없기 때문에 전체 인스턴스에 일률적으로 적용되는 단일 작업 수준의 프롬프트의 효과는 본질적으로 제한적이며, 보다 적절한 접근 방식은 프롬프트와 각 인스턴스 간의 상호 작용을 세심하게 고려해야 합니다. 이 연구에서는 좋은 프롬프트와 나쁜 프롬프트를 적응적으로 구분하여 제로 샷 CoT 추론 방식의 대안으로 인스턴스 적응형 프롬프트 알고리즘을 도입합니다. 구체적으로, 먼저 정보 흐름의 렌즈를 통해 LLM을 분석하여 제로 샷 CoT 추론의 메커니즘을 파악한 결과, 질문에서 프롬프트, 질문에서 근거로 이어지는 정보 흐름이 추론 결과에 가장 큰 영향을 미친다는 사실을 발견했습니다. 더 나은 제로 샷 CoT 추론은 질문에서 의미 정보를 얻기 위해 프롬프트가 필요하고, 근거는 질문에서 직접 또는 프롬프트를 통해 간접적으로 충분한 정보를 취합한다는 것을 알 수 있습니다. 반대로 이 중 어느 하나라도 부족하면 나쁜 추론으로 이어질 수 있습니다. 이를 바탕으로 제로 샷 CoT 추론을 위한 인스턴스 적응형 프롬프트 전략(IAP)을 제안합니다. 수학, 논리, 상식 추론 과제(예: GSM8K, MMLU, 인과적 판단)에 대해 LLaMA-2, LLaMA-3, Qwen으로 실시한 실험 결과, 인스턴스 적응형 제로 샷 CoT 프롬프트가 일부 선별된 프롬프트나 정교한 절차를 갖춘 다른 과제 수준의 방법보다 성능이 더 우수하다는 것을 입증하여 제로 샷 CoT 추론 메커니즘에서 연구 결과가 갖는 중요성을 보여줬습니다.
as-is
Question: There are five phones on a phone plan. The main phone costs twice as much as each additional phone. If the main phone plan costs $20, how much does the whole phone plan cost?
Let's think step by step.
to-be
Question: There are five phones on a phone plan. The main phone costs twice as much as each additional phone. If the main phone plan costs $20, how much does the whole phone plan cost?
Don't think. Just feel.