HelpSteer2-Preference: Complementing Ratings with Preferences

논문: https://arxiv.org/abs/2410.01257

Summary

본 논문에서는 HelpSteer2 데이터셋에 기존 등급 데이터를 보완하는 선호도 주석을 추가하여, Bradley-Terry 스타일과 회귀 스타일의 보상 모델을 동일한 데이터로 비교 분석했습니다. 이를 통해 두 스타일의 보상 모델을 결합하는 새로운 접근 방식을 제안하여, RewardBench에서 140개 이상의 보상 모델 중 상위에 랭크되는 성능을 달성했습니다. 본 연구에서 사용된 데이터셋과 훈련된 보상 모델은 오픈소스로 공개되어, 다른 연구자들이 RLHF에서 모델 정렬에 활용할 수 있도록 지원합니다.

초록

보상 모델은 모델이 지침을 따르도록 조정하는 데 매우 중요하며, 일반적으로 두 가지 인기 있는 패러다임 중 하나에 따라 훈련됩니다: 브래들리-테리 스타일 또는 회귀 스타일입니다. 그러나 데이터에 적절하게 매칭될 때 두 접근 방식 중 어느 것이 다른 방식보다 더 낫다는 증거는 부족합니다. 이는 주로 이러한 접근 방식이 서로 다른(그러나 호환되지 않는) 형식으로 수집된 데이터를 필요로 하기 때문에 기존의 공개 데이터셋에서 적절하게 매칭된 데이터를 사용할 수 없기 때문입니다. 이 문제를 해결하기 위해 기존 등급(회귀 스타일 훈련용으로 설계된)을 보완하는 선호도 주석(브래들리-테리 훈련용으로 설계됨)을 HelpSteer2 데이터셋에 추가했습니다. 데이터 해석 가능성을 개선하기 위해 선호도 주석에는 사람이 직접 작성한 정당화 설명이 함께 제공됩니다. 이 데이터를 사용하여 데이터에 적절히 일치하는 경우 브래들리-테리 모델과 회귀 모델을 처음으로 일대일로 비교합니다. 이러한 비교를 통해 얻은 인사이트를 바탕으로 브래들리-테리와 회귀 보상 모델링을 결합하는 새로운 접근 방식을 제안합니다. 이 접근법으로 튜닝된 Llama-3.1-70B-Instruct 모델은 2024년 10월 1일 기준 RewardBench에서 94.1점을 받아 140개 이상의 보상 모델 중 1위를 차지했습니다. 또한 이 보상 모델이 RLHF의 지침을 따르도록 모델을 조정하는 데 효과적임을 입증했습니다. 이 데이터셋(CC-BY-4.0 라이선스)은 이 https URL에서 오픈소스이며, 학습된 보상 모델은 이 https URL에서 공개적으로 릴리스합니다.