Orca 2: 작은 언어 모델(Small Language Model)에 추론하는 방법 가르치기

인공지능 2023. 11. 23. 23:25

몇 달 전에는 더 유D능한 LLM의 단계별 추론 추적을 모방하여 강력한 추론 능력을 입증한 130억 개의 매개변수 언어 모델인 Orca를 소개했습니다.

Orca 2는 100억 개 이하의 파라미터를 가진 더 작은 LM의 기능을 탐색하기 위한 노력의 최신 단계입니다. Orca 2를 통해 개선된 훈련 신호와 방법을 통해 훨씬 더 큰 규모의 언어 모델에서만 볼 수 있는 향상된 추론 능력을 소규모 언어 모델에서도 구현할 수 있음을 계속해서 보여주고 있습니다.

Orca 2는 제로 샷 환경에서 고급 추론 능력을 테스트하는 복잡한 작업에서 평가한 결과, 비슷한 크기의 모델(오리지널 Orca 모델 포함)을 크게 능가하며 5-10배 더 큰 모델과 비슷하거나 더 나은 성능 수준을 달성했습니다.

Orca 2는 두 가지 크기(70억 개 및 130억 개 매개변수)로 제공되며, 두 모델 모두 맞춤형 고품질 합성 데이터를 기반으로 해당 LLAMA 2 기본 모델을 미세 조정하여 만들어집니다. 유니티는 더 작은 LM의 개발, 평가 및 조율에 대한 연구를 장려하기 위해 Orca 2 가중치를 공개적으로 제공하고 있습니다.

Orca: Progressive Learning from Complex Explanation Traces of GPT-4 - Microsoft Research

Recent research has focused on enhancing the capability of smaller models through imitation learning, drawing on the outputs generated by large foundation models (LFMs). A number of issues impact the quality of these models, ranging from limited imitatio

www.microsoft.com

Orca-2: Teaching Small Language Models How to Reason - Microsoft Research

Orca 1 learns from rich signals, such as explanation traces, allowing it to outperform conventional instruction-tuned models on benchmarks like BigBench Hard and AGIEval. In Orca 2, we continue exploring how improved training signals can enhance smaller LM

www.microsoft.com

LLM을 사용해 소규모 언어 모델 훈련하기

GPT-4, PaLm 등과 같은 프론티어 언어 모델은 복잡한 질문에 답하고, 설명을 생성하고, 심지어 다단계 추론이 필요한 문제를 해결하는 등 한때 AI가 도달할 수 없는 영역으로 여겨졌던 놀라운 추론 능력을 보여주었습니다. 전통적으로 이러한 능력은 소규모 언어 모델에서는 관찰되지 않았기 때문에 대규모 언어 모델에 대한 지식이 늘어남에 따라 이러한 소규모 모델의 능력을 향상시키는 방법을 찾는 것이 과제입니다.

소규모 언어 모델의 기능 확장하기

Orca 2의 핵심 인사이트는 작업마다 서로 다른 솔루션 전략(예: 단계별 처리, 리콜 후 생성, 리콜 이유 생성, 추출 생성, 직접 답변 등)의 이점을 누릴 수 있으며, 대규모 모델에서 사용하는 솔루션 전략이 소규모 모델에는 최선의 선택이 아닐 수 있다는 것입니다. 예를 들어, GPT-4와 같은 매우 뛰어난 성능의 모델은 복잡한 작업에 직접 답변할 수 있지만, 소규모 모델에서는 작업을 여러 단계로 나누는 것이 더 유리할 수 있습니다.

Orca 2는 확장된 고도로 맞춤화된 합성 데이터 세트로 학습됩니다. 훈련 데이터는 단계별 처리, 리콜 후 생성, 리콜 이유 생성, 추출 생성, 직접 답변 방법 등 다양한 추론 기법을 Orca 2에 가르치는 동시에 과제마다 다른 솔루션 전략을 선택하도록 가르칠 수 있도록 생성되었습니다.

훈련 데이터는 더 유능한 교사 모델에서 얻습니다. 과제와 모델의 원하는 동작에 따라 매우 상세한 지침과 여러 번의 호출을 통해 교사의 응답을 얻을 수 있습니다. 과제에 접근하는 방법을 자세히 설명하는 원래의 지침이 없는 경우 학생 모델은 해당 기본 전략과 이를 통해 도출되는 추론 능력을 학습하도록 권장됩니다.

Orca 2는 훨씬 더 큰 모델에 필적하는 추론 기능 보유

Orca 2를 평가하기 위해 약 100개의 작업과 36,000개 이상의 고유 테스트 케이스에 해당하는 15개의 다양한 벤치마크 세트를 제로 샷 설정에서 종합적으로 사용했습니다. 벤치마크는 언어 이해, 상식 추론, 다단계 추론, 수학 문제 해결, 독해력, 요약, 근거, 진실성, 유해 콘텐츠 생성 및 식별 등 다양한 측면을 다룹니다.

그림 1: 언어 이해, 상식 추론, 다단계 추론, 수학 문제 해결 등 다양한 벤치마크(제로 샷 설정)에서 Orca 2(7B 및 13B)를 LLaMA-2-Chat(13B 및 70B) 및 WizardLM(13B 및 70B)과 비교한 결과입니다. Orca 2 모델은 5~10배 더 큰 모델을 포함하여 다른 모델과 비슷하거나 능가합니다. 이 그림의 모든 모델은 동일한 기본 모델(LLAMA-2)을 공유한다는 점에 유의하세요.

예비 결과에 따르면 Orca 2의 성능은 비슷한 크기의 모델을 훨씬 능가하는 것으로 나타났습니다. 또한 최소 10배 이상 큰 모델과 비슷하거나 더 나은 성능 수준을 달성하여 더 작은 모델에 더 나은 추론 기능을 탑재할 수 있는 잠재력을 보여주었습니다.

Orca 2 모델은 다른 언어 모델에 공통적으로 나타나는 한계가 있으며, 학습된 기본 모델의 많은 제약 조건을 그대로 유지할 수 있습니다. Orca 2 학습은 다양한 기본 모델에 적용될 수 있지만, 여기서는 LLaMA-2 7B 및 13B 모델을 사용한 결과를 보고합니다. Orca 2 모델은 안전을 위해 인간 피드백을 통한 강화 학습(RLHF) 훈련을 거치지 않았습니다.

결론

Orca 2 모델에 대한 연구를 통해 소규모 언어 모델의 추론 능력을 향상시키는 데 중요한 통찰력을 얻었습니다. 맞춤형 합성 데이터로 이러한 모델을 전략적으로 훈련함으로써 특히 제로 샷 추론 작업에서 대규모 모델에 필적하거나 이를 능가하는 성능 수준을 달성할 수 있었습니다.

Orca 2의 성공 비결은 다양한 추론 기법을 적용하고 다양한 작업에 대한 최적의 솔루션을 찾아낸 데 있습니다. 기본 모델에서 물려받은 한계와 다른 언어 모델에 공통적으로 나타나는 한계 등 몇 가지 한계가 있지만, Orca 2는 추론, 전문화, 제어 및 소규모 모델의 안전성을 개선하는 등 향후 발전 가능성이 분명합니다. 사후 학습을 위해 신중하게 필터링된 합성 데이터를 사용하는 것이 이러한 개선의 핵심 전략으로 부상하고 있습니다.

이번 연구 결과는 효율성과 기능의 균형을 맞춰야 하는 시나리오에서 소규모 모델의 가치를 강조합니다. 대형 모델이 계속해서 뛰어난 성능을 발휘하고 있는 가운데, Orca 2와의 작업은 언어 모델의 애플리케이션과 배포 옵션을 다양화하는 데 중요한 진전을 이루었습니다.

"Orca-2: 작은 언어 모델에 추론 방법 가르치기" 논문의 이 이미지는 Orca 2, LLaMA-2, LLaMA-2-Chat, ChatGPT(GPT-3.5-Turbo)가 논리 기반 질문을 처리하고 답변하는 방법의 차이를 보여줍니다. LLaMA-2 및 LLaMA-2-Chat 출력은 표준 설정(온도=0, top_p=1)을 사용하여 replicate.com/meta/llama-2-13b 및 chat.lmsys.org를 통해 생성되었습니다. ChatGPT의 응답은 chat.openai.com에서 검색하여 각 모델이 문제 해결에 접근하는 방식을 명확하게 비교할 수 있도록 했습니다.

Orca 2: Teaching Small Language Models How to Reason

At Microsoft, we’re expanding AI capabilities by training small language models to achieve the kind of enhanced reasoning and comprehension typically found only in much larger models.

www.microsoft.com

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

Microsoft 2024년을 AI PC의 원년으로 Windows에 큰 변화를 준비 (0)	2024.01.04
애플의 새로운 오픈소스 머신러닝 모델, '페럿(Ferret)' (0)	2024.01.01
한국은행 AI와 노동시장 변화 고임금·고학력 근로자가 AI 기술에 더 많이 노출 (0)	2023.11.23
앤스로픽, 200만 토큰과 절반 환각을 제공하는 AI Claude 2.1 발표 (0)	2023.11.22
META, Emu Video와 Emu Edit AI 연구 성과 공개 (0)	2023.11.20

ABOUT ME

Triangular Triangular

LLM을 사용해 소규모 언어 모델 훈련하기

소규모 언어 모델의 기능 확장하기

Orca 2는 훨씬 더 큰 모델에 필적하는 추론 기능 보유

'인공지능' 카테고리의 다른 글

티스토리툴바

ABOUT ME

LLM을 사용해 소규모 언어 모델 훈련하기

소규모 언어 모델의 기능 확장하기

Orca 2는 훨씬 더 큰 모델에 필적하는 추론 기능 보유

'인공지능' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바