-
카카오 브레인 "멀티모달 언어 모델 오픈소스 'Honeybee' 공개인공지능 2024. 1. 23. 22:49
- 'Honeybee' 오픈소스 MLLM(멀티모달 언어 모델)가 GitHub에 공개되었습니다.
- MLLM, Honeybee는 다양한 벤치마크에서 이전 최고 성능 모델을 현격하게 능가합니다.
- Kakao Brain은 더 발전된 MLLM을 위한 연구 및 개발을 계속할 예정입니다. Kakao Brain이 Github에서 멀티모달 언어 모델 'Honeybee'를 오픈소스로 공개했습니다.
Kakao Brain은 이미지와 대규모 언어 모델을 연결할 수 있는 새로운 모델을 제공하기 위해 고수준 MLLM(멀티모달 대규모 언어 모델)인 Honeybee를 오픈소스로 공개했습니다. 현재 멀티모달 언어 모델에 대한 연구는 공개된 모델이 적고 학습 방법이 자세히 공개되지 않아 개발이 어렵습니다. 멀티모달 언어 모델의 발전에 기여하기 위해 Kakao Brain은 내부에서 개발한 Honeybee의 소스 코드를 공개하기로 결정했습니다.
MLLM은 이미지와 명령 프롬프트를 입력하고 텍스트로 응답하는 모델인 Large Language Model의 확장입니다.
이미지와 텍스트를 모두 입력할 수 있는 능력은 이미지에 나와 있는 장면에 관한 질문에 답할 수 있는 능력을 부여합니다. 예를 들어 "왼쪽의 선수가 몇 번의 챔피언십을 차지했는가?"라는 질문을 영어로 함께 "농구를 하는 두 선수" 이미지와 함께 Honeybee에 입력하면 Honeybee는 이미지와 질문을 합성하고 답을 생성합니다.
이러한 결과로 'MME', 'MMBench', 'SEED-Bench'와 같은 벤치마크에서는 다른 공개 모델과 비교했을 때 최고의 성능을 달성했습니다. 특히 'MME' 벤치마크에서는 지각 및 인지 능력을 평가하며 모델은 총 2800점 중 1977점을 획득했습니다.
관련 논문 "Honeybee: Locality-enhanced Projector for Multimodal LLM"은 작년에 arXiv에 게시되었습니다. 이 논문에서는 기술을 "더 효과적으로 학습하고 이해하기 위해 이미지 데이터를 처리하는 기술"로 설명합니다. "비주얼 프로젝터는 사전 훈련된 비전 인코더와 대규모 언어 모델 (LLM)을 연결하는 중요한 역할을 하여 LLM의 능력을 활용하면서 시각적 이해를 깊게 할 수 있게 해줍니다"라고 설명되어 있습니다.
Kakao Brain은 'Honeybee' MLLM의 특성에 따라 이미지를 입력하고 텍스트로 질문을 제시하면 답 생성 및 사용자와 상호 작용이 가능해지며, 향후 효과적인 교육 및 학습 보조 수단으로 사용될 것으로 예상하고 있습니다.
Kakao Brain의 공동 대표 김일두는 "Honeybee 모델의 추론을 가능하게 하는 코드도 GitHub에서 공개하였으며, 'Honeybee'를 활용한 다양한 서비스 확장을 고려 중에 있습니다."라고 밝혔으며 "보다 발전된 AI 모델을 확보하기 위해 계속해서 연구 및 개발을 진행할 것"이라고 덧붙였습니다."
'인공지능' 카테고리의 다른 글
ASPIRE 소개: 대화식 언어 모델의 선택적 예측 (0) 2024.01.23 MS, AI를 활용한 생산성 향상과 학습 개인화 소식 (0) 2024.01.23 Microsoft 2024년을 AI PC의 원년으로 Windows에 큰 변화를 준비 (0) 2024.01.04 애플의 새로운 오픈소스 머신러닝 모델, '페럿(Ferret)' (0) 2024.01.01 Orca 2: 작은 언어 모델(Small Language Model)에 추론하는 방법 가르치기 (0) 2023.11.23