애플의 새로운 오픈소스 머신러닝 모델, '페럿(Ferret)'

인공지능 2024. 1. 1. 23:49

Apple과 코넬 대학교에서 일하는 연구원들은 10월에 이미지의 영역을 쿼리에 사용할 수 있는 '페럿(Ferret)'이라는 오픈 소스 멀티모달 LLM을 조용히 발표했습니다.

10월에 Github에 소개된 이 기능은 발표나 팡파르 없이 거의 눈에 띄지 않게 진행되었습니다. 페럿의 코드는 10월 30일에 페럿-벤치와 함께 공개되었고, 12월 14일에 체크포인트 릴리스가 소개되었습니다.

처음에는 큰 주목을 받지 못했지만, 토요일에 이 릴리스가 AI 연구자들에게 큰 이슈가 되었다고 VentureBeat는 보도했습니다. 의료용 AI 비영리 단체의 운영자인 바트 드 위트는 "놓친" 릴리스에 대해 "영향력 있는 AI 연구에 대한 Apple의 헌신을 보여주는 증거"라며 X에 글을 올렸습니다.

페럿의 오픈소스 공개는 비상업적 라이선스에 따라 이루어지고 있으므로 현재 상태로는 상용화할 수 없습니다. 하지만 어떤 식으로든 향후 Apple 제품이나 서비스에 사용될 가능성은 항상 존재합니다.

https://venturebeat.com/ai/apple-quietly-released-an-open-source-multimodal-llm-in-october/

Apple AI/ML 연구 과학자 Zhe Gan이 10월에 올린 트윗에 따르면 페럿의 용도는 이미지에서 "모든 것을 세밀하게 참조하고 근거로 삼을 수 있는" 시스템이라고 설명합니다. 또한 이미지 내의 모든 형태의 영역을 사용하여 이러한 작업을 수행할 수 있습니다.

간단히 말해, 이 모델은 이미지에 그려진 영역을 검사하고, 그 안에서 사용자가 쿼리에서 사용할 수 있는 요소를 결정하고, 이를 식별하고, 감지된 요소 주위에 경계 상자를 그릴 수 있습니다. 그런 다음 식별된 요소를 쿼리의 일부로 사용하여 일반적인 방식으로 응답할 수 있습니다.

예를 들어, 이미지에서 동물의 이미지를 강조 표시하고 그 동물이 무엇인지 LLM에 질문하면 LLM은 해당 동물의 종과 사용자가 그룹에서 개별 동물을 언급하고 있음을 파악할 수 있습니다. 그런 다음 이미지에서 감지된 다른 항목의 컨텍스트를 사용하여 추가 응답을 제공할 수 있습니다.

이번 발표는 연구자들에게 중요한 의미를 가지는데, Apple이 평소 비밀스러운 태도를 보였던 것과 달리 AI 작업에 대해 보다 개방적인 태도를 취하고 있음을 보여주기 때문입니다.

Apple이 보유한 AI 서버의 수를 늘리기 위해 노력하고 있지만, 현재로서는 ChatGPT와 직접 협력할 수 있는 규모를 갖추지 못할 수도 있기 때문에 인프라 문제도 있습니다. Apple은 다른 회사와 협력하여 기능을 확장할 수도 있지만, 다른 방법은 방금 한 것처럼 오픈 소스 모델을 출시하는 것입니다.

https://twitter.com/zhegan4/status/1712345137983201716?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1712345137983201716%7Ctwgr%5E8a35474632714da1fc47d1b22df8ea72cc627858%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fappleinsider.com%2Farticles%2F23%2F12%2F24%2Fapples-ferret-is-a-new-open-source-machine-learning-model

Reddit의 r/Apple은 Github 릴리스에서 흥미로운 요소 중 하나로 페럿이 "80GB 메모리가 장착된 8개의 A100 GPU로 훈련"되었다는 점을 발견했습니다. Apple의 엔비디아 GPU 지원 역사를 고려할 때, 이는 GPU 생산업체를 인정한 드문 사례로 볼 수 있습니다.

https://appleinsider.com/articles/23/12/24/apples-ferret-is-a-new-open-source-machine-learning-model

Apple shares 'Ferret' machine learning model for image-based queries

Researchers working for Apple and from Cornell University quietly pushed an open-source multimodal LLM in October, a research release called "Ferret" that can use regions of images for queries.

appleinsider.com

저작자표시 비영리 변경금지

'인공지능' 카테고리의 다른 글

카카오 브레인 "멀티모달 언어 모델 오픈소스 'Honeybee' 공개 (0)	2024.01.23
Microsoft 2024년을 AI PC의 원년으로 Windows에 큰 변화를 준비 (0)	2024.01.04
Orca 2: 작은 언어 모델(Small Language Model)에 추론하는 방법 가르치기 (0)	2023.11.23
한국은행 AI와 노동시장 변화 고임금·고학력 근로자가 AI 기술에 더 많이 노출 (0)	2023.11.23
앤스로픽, 200만 토큰과 절반 환각을 제공하는 AI Claude 2.1 발표 (0)	2023.11.22

ABOUT ME

Triangular Triangular

'인공지능' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'인공지능' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바