-
오픈AI, 비전 기능을 포함한 파인 튜닝 API 소개인공지능 2024. 10. 2. 13:54
비전 기능을 포함한 파인 튜닝 API 소개
이제 개발자는 이미지와 텍스트로 GPT-4o를 미세 조정하여 비전 기능을 개선할 수 있습니다.
오늘 우리는 GPT-4o에서 비전 파인 튜닝(Vision Fine-tuning)을 도입하여, 텍스트뿐만 아니라 이미지를 사용해 모델을 파인 튜닝할 수 있게 되었습니다. 개발자는 이미지 이해 능력을 강화하여, 향상된 시각적 검색 기능, 자율 주행 차량 또는 스마트 시티용 객체 탐지 개선, 더 정확한 의료 이미지 분석과 같은 애플리케이션을 구현할 수 있습니다.
GPT-4o에서 파인 튜닝을 처음 도입한 이후, 수십만 명의 개발자들이 텍스트 전용 데이터셋을 사용해 모델을 커스터마이징하여 특정 작업의 성능을 개선했습니다. 그러나 많은 경우 텍스트만으로 모델을 파인 튜닝하는 것은 기대했던 성능 향상을 제공하지 못했습니다.
작동 방식
비전 파인 튜닝은 텍스트 파인 튜닝과 유사한 과정을 따릅니다. 개발자는 이미지 데이터셋을 적절한 형식에 맞게 준비한 후, 해당 데이터셋을 플랫폼에 업로드할 수 있습니다. 개발자는 100개의 이미지만으로도 GPT-4o의 비전 작업 성능을 향상시킬 수 있으며, 더 많은 텍스트 및 이미지 데이터를 사용하면 성능을 더욱 높일 수 있습니다.
{ "messages": [ { "role": "system", "content": "You are an assistant that identifies uncommon cheeses." }, { "role": "user", "content": "What is this cheese?" }, { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": "https://upload.wikimedia.org/wikipedia/commons/3/36/Danbo_Cheese.jpg" } } ] }, { "role": "assistant", "content": "Danbo" } ] }
우리는 소수의 신뢰할 수 있는 파트너와 협력하여 비전 파인 튜닝의 실제 응용 사례를 더 잘 이해하기 위해 연구했으며, 그들이 구축한 몇 가지 예를 소개하게 되어 기쁩니다.
Grab: 도로에서의 이미지 탐지 및 이해 향상
동남아시아의 주요 음식 배달 및 라이드셰어 회사인 Grab은 운전자들로부터 수집된 도로 이미지를 GrabMaps라는 지도 서비스의 데이터로 전환합니다. GrabMaps는 Grab의 동남아시아 운영 전반에 걸쳐 사용됩니다. Grab은 단 100개의 예시만으로 비전 파인 튜닝을 통해 GPT-4o가 교통 표지판을 정확히 찾고 차선 분리대를 계산하도록 학습시켰습니다. 그 결과, Grab은 기본 GPT-4o 모델에 비해 차선 수 정확도를 20% 향상시키고 속도 제한 표지판의 위치 파악 정확도를 13% 향상시켜, 수작업으로 처리하던 지도 작업을 자동화할 수 있게 되었습니다.
Automat: 비즈니스 프로세스를 자동화하는 데스크톱 봇의 성공률 향상
엔터프라이즈 자동화 회사인 Automat은 문서를 처리하고 UI 기반 작업을 수행하는 데스크톱 및 웹 에이전트를 구축하여 비즈니스 프로세스를 자동화합니다. Automat은 스크린샷 데이터셋을 사용하여 GPT-4o가 자연어 설명을 기반으로 화면의 UI 요소를 찾도록 비전 파인 튜닝을 진행했으며, 이로 인해 RPA(로봇 프로세스 자동화) 에이전트의 성공률이 16.60%에서 61.67%로 272% 향상되었습니다. 또한, Automat은 200개의 비정형 보험 문서 이미지만으로 GPT-4o를 학습시켜 정보 추출 작업에서 F1 점수가 7% 상승하는 성과를 얻었습니다.
Coframe: 디지털 콘텐츠 생성 품질 향상
Coframe은 기업이 웹사이트와 UI의 다양한 버전을 지속적으로 생성하고 테스트하여 비즈니스 메트릭을 최적화할 수 있도록 돕는 AI 성장 엔지니어링 도우미를 개발하고 있습니다. 이 작업의 핵심은 웹사이트의 나머지 부분을 기반으로 새로 브랜드화된 섹션을 자율적으로 생성하는 것입니다. Coframe은 GPT-4o에 이미지와 코드를 사용하여 웹사이트의 다음 섹션을 생성하도록 학습시켰으며, 이로 인해 GPT-4o의 일관된 시각적 스타일과 올바른 레이아웃 생성 능력이 기본 GPT-4o 모델에 비해 26% 개선되었습니다.
안전 및 개인정보 보호
우리는 파인 튜닝된 모델에 대해 자동화된 안전 평가를 지속적으로 수행하고 있으며, 사용 사례가 우리의 사용 정책을 준수하는지 모니터링하고 있습니다. 모든 API 서비스와 마찬가지로 비전 파인 튜닝은 우리의 기업 개인정보 보호 약속에 따라 제공됩니다. 파인 튜닝된 모델은 전적으로 사용자의 통제 하에 있으며, 비즈니스 데이터에 대한 완전한 소유권을 유지합니다. 사용자의 명시적인 허락 없이는 이 서비스에서 사용된 입력 또는 출력 데이터를 사용하여 모델을 학습하지 않습니다.
이용 가능성 및 가격
비전 파인 튜닝 기능은 오늘부터 모든 유료 사용 계층의 개발자에게 제공됩니다. 이 기능은 최신 GPT-4o 모델 스냅샷인 'gpt-4o-2024-08-06'에서 지원됩니다. 개발자는 Chat 엔드포인트와 동일한 형식을 사용하여 이미지용 파인 튜닝 학습 데이터를 확장할 수 있습니다.
2024년 10월 31일까지 GPT-4o를 이미지로 파인 튜닝하는 데 1M개의 학습 토큰을 무료로 제공합니다. 2024년 10월 31일 이후에는 GPT-4o 파인 튜닝 학습에 100만 개의 토큰당 25달러가 부과되며, 추론은 입력 토큰 100만 개당 3.75달러, 출력 토큰 100만 개당 15달러가 부과됩니다. 이미지 입력은 이미지 크기에 따라 토큰화되며, 텍스트 입력과 동일한 토큰 단위 가격이 적용됩니다. 자세한 내용은 API 가격 페이지에서 확인할 수 있습니다.
시작하려면, 파인 튜닝 대시보드에서 'create'를 클릭하고 기본 모델 드롭다운에서 'gpt-4o-2024-08-06'을 선택하십시오. 이미지를 사용하여 GPT-4o를 파인 튜닝하는 방법에 대해 자세히 알아보려면 문서를 참조하십시오.
각주: GPT-4o 기본 모델은 gpt-4o-2024-08-06을 의미합니다.
https://openai.com/index/introducing-vision-to-the-fine-tuning-api/
'인공지능' 카테고리의 다른 글
오픈AI, API에서의 모델 증류 소개 (1) 2024.10.02 오픈AI, API에서의 프롬프트 캐싱 소개 (2) 2024.10.02 오픈AI, 실시간 API 소개 (4) 2024.10.02 오픈AI DevDay 2024: AI 접근성과 비용 효율성을 높이는 4가지 업데이트 (3) 2024.10.02 소프트뱅크, 오픈AI에 6600억 원 투자 생성형 AI 산업 도약 (2) 2024.10.02