-
오픈AI, API에서의 프롬프트 캐싱 소개인공지능 2024. 10. 2. 14:11
API에서의 프롬프트 캐싱
모델이 최근 본 입력에 대해 자동으로 할인을 제공합니다.
많은 개발자가 AI 애플리케이션을 구축할 때 코드베이스를 편집하거나 챗봇과 긴 다중 턴 대화를 나누는 경우와 같이 여러 API 호출에서 동일한 컨텍스트를 반복적으로 사용합니다. 오늘 우리는 프롬프트 캐싱(Prompt Caching)을 도입하여 개발자가 비용과 지연 시간을 줄일 수 있도록 했습니다. 최근에 본 입력 토큰을 재사용함으로써, 개발자는 50% 할인을 받고 더 빠른 프롬프트 처리 시간을 얻을 수 있습니다.
프롬프트 캐싱의 이용 가능성 및 가격
오늘부터, 프롬프트 캐싱은 GPT-4o, GPT-4o mini, o1-preview, o1-mini의 최신 버전 및 해당 모델의 파인 튜닝된 버전에서 자동으로 적용됩니다. 캐싱된 프롬프트는 캐싱되지 않은 프롬프트보다 할인을 제공합니다.
다음은 가격 개요입니다:
모델 캐싱되지 않은 입력 토큰 캐싱된 입력 토큰 출력 토큰 GPT-4o gpt-4o-2024-08-06 $2.50 $1.25 $10.00 GPT-4o fine-tuning $3.75 $1.88 $15.00 GPT-4o mini gpt-4o-mini-2024-07-18 $0.15 $0.08 $0.60 GPT-4o mini fine-tuning $0.30 $0.15 $1.20 o1 o1-preview $15.00 $7.50 $60.00 o1 mini $3.00 $1.50 $12.00 캐시 사용 모니터링
지원되는 모델에 대한 API 호출은 1,024 토큰 이상의 프롬프트에서 자동으로 프롬프트 캐싱의 혜택을 받습니다. API는 이전에 계산된 프롬프트의 가장 긴 접두사를 캐싱하며, 이는 1,024 토큰에서 시작해 128 토큰 단위로 증가합니다. 공통 접두사를 가진 프롬프트를 재사용할 경우, API 통합을 변경하지 않고도 자동으로 프롬프트 캐싱 할인이 적용됩니다.
프롬프트 캐싱을 사용하는 요청은 API 응답의
usage
필드 내에cached_tokens
값이 포함됩니다.usage: { total_tokens: 2306, prompt_tokens: 2006, completion_tokens: 300, prompt_tokens_details: { cached_tokens: 1920, audio_tokens: 0, }, completion_tokens_details: { reasoning_tokens: 0, audio_tokens: 0, } }
캐시는 일반적으로 5~10분의 비활성화 후 지워지며, 마지막 사용 후 1시간 이내에 항상 제거됩니다. 모든 API 서비스와 마찬가지로, 프롬프트 캐싱은 우리의 기업 개인정보 보호 약속의 적용을 받으며, 프롬프트 캐시는 조직 간에 공유되지 않습니다.
프롬프트 캐싱은 성능, 비용 및 지연 시간의 균형을 맞추면서 개발자가 프로덕션에서 애플리케이션을 확장하는 다양한 도구 중 하나입니다. 자세한 내용은 프롬프트 캐싱 문서를 참조하십시오.
'인공지능' 카테고리의 다른 글
AI 기업 수익성 개선 고비용 시대에서 매출로의 전환 (1) 2024.10.02 오픈AI, API에서의 모델 증류 소개 (1) 2024.10.02 오픈AI, 비전 기능을 포함한 파인 튜닝 API 소개 (1) 2024.10.02 오픈AI, 실시간 API 소개 (4) 2024.10.02 오픈AI DevDay 2024: AI 접근성과 비용 효율성을 높이는 4가지 업데이트 (3) 2024.10.02