-
오픈AI, 실시간 API 소개인공지능 2024. 10. 2. 13:40
실시간 API 소개
이제 개발자는 애플리케이션에 빠른 음성 대화 환경을 구축할 수 있습니다.
오늘 우리는 실시간 API의 공개 베타 버전을 도입하여 모든 유료 개발자가 앱에서 저지연, 멀티모달 경험을 구축할 수 있도록 합니다. ChatGPT의 고급 음성 모드와 유사하게, 실시간 API는 API에서 이미 지원하는 6개의 미리 설정된 음성을 사용하여 자연스러운 음성 간 대화를 지원합니다.
또한 실시간 API의 저지연 이점이 필요하지 않은 사용 사례를 지원하기 위해 Chat Completions API에 오디오 입력 및 출력을 도입하고 있습니다. 이 업데이트를 통해 개발자는 텍스트나 오디오 입력을 GPT-4o에 전달하고, 텍스트, 오디오 또는 둘 다의 형식으로 응답을 받을 수 있습니다.
언어 학습 앱, 교육 소프트웨어부터 고객 지원 경험까지, 개발자들은 이미 음성 경험을 활용하여 사용자와 소통하고 있습니다. 이제 실시간 API와 곧 제공될 Chat Completions API의 오디오 기능을 통해 개발자는 여러 모델을 결합할 필요 없이 단일 API 호출로 자연스러운 대화 경험을 구축할 수 있습니다.
작동 방식
이전에는 비슷한 음성 비서 경험을 만들기 위해 개발자는 Whisper와 같은 자동 음성 인식 모델로 오디오를 전사하고, 텍스트 모델로 추론한 후 텍스트를 음성 변환 모델을 사용해 재생해야 했습니다. 이 접근 방식은 종종 감정, 강조, 억양이 손실되고 눈에 띄는 지연 시간이 발생했습니다. Chat Completions API를 통해 개발자는 단일 API 호출로 전체 프로세스를 처리할 수 있지만, 여전히 인간의 대화보다는 느립니다. 실시간 API는 오디오 입력 및 출력을 직접 스트리밍하여 더 자연스러운 대화 경험을 가능하게 하며, ChatGPT의 고급 음성 모드와 유사하게 자동으로 중단을 처리할 수 있습니다.
실시간 API는 GPT-4o와 메시지를 주고받기 위해 지속적인 WebSocket 연결을 제공합니다. API는 함수 호출을 지원하여 음성 비서가 사용자 요청에 응답할 때 작업을 수행하거나 새로운 컨텍스트를 가져오는 것을 가능하게 합니다. 예를 들어, 음성 비서는 사용자를 대신해 주문을 하거나 관련 고객 정보를 검색하여 맞춤형 응답을 제공할 수 있습니다.
고객 지원 에이전트, 언어 학습 도우미 등
우리는 반복 배포 전략의 일환으로, 몇몇 파트너와 함께 실시간 API를 테스트하며 피드백을 수집하고 있습니다. 초기의 유망한 사용 사례로는 다음이 포함됩니다:
- Healthify: 영양 및 피트니스 코칭 앱으로, 실시간 API를 사용하여 AI 코치 Ria와 자연스러운 대화를 할 수 있으며, 필요한 경우 인간 영양사가 맞춤형 지원을 제공합니다.
- Speak: 언어 학습 앱으로, 실시간 API를 사용해 역할 놀이 기능을 구현하여 사용자가 새로운 언어로 대화를 연습하도록 권장합니다.
이용 가능성 및 가격
실시간 API는 오늘부터 모든 유료 개발자에게 공개 베타 버전으로 제공됩니다. 실시간 API의 오디오 기능은 새로운 GPT-4o 모델
gpt-4o-realtime-preview
를 기반으로 합니다.Chat Completions API의 오디오 기능은
gpt-4o-audio-preview
라는 새 모델로 몇 주 내에 출시될 예정입니다.gpt-4o-audio-preview
를 통해 개발자는 텍스트나 오디오를 GPT-4o에 입력하고 텍스트, 오디오 또는 둘 다의 응답을 받을 수 있습니다.실시간 API는 텍스트 토큰과 오디오 토큰을 모두 사용합니다. 텍스트 입력 토큰은 100만 개당 5달러, 출력 토큰은 100만 개당 20달러입니다. 오디오 입력은 100만 개당 100달러, 출력은 100만 개당 200달러입니다. 이는 오디오 입력 분당 약 0.06달러, 오디오 출력 분당 약 0.24달러에 해당합니다. Chat Completions API의 오디오 가격도 동일할 것입니다.
안전 및 개인정보 보호
실시간 API는 API 남용을 방지하기 위한 다중 안전 보호 계층을 사용하며, 여기에는 모델 입력 및 출력을 자동으로 모니터링하고 사람이 검토하는 과정이 포함됩니다. 실시간 API는 ChatGPT의 고급 음성 모드와 동일한 버전의 GPT-4o를 기반으로 하며, 이는 자동화 및 사람에 의한 평가를 포함하여 신중하게 평가되었습니다. 실시간 API는 또한 고급 음성 모드를 위해 구축된 동일한 오디오 안전 인프라를 활용하며, 이는 잠재적 위험을 줄이는 데 기여했습니다.
우리의 사용 정책에 따르면, 이 서비스를 통해 출력된 내용을 스팸, 허위 정보 제공, 또는 다른 사람에게 피해를 주는 용도로 재사용하거나 배포하는 것은 금지되어 있으며, 우리는 잠재적인 남용 가능성을 적극적으로 모니터링하고 있습니다. 또한, 우리의 정책은 사용자가 AI와 상호작용하고 있음을 명확히 알리도록 요구하고 있습니다.
출시 전에, 우리는 외부 레드 팀과 함께 실시간 API를 테스트했으며, 기존의 완화 조치로 해결되지 않는 고위험 격차는 발견되지 않았습니다. 모든 API 서비스와 마찬가지로, 실시간 API는 우리의 기업 개인정보 보호 약속의 적용을 받으며, 명시적인 허가 없이 이 서비스의 입력 또는 출력 데이터를 사용하여 모델을 학습하지 않습니다.
시작하기
개발자는 Playground에서 실시간 API를 통해 며칠 내로 구축을 시작할 수 있으며, 문서 및 참조 클라이언트를 사용할 수도 있습니다.
우리는 또한 LiveKit, Agora와 협력하여 에코 취소, 재연결 및 소리 분리와 같은 오디오 구성 요소 클라이언트 라이브러리를 만들었으며, Twilio와 협력하여 Twilio의 음성 API와 실시간 API를 통합해 개발자가 AI 가상 에이전트를 음성 통화를 통해 고객과 연결할 수 있도록 했습니다.
다음 단계
우리는 실시간 API의 일반 제공을 목표로 하여, 피드백을 적극 수집하고 API를 개선해 나가고 있습니다. 향후 계획된 기능은 다음과 같습니다:
- 추가 모달리티(More modalities): 실시간 API는 처음에 음성을 지원하며, 이후 시각 및 비디오와 같은 추가 모달리티를 추가할 예정입니다.
- 상한 증대(Increased rate limits): 현재 API는 Tier 5 개발자에게 100개의 동시 세션으로 제한되어 있으며, Tier 1-4에는 더 낮은 제한이 적용됩니다. 우리는 시간이 지남에 따라 이러한 제한을 증가시켜 더 큰 배포를 지원할 것입니다.
- 공식 SDK 지원(Official SDK support): 우리는 OpenAI의 Python 및 Node.js SDK에 실시간 API에 대한 지원을 통합할 예정입니다.
- 프롬프트 캐싱(Prompt Caching): 이전 대화 턴을 재처리할 때 할인을 적용할 수 있는 프롬프트 캐싱 지원을 추가할 것입니다.
- 모델 지원 확장(Expanded model support): 실시간 API는 향후 GPT-4o mini 모델도 지원할 예정입니다.
우리는 개발자들이 이러한 새로운 기능을 활용하여 교육, 번역, 고객 서비스, 접근성 등 다양한 사용 사례에서 새로운 오디오 경험을 만드는 것을 기대하고 있습니다.
'인공지능' 카테고리의 다른 글
오픈AI, API에서의 프롬프트 캐싱 소개 (2) 2024.10.02 오픈AI, 비전 기능을 포함한 파인 튜닝 API 소개 (1) 2024.10.02 오픈AI DevDay 2024: AI 접근성과 비용 효율성을 높이는 4가지 업데이트 (3) 2024.10.02 소프트뱅크, 오픈AI에 6600억 원 투자 생성형 AI 산업 도약 (2) 2024.10.02 화웨이, 중국 엔비디아 시장 탈환 Ascend 910C GPU 샘플링 시작 (4) 2024.10.02