ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 이제 보고, 듣고, 말할 수 있는 ChatGPT(23.09.25)
    인공지능 2023. 10. 5. 20:26

    이제 보고, 듣고, 말할 수 있는 ChatGPT

    ChatGPT에 새로운 음성 및 이미지 기능을 출시하기 시작했습니다. 이 기능은 음성 대화를 하거나 ChatGPT에 대화 내용을 보여줄 수 있는 새롭고 직관적인 유형의 인터페이스를 제공합니다.

    ChatGPT can now see, hear, and speak

    음성과 이미지를 통해 일상에서 ChatGPT를 더 다양한 방법으로 사용할 수 있습니다. 여행 중에 랜드마크의 사진을 찍고 그 명소의 흥미로운 점에 대해 실시간으로 대화를 나눌 수 있습니다. 집에 돌아와서는 냉장고와 식료품 저장실 사진을 찍어 저녁 메뉴가 무엇인지 파악하고 단계별 레시피에 대한 후속 질문을 할 수 있습니다. 저녁 식사 후에는 사진을 찍고 문제집에 동그라미를 치면서 자녀가 수학 문제를 풀 수 있도록 도와주고 힌트를 서로 공유하세요.

    앞으로 2주에 걸쳐 플러스 및 엔터프라이즈 사용자에게 ChatGPT의 음성 및 이미지 기능을 출시할 예정입니다. 음성은 iOS와 Android에서 제공되며(설정에서 옵트인), 이미지는 모든 플랫폼에서 사용할 수 있습니다.

    ChatGPT와 대화하고 응답하기

    이제 음성으로 어시스턴트와 주고받는 대화를 할 수 있습니다. 이동 중에도 어시스턴트와 대화하고, 가족을 위해 잠자리 이야기를 요청하거나, 저녁 식탁에서 토론을 시작할 수 있습니다.

    음성을 시작하려면 모바일 앱에서 설정 → 새로운 기능으로 이동하여 음성 대화를 선택합니다. 그런 다음 홈 화면 오른쪽 상단에 있는 헤드폰 버튼을 탭하고 5가지 음성 중에서 원하는 음성을 선택합니다.

    Use voice to engage in a back-and-forth conversation with your assistant.

    새로운 음성 기능은 텍스트와 몇 초 분량의 샘플 음성만으로 사람과 같은 오디오를 생성할 수 있는 새로운 텍스트 음성 변환 모델을 기반으로 합니다. 각 음성을 만들기 위해 전문 성우와 협업했습니다. 또한 오픈소스 음성 인식 시스템인 Whisper를 사용하여 사용자가 말한 내용을 텍스트로 변환합니다.

    음성 샘플 듣기

    이미지에 대한 채팅


    이제 ChatGPT에 하나 이상의 이미지를 보여줄 수 있습니다. 그릴이 작동하지 않는 이유를 해결하거나, 냉장고의 내용물을 살펴보고 식단을 계획하거나, 복잡한 그래프를 분석해 업무 관련 데이터를 확인할 수 있습니다. 이미지의 특정 부분에 집중하려면 모바일 앱의 그리기 도구를 사용할 수 있습니다.

    시작하려면 사진 버튼을 탭하여 이미지를 캡처하거나 선택합니다. iOS 또는 Android를 사용하는 경우, 먼저 더하기 버튼을 탭하세요. 여러 장의 이미지에 대해 토론하거나 그림 그리기 도구를 사용하여 어시스턴트를 안내할 수도 있습니다.

    이미지 이해는 멀티모달 GPT-3.5 및 GPT-4를 기반으로 합니다. 이 모델들은 사진, 스크린샷, 텍스트와 이미지가 모두 포함된 문서 등 다양한 이미지에 언어 추론 기술을 적용합니다.

    Show ChatGPT one or more images.

    이미지 및 음성 기능을 점진적으로 배포하고 있습니다.

    OpenAI의 목표는 안전하고 유익한 AGI를 구축하는 것입니다. 우리는 도구를 점진적으로 제공함으로써 시간이 지남에 따라 개선하고 위험 완화 기능을 구체화하는 동시에 모든 사람이 미래에 더 강력한 시스템을 사용할 수 있도록 준비할 수 있다고 믿습니다. 이러한 전략은 음성 및 시각을 포함하는 고급 모델에서 더욱 중요해집니다.

    음성

    단 몇 초의 실제 음성으로 사실적인 합성 음성을 제작할 수 있는 새로운 음성 기술은 창의적이고 접근성에 중점을 둔 다양한 애플리케이션의 문을 열어줍니다. 그러나 이러한 기능은 악의적인 행위자가 공인을 사칭하거나 사기를 저지를 수 있는 가능성과 같은 새로운 위험도 내포하고 있습니다.

    그렇기 때문에 저희는 이 기술을 특정 사용 사례인 음성 채팅에 적용하고 있습니다. 음성 채팅은 트위터에서 직접 작업한 성우들과 함께 제작했습니다. 다른 기업들과도 비슷한 방식으로 협업하고 있습니다. 예를 들어, Spotify는 팟캐스터가 자신의 목소리로 팟캐스트를 추가 언어로 번역하여 스토리텔링의 도달 범위를 넓힐 수 있도록 지원하는 음성 번역 기능의 파일럿에 이 기술을 활용하고 있습니다.

    https://newsroom.spotify.com/2023-09-25/ai-voice-translation-pilot-lex-fridman-dax-shepard-steven-bartlett

     

    Spotify’s AI Voice Translation Pilot Means Your Favorite Podcasters Might Be Heard in Your Native Language — Spotify

    Across cultures, countries, and communities, the stories we share bring us together. And more often than not, it is the voices of the speakers that lend as much weight to the stories as the narratives themselves. For more than 15 years, Spotify’s global

    newsroom.spotify.com

    이미지 입력

    비전 기반 모델은 사람에 대한 환각부터 위험도가 높은 영역의 이미지에 대한 모델의 해석에 의존하는 것까지 새로운 과제를 제시합니다. 광범위한 배포에 앞서 극단주의 및 과학적 숙련도와 같은 영역의 위험에 대해 레드 팀원 및 다양한 알파 테스터와 함께 모델을 테스트했습니다. 이러한 연구를 통해 책임감 있는 사용을 위한 몇 가지 주요 세부 사항을 조율할 수 있었습니다.

    유용하고 안전한 비전 기능 만들기

    다른 ChatGPT 기능과 마찬가지로 비전은 일상생활을 지원하는 기능입니다. 비전은 사용자가 보는 것을 볼 수 있을 때 가장 잘 작동합니다.

    이러한 접근 방식은 시각장애인과 저시력자를 위한 무료 모바일 앱인 Be My Eyes와의 협업을 통해 사용성과 한계를 파악하는 데 직접적으로 영향을 받았습니다. 사용자들은 리모컨 설정을 알아내려고 하는 동안 TV에 사람이 등장하는 경우와 같이 배경에 사람이 있는 이미지에 대해 일반적인 대화를 나누는 것이 유용하다는 의견을 제시했습니다.

    또한, ChatGPT가 항상 정확한 것은 아니며, 이러한 시스템은 개인의 프라이버시를 존중해야 하므로 ChatGPT의 사람에 대한 분석 및 직접적인 진술 기능을 상당히 제한하는 기술적 조치를 취했습니다.

    실제 사용과 피드백을 통해 이러한 안전장치를 더욱 개선하는 동시에 도구를 유용하게 사용하는 데 도움이 될 것입니다.

    모델 제한에 대한 투명성

    사용자는 연구와 같은 특수한 주제에 대해 ChatGPT를 사용할 수 있습니다. 저희는 모델의 한계에 대해 투명하게 공개하고 있으며, 적절한 검증 없이 위험성이 높은 사용 사례를 사용하지 않도록 권장하고 있습니다. 또한 이 모델은 영어 텍스트를 능숙하게 전사하지만 일부 다른 언어, 특히 로마자가 아닌 스크립트를 사용하는 언어에서는 성능이 떨어집니다. 따라서 비영어권 사용자는 이러한 용도로 ChatGPT를 사용하지 않는 것이 좋습니다.

    이미지 입력용 시스템 카드에서 안전에 대한 접근 방식과 Be My Eyes와의 작업에 대한 자세한 내용을 확인할 수 있습니다.

    https://openai.com/research/gpt-4v-system-card

     

    GPT-4V(ision) system card

     

    openai.com

    액세스 권한을 확대할 예정입니다.

    플러스 및 엔터프라이즈 사용자는 앞으로 2주 내에 음성 및 이미지 기능을 체험할 수 있습니다. 조만간 개발자를 포함한 다른 사용자 그룹에도 이러한 기능을 제공할 수 있게 되어 기대가 큽니다.

     

     

    ChatGPT can now see, hear, and speak

    We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.

    openai.com

     

    SNS와 AI가 융합한 합성 소셜 네트워크(synthetic social network)

    ChatGPT의 놀랍도록 인간적인 목소리와 Meta의 AI 캐릭터가 만나, 우리의 소셜네트워크(SNS) 피드가 완전히 바뀔지도 모릅니다. 생성형 AI의 발전에 있어 정말 심오한 한 주의 의미를 생각해보고, 우

    triangular.tistory.com

     

Designed by Tistory.