ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 일레븐랩스, 음성에서 한발 더 나아가 AI 생성 음향 효과로 확장
    인공지능 2024. 6. 1. 22:08

    AI 음성 스타트업 일레븐랩스(ElevenLabs)가 텍스트-음성 변환 및 음성-음성 합성 도구를 출시한 이후, 새로운 목표를 향해 나아가고 있습니다. 구글과 팔란티어의 전직 직원들이 설립한 이 2년 된 스타트업은 오늘 새로운 텍스트-사운드 AI 제품인 'Sound Effects'의 출시를 발표했습니다.

    ElevenLabs 웹사이트에서 제공되는 Sound Effects는 스타트업의 자체 기반 모델을 사용하여 사용자가 상상하는 소리를 간단히 설명함으로써 다양한 종류의 오디오 샘플을 생성할 수 있게 합니다.

    이 회사는 2월에 Sora가 생성한 클립에 AI 음향 효과를 강화하여 이 도구를 처음으로 티저 형식으로 공개했습니다.

    ElevenLabs는 Shutterstock과 협력하여 이 제품을 출시했으며, 도메인 전반에서 창작자들이 몰입감 있는 사운드스케이프로 콘텐츠를 강화하는 데 이 도구를 사용할 것으로 기대하고 있습니다.

    1. ElevenLabs Sound Effects에서 기대할 점

    현재 창작자들이 콘텐츠에 주변 소음을 추가하려면 소셜 비디오, 게임, 영화 및 TV 프로그램을 위해 수동으로 녹음하거나 인터넷에서 오디오 파일을 구매/라이선스해야 합니다.

    이 접근 방식은 작동하지만, 이러한 소스에서 원하는 오디오를 항상 찾을 수 있는 것은 아니며, 새로운 소리를 녹음할 예산이 부족할 수도 있습니다.

    ElevenLabs의 새로운 Sound Effects 도구는 이 문제를 해결하여 창작자와 제작팀이 원하는 소리를 단순히 평범한 대화형 영어로 입력하여 정확히 얻을 수 있게 합니다.

    사용자가 원하는 음향 효과를 설명하는 텍스트 프롬프트를 입력하면, Sound Effects를 구동하는 모델이 이를 처리하고 선택할 수 있는 6개의 고유한 오디오 샘플을 생성합니다.

    사용자는 이러한 샘플을 각각 들어보고 프로젝트에 가장 적합한 것을 ElevenLabs 플랫폼에 직접 다운로드하거나 저장할 수 있습니다.

    이 제품에 대한 초기 접근 권한을 받아 30-40초 만에 명확한 출력을 생성할 수 있음을 확인했습니다. 그러나 테스트 결과, Sound Effects는 6개의 옵션 대신 4개의 옵션만 생성했습니다.

    이 샘플에는 천둥소리, 초인종 소리, 동전 소리 같은 표준적인 주변 소음부터 원숭이 소리, 자동차 경주 소리, 식당에서 사람들 먹는 소리, 기차가 멈추는 소리 등 더 복잡한 소리까지 다양하게 포함되었습니다.

    2. 다양한 음향 생성 가능성

    ElevenLabs의 CEO Mati Staniszewski는 VentureBeat와의 인터뷰에서 이 도구가 몇 초 길이의 소리 이상으로 악기 음악과 캐릭터 목소리 같은 더 긴 오디오 샘플도 생성할 수 있다고 설명했습니다.

    “기타 루프, 재즈 색소폰 솔로, 음악 테크노 루프 같은 프롬프트를 사용하여 최대 22초 길이의 악기 음악 트랙을 생성할 수 있습니다.”라고 Staniszewski는 설명했습니다. “모델은 또한 ‘모래에서 춤추며 노래하는 여자’ 또는 ‘멀리 떨어져 인간’ 같은 프롬프트를 사용하여 다양한 캐릭터 목소리를 생성할 수 있습니다. ‘나는 너무 자랑스럽다며 웃는 기쁜 노인의 목소리’와 같은 프롬프트를 사용하여 소리를 연결할 수도 있습니다.”

    이 기능을 가능하게 하는 모델의 세부 사항은 공개되지 않았지만, 회사의 자체 연구를 기반으로 하고 Shutterstock의 라이선스 트랙 오디오 라이브러리를 통해 미세 조정된 것이라고 언급했습니다.

    Shutterstock의 Chief Enterprise Officer Aimee Egan은 성명에서 “우리가 보유한 풍부하고 몰입감 있는 트랙 라이브러리와 이 최첨단 오디오 기술의 결합된 힘이 진정한 시장 최초의 제품을 가능하게 했습니다. 초기 접근 커뮤니티의 긍정적인 피드백에 기쁘며, 그들이 만들 다양한 프로젝트를 기대하고 있습니다.”라고 말했습니다.

    3. 전 세계 창작자를 위한 도구 제공 목표

    ElevenLabs는 2년 전 설립된 이후 강력한 AI 오디오 기능을 개발하고 출시하는 데 주력해 왔습니다.

    이 회사는 처음에 다양한 언어로 텍스트-음성 변환 모델을 출시했고, 이어 음성 복제 제품과 사용자가 오디오와 비디오를 원본 스피커의 목소리와 감정을 보존하면서 29개 언어로 번역할 수 있는 AI 더빙 도구를 출시했습니다.

    오늘 Sound Effects 출시로 이 작업을 확장하여 창작자들에게 고품질 콘텐츠를 제작할 수 있는 더 많은 도구를 제공하고 있습니다.

    Staniszewski는 영화 및 텔레비전 스튜디오, 비디오 게임 개발자, 마케팅 전문가 및 소셜 미디어 콘텐츠 제작자 등 다양한 도메인의 창작자들이 Sound Effects를 사용할 수 있기를 희망하고 있습니다.

    그러나 지금까지 이 제품을 알파 테스트한 기업의 이름은 공개하지 않았습니다.

    1월에 회사는 고객 중 41%가 포춘 500대 기업이며, The Washington Post, Storytel 및 TheSoul Publishing과 같은 대기업이 포함된다고 밝혔습니다.

    다음 단계로, Staniszewski는 회사가 음악 생성 모델과 현재 알파 단계에 있는 보이스오버 스튜디오 도구도 출시할 것이라고 덧붙였습니다. 두 제품의 출시 일정은 아직 불분명합니다.

    AI 음성, 사운드 및 음악 생성 분야의 다른 회사로는 Google, Meta, Suno, Pika, MURF.AI, Play.ht 및 WellSaid Labs가 있습니다. Market US에 따르면, 이러한 도구의 글로벌 시장은 2022년에 12억 달러에 달했으며, 2032년에는 약 50억 달러에 이를 것으로 예상되며, CAGR은 약 15.40%입니다.

    4. ElevenLabs의 AI 음향 효과 도구가 주는 시사점

    ElevenLabs가 새로운 AI 음향 효과 도구인 Sound Effects를 출시하면서, 이는 AI 음성 및 음향 생성 기술의 진화를 나타내며 다양한 분야에 걸쳐 광범위한 영향을 미칠 것으로 예상됩니다. 이번 발표와 관련된 주요 시사점을 다음과 같이 정리할 수 있습니다.

    콘텐츠 제작의 민주화

    Sound Effects는 사용자가 단순히 텍스트를 입력하는 것만으로 원하는 음향 효과를 생성할 수 있게 함으로써 콘텐츠 제작의 접근성을 크게 높입니다. 이제는 소규모 창작자나 예산이 제한된 제작자도 고품질의 음향 효과를 손쉽게 생성할 수 있어, 콘텐츠의 전문성과 몰입감을 극대화할 수 있습니다.

    비용 및 시간 절감

    기존의 음향 효과를 얻기 위해서는 고가의 라이선스를 구매하거나, 직접 녹음해야 하는 번거로움이 있었습니다. Sound Effects는 이러한 과정을 간소화하여 비용과 시간을 절약할 수 있게 해줍니다. 특히, 독립 영화 제작자, 인디 게임 개발자, 소규모 마케팅 팀 등에게 큰 도움이 될 것입니다.

    창의성 증진

    AI 기반의 음향 효과 생성 도구는 창작자들이 기존에 생각지 못한 새로운 소리를 실험하고 사용할 수 있게 합니다. 이는 창작의 범위를 넓혀주며, 다양한 장르와 스타일에서 새로운 가능성을 열어줍니다. 창작자들은 더 이상 제한된 음향 라이브러리에 얽매이지 않고, 무한한 가능성을 탐구할 수 있습니다.

    AI 기술의 발전과 상용화

    ElevenLabs의 이번 발표는 AI 기술이 얼마나 빠르게 발전하고 있는지를 보여줍니다. AI 기반 음향 생성 기술이 상용화되면서, AI 기술이 단순한 연구 단계를 넘어 실제 산업에 적용되고 있음을 확인할 수 있습니다. 이는 AI 기술에 대한 신뢰도를 높이고, 더 많은 기업들이 AI 솔루션을 도입하는 계기가 될 것입니다.

    협업과 생태계 확장

    Shutterstock과의 협력은 AI 기술과 기존 콘텐츠 라이브러리의 결합이 어떤 시너지를 낼 수 있는지를 보여줍니다. 이러한 협업은 향후 더 많은 기업들이 자사 기술과 콘텐츠를 결합하여 새로운 서비스를 개발하고, 시장을 확대하는 데 영감을 줄 것입니다.

    AI 윤리 및 규제 고려

    AI 기술이 빠르게 발전함에 따라, 윤리적 문제와 규제도 중요한 이슈로 대두될 것입니다. 특히, 음성 및 음향 생성 기술은 저작권 문제, 개인 정보 보호, 허위 정보 생성 등의 문제를 동반할 수 있습니다. 이에 대한 철저한 규제와 윤리적 고려가 필요하며, 이는 기술 개발과 함께 지속적으로 논의되고 해결되어야 할 부분입니다.

    시장 성장 가능성

    AI 음성, 음향 및 음악 생성 도구의 글로벌 시장은 빠르게 성장하고 있습니다. Market US에 따르면, 이 시장은 2022년에 12억 달러에 달했으며, 2032년에는 약 50억 달러에 이를 것으로 예상됩니다. 이는 AI 기반 음향 기술이 다양한 산업에서 중요한 도구로 자리 잡을 것임을 의미하며, 관련 기업들에게 큰 비즈니스 기회를 제공할 것입니다.

    결론

    ElevenLabs의 Sound Effects 출시와 같은 혁신적인 AI 기술은 콘텐츠 제작 환경을 획기적으로 변화시키고, 더 나은 품질의 콘텐츠를 더 빠르고 저렴하게 제작할 수 있게 합니다. 이는 창작자와 기업 모두에게 큰 혜택을 줄 것이며, AI 기술의 발전과 상용화에 중요한 전환점이 될 것입니다. 앞으로 AI 음향 생성 기술의 발전을 지켜보며, 그 영향력을 최대한 활용할 수 있는 전략을 마련하는 것이 중요합니다.

    일레븐랩스, 음성에서 한발 더 나아가 AI 생성 음향 효과로 확장
    일레븐랩스, 음성에서 한발 더 나아가 AI 생성 음향 효과로 확장


    https://venturebeat.com/ai/elevenlabs-moves-beyond-speech-with-ai-generated-sound-effects/

Designed by Tistory.