메타, 쉽게 사용할 수 있는 오디오용 생성형 AI AudioCraft

인공지능 2023. 8. 5. 01:47

전문 음악가가 악기로 한 음도 연주하지 않고도 새로운 작곡을 탐구할 수 있다고 상상해 보세요. 또는 적은 예산으로 사실적인 음향 효과와 주변 소음으로 가상 세계를 채우는 인디 게임 개발자를 상상해 보세요. 또는 최신 Instagram 게시물에 사운드트랙을 손쉽게 추가하는 소규모 비즈니스 소유자. AudioCraft는 미디나 피아노 롤이 아닌 원시 오디오 신호로 학습한 후 텍스트 기반 사용자 입력에서 고품질의 사실적인 오디오와 음악을 생성하는 간단한 프레임워크입니다.

AudioCraft는 세 가지 모델로 구성되어 있습니다: MusicGen, AudioGen, EnCodec입니다. 메타 소유의 특정 라이선스 음악으로 학습된 MusicGen은 텍스트 기반 사용자 입력에서 음악을 생성하고, 공개 사운드 효과로 학습된 AudioGen은 텍스트 기반 사용자 입력에서 오디오를 생성합니다. 오늘은 아티팩트(artifact)를 줄이면서 더 높은 품질의 음악을 생성할 수 있는 EnCodec 디코더, 개 짖는 소리, 자동차 경적 소리, 나무 바닥의 발자국 소리와 같은 환경음과 음향 효과를 생성할 수 있는 사전 학습된 AudioGen 모델, 모든 AudioCraft 모델 가중치와 코드의 개선된 버전을 출시하게 되어 기쁩니다. 이 모델은 연구 목적과 기술에 대한 사람들의 이해를 높이기 위해 사용할 수 있습니다. 연구자와 실무자가 처음으로 자신의 데이터 세트로 모델을 훈련하고 최첨단 기술을 발전시키는 데 도움을 줄 수 있도록 액세스 권한을 제공하게 되어 기쁩니다.

텍스트에서 오디오로 손쉽게 전환

최근 몇 년 동안 언어 모델을 포함한 생성형 AI 모델은 공간 이해를 보여주는 텍스트 설명부터 기계 번역을 수행하는 텍스트 및 음성 모델, 심지어 텍스트 또는 음성 대화 에이전트에 이르기까지 다양한 이미지와 비디오를 생성하는 등 엄청난 발전을 이루며 뛰어난 능력을 보여주었습니다. 하지만 이미지, 비디오, 텍스트에 대한 생성형 AI는 많은 관심을 받고 있지만, 오디오는 항상 약간 뒤처져 있는 것처럼 보였습니다. 일부 연구가 진행 중이지만 매우 복잡하고 개방적이지 않아서 사람들이 쉽게 사용할 수 없습니다.

모든 종류의 고음질 오디오를 생성하려면 다양한 스케일의 복잡한 신호와 패턴을 모델링해야 합니다. 음악은 음표 모음부터 여러 악기가 포함된 글로벌 음악 구조에 이르기까지 로컬 및 장거리 패턴으로 구성되어 있기 때문에 생성하기 가장 까다로운 유형의 오디오라고 할 수 있습니다. AI로 일관성 있는 음악을 생성하는 것은 종종 MIDI 또는 피아노 롤과 같은 상징적 표현을 사용하여 해결되었습니다. 그러나 이러한 접근 방식은 음악에서 발견되는 표현적 뉘앙스와 문체 요소를 완전히 파악할 수 없습니다. 최근에는 자기 지도형 오디오 표현 학습과 여러 계층적 또는 계단식 모델을 활용하여 음악을 생성하고, 원시 오디오를 복잡한 시스템에 공급하여 신호의 장거리 구조를 포착하는 동시에 고품질 오디오를 생성하는 기술이 발전하고 있습니다. 하지만 이 분야에서 더 많은 것을 할 수 있다는 것을 알고 있었습니다.

AudioCraft 모델 제품군은 장기간 일관된 고품질 오디오를 생성할 수 있으며, 자연스러운 인터페이스를 통해 쉽게 상호작용할 수 있습니다. AudioCraft는 이 분야의 이전 작업에 비해 오디오 생성 모델의 전반적인 설계를 간소화하여 메타가 지난 몇 년 동안 개발해온 기존 모델을 활용하면서 한계를 뛰어넘어 자체 모델을 개발할 수 있는 모든 레시피를 제공합니다.

AudioCraft는 음악과 사운드 생성 및 압축을 모두 한 곳에서 처리할 수 있습니다. 구축 및 재사용이 쉽기 때문에 더 나은 사운드 제너레이터, 압축 알고리즘 또는 음악 제너레이터를 구축하려는 사람들은 동일한 코드 기반에서 모든 작업을 수행하고 다른 사람들이 수행한 작업을 기반으로 구축할 수 있습니다.

모델을 단순하게 만드는 데 많은 노력을 기울였지만, 개발팀은 AudioCraft가 최신 기술을 지원할 수 있도록 하는 데도 최선을 다했습니다. 사람들은 모델을 쉽게 확장하고 연구용 사용 사례에 맞게 조정할 수 있습니다. 사람들에게 모델에 대한 액세스 권한을 부여하여 필요에 맞게 조정하면 거의 무한한 가능성이 있습니다. 이것이 바로 우리가 이 모델 제품군을 통해 하고자 하는 일입니다. 사람들에게 작업을 확장할 수 있는 힘을 주는 것입니다.

오디오 생성에 대한 간단한 접근 방식

원시 오디오 신호에서 오디오를 생성하는 것은 매우 긴 시퀀스를 모델링해야 하므로 쉽지 않습니다. 44.1kHz(음악 레코딩의 표준 품질)로 샘플링된 몇 분 분량의 일반적인 음악 트랙은 수백만 개의 타임스텝으로 구성됩니다. 이에 비해 Llama 및 Llama 2와 같은 텍스트 기반 생성 모델에는 샘플당 수천 개의 타임스텝을 나타내는 하위 단어로 처리된 텍스트가 공급됩니다.

이 문제를 해결하기 위해 EnCodec neural audio codec을 사용하여 원시 신호에서 개별 오디오 토큰을 학습하여 음악 샘플에 대한 새로운 고정 '어휘(vocabulary)'를 제공합니다. 그런 다음 이 개별 오디오 토큰에 대해 자동 회귀 언어 모델(autoregressive language model)을 학습시켜 EnCodec의 디코더로 토큰을 오디오 공간으로 다시 변환할 때 새로운 토큰과 새로운 사운드 및 음악을 생성할 수 있습니다.

파형에서 오디오 토큰 학습하기

EnCodec은 모든 종류의 오디오를 압축하고 원본 신호를 높은 충실도로 재구성하도록 특별히 훈련된 손실 신경 코덱입니다. 이 코덱은 고정 어휘로 여러 병렬 오디오 토큰 스트림을 생성하는 잔여 벡터 양자화 병목 현상이 있는 자동 인코더로 구성됩니다. 서로 다른 스트림은 오디오 파형의 서로 다른 수준의 정보를 캡처하므로 모든 스트림에서 높은 충실도로 오디오를 재구성할 수 있습니다.

오디오 언어 모델 훈련

그런 다음 단일 자동 회귀 언어 모델을 사용하여 EnCodec의 오디오 토큰을 재귀적으로 모델링합니다. 토큰 병렬 스트림의 내부 구조를 활용하는 간단한 접근 방식을 소개하고, 단일 모델과 우아한 토큰 인터리빙 패턴을 통해 오디오 시퀀스를 효율적으로 모델링하여 오디오의 장기적인 종속성을 동시에 포착하고 고품질 사운드를 생성할 수 있음을 보여 줍니다.

텍스트 설명에서 오디오 생성

텍스트 프롬프트: 바람이 부는 휘파람 소리

텍스트 프롬프트: 사이렌과 윙윙거리는 엔진 소리가 접근

AudioGen을 통해 텍스트-오디오 생성 작업을 수행하도록 AI 모델을 훈련시킬 수 있음을 시연했습니다. 음향 장면에 대한 텍스트 설명이 주어지면 이 모델은 사실적인 녹음 조건과 복잡한 장면 컨텍스트를 사용하여 설명에 해당하는 환경 사운드를 생성할 수 있습니다.

텍스트 프롬프트: 해변에 어울리는 캐치한 멜로디, 열대 타악기, 경쾌한 리듬이 돋보이는 팝 댄스 트랙

텍스트 프롬프트: 흙빛 톤, 환경을 의식한 우쿨렐레가 가미된 조화로운, 산뜻하고 여유로운, 유기적인 악기, 부드러운 그루브

MusicGen은 음악 생성을 위해 특별히 맞춤화된 오디오 생성 모델입니다. 음악 트랙은 환경 사운드보다 더 복잡하며, 새로운 음악 작품을 만들 때는 장기적인 구조에서 일관된 샘플을 생성하는 것이 특히 중요합니다. MusicGen은 텍스트 설명 및 메타데이터와 함께 약 40만 개의 녹음을 학습했으며, 이는 메타가 소유하거나 이 용도로 특별히 라이선스를 취득한 20,000시간 분량의 음악에 해당합니다.

이 연구를 기반으로 구축

우리 팀은 고급 생성형 AI 오디오 모델에 대한 연구를 계속하고 있습니다. 이번 AudioCraft 릴리스에서는 이산 표현 디코딩을 위한 확산 기반 접근 방식(diffusion-based approach)을 통해 합성 오디오의 품질을 향상시키는 새로운 접근 방식을 추가로 제공합니다. 또한 오디오 생성 모델의 제어 가능성을 개선하고, 추가적인 컨디셔닝 방법을 모색하며, 모델이 더 긴 범위의 종속성을 포착할 수 있도록 기능을 강화할 계획입니다. 마지막으로, 오디오에 대해 학습된 이러한 모델의 한계와 편향성을 계속 조사할 것입니다.

이 팀은 모델링 관점에서 속도와 효율성을 높이고 이러한 모델을 제어하는 방식을 개선하여 현재 모델을 개선하기 위해 노력하고 있으며, 이를 통해 새로운 사용 사례와 가능성을 열 수 있을 것입니다.

연구의 초석인 책임과 투명성

연구 커뮤니티가 이를 기반으로 구축하고 책임감 있게 AI를 구축하는 방법에 대한 중요한 대화를 이어갈 수 있도록 Facebook의 연구에 대해 공개하는 것이 중요합니다. 저희는 모델 학습에 사용되는 데이터 세트의 다양성이 부족하다는 점을 잘 알고 있습니다. 특히, 사용된 음악 데이터 세트는 서양식 음악의 비중이 높고 영어로 작성된 텍스트와 메타데이터가 포함된 오디오-텍스트 쌍으로만 구성되어 있습니다. AudioCraft의 코드를 공유함으로써 다른 연구자들이 생성 모델의 잠재적 편향과 오용을 제한하거나 제거하기 위한 새로운 접근법을 더 쉽게 테스트할 수 있기를 바랍니다.

오픈 소스의 중요성

책임감 있는 혁신은 고립되어서는 이루어질 수 없습니다. 연구와 결과 모델을 오픈소스로 공개하면 모든 사람이 동등하게 액세스할 수 있습니다.

우리는 다양한 크기의 모델을 연구 커뮤니티에 공개하고 있으며, 책임감 있는 AI 관행(Responsible AI practices)에 대한 접근 방식에 따라 모델을 구축한 방법을 자세히 설명하는 AudioGen 및 MusicGen 모델 카드를 공유하고 있습니다. 유니티의 오디오 연구 프레임워크와 트레이닝 코드는 MIT 라이선스에 따라 공개되어 더 많은 커뮤니티가 유니티의 작업을 재현하고 그 위에 구축할 수 있도록 지원합니다. 또한 더욱 발전된 컨트롤 개발을 통해 이러한 모델이 음악 아마추어와 전문가 모두에게 유용하게 사용될 수 있기를 바랍니다.

탄탄한 오픈 소스 기반은 혁신을 촉진하고 향후 오디오와 음악을 제작하고 듣는 방식을 보완할 것입니다. 음향 효과와 장엄한 음악이 포함된 풍부한 동화책 낭독을 생각해 보세요. 더 많은 제어 기능이 추가되면 신디사이저가 처음 등장했을 때처럼 MusicGen이 새로운 유형의 악기로 변모할 수 있을 것입니다.

영감을 제공하고, 빠르게 브레인스토밍하고, 새로운 방식으로 작곡을 반복할 수 있다는 점에서 AudioCraft 제품군은 뮤지션과 사운드 디자이너의 전문 도구 상자를 위한 도구라고 생각합니다.

이러한 모델을 개발하는 과정을 투명하게 공개하고 연구자든 음악 커뮤니티 전체든 누구나 쉽게 사용할 수 있도록 보장하면 사람들이 이 모델이 무엇을 할 수 있는지, 무엇을 할 수 없는지 이해하고 실제로 사용할 수 있는 역량을 키우는 데 도움이 됩니다.

앞으로 생성형 AI는 메타버스를 위한 월드를 구축하는 대형 AAA 개발자, 다음 작곡 작업을 하는 음악가(아마추어, 프로 등), 크리에이티브 에셋의 수준을 높이고자 하는 중소기업 소유주 등 초기 프로토타이핑 및 그레이박스 단계에서 피드백을 더 빠르게 받을 수 있도록 지원하여 반복 작업 시간을 크게 개선하는 데 도움이 될 것입니다. AudioCraft는 생성형 AI 연구의 중요한 진전입니다. 강력하고 일관된 고품질 오디오 샘플을 성공적으로 생성하기 위해 개발한 간단한 접근 방식이 청각 및 다중 모드 인터페이스(multi-modal interfaces)를 고려한 고급 인간-컴퓨터 상호 작용 모델(human-computer interaction models) 개발에 의미 있는 영향을 미칠 것으로 믿습니다. 그리고 사람들이 이를 통해 무엇을 만들어낼지 기대가 됩니다.

Listen to more samples https://audiocraft.metademolab.com/
Browse AudioCraft code https://github.com/facebookresearch/audiocraft
Read MusicGen paper https://arxiv.org/abs/2306.05284
Read AudioGen paper https://arxiv.org/abs/2209.15352
Read Diffusion decoders paper https://dl.fbaipublicfiles.com/encodec/Diffusion/paper.pdf

이 블로그 게시물은 다음 분들의 도움으로 작성되었습니다: 요시 아디, 제이드 코펫, 알렉산드르 데포세즈, 이타이 갓, 데이비드 칸트, 펠릭스 크룩, 라셸 모리츠, 탈 레메즈, 로빈 산 로만, 가브리엘 시네이브, 메리 윌리엄슨.

출처 : https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/

저작자표시

'인공지능' 카테고리의 다른 글

인공 지능: 로봇 반려동물의 미래 (0)	2023.08.09
메타, 뚜렷한 페르소나를 가진 AI 챗봇 출시 예정 (0)	2023.08.05
미국 청년 약 80%가 놀라운 곳에서 재정 관련 의견 청취 (0)	2023.08.04
비트겟 카피 트레이딩 리포트: 카피 트레이더 절반이 Z세대 사용자 (0)	2023.08.04
딜로이트, 메타버스와 Web3 차세대 인터넷 플랫폼 (0)	2023.07.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ABOUT ME

Triangular Triangular

텍스트에서 오디오로 손쉽게 전환

오디오 생성에 대한 간단한 접근 방식

파형에서 오디오 토큰 학습하기

오디오 언어 모델 훈련

텍스트 설명에서 오디오 생성

이 연구를 기반으로 구축

연구의 초석인 책임과 투명성

오픈 소스의 중요성

'인공지능' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

ABOUT ME

텍스트에서 오디오로 손쉽게 전환

오디오 생성에 대한 간단한 접근 방식

파형에서 오디오 토큰 학습하기

오디오 언어 모델 훈련

텍스트 설명에서 오디오 생성

이 연구를 기반으로 구축

연구의 초석인 책임과 투명성

오픈 소스의 중요성

'인공지능' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역