META, Emu Video와 Emu Edit AI 연구 성과 공개

인공지능 2023. 11. 20. 22:59

생성형 AI 분야는 빠르게 진화하고 있으며, 인간의 창의성과 자기표현을 강화할 수 있는 놀라운 잠재력을 보여주고 있습니다. 2022년에는 이미지 생성에서 동영상 생성으로 단 몇 달 만에 도약했습니다. 그리고 올해 메타 커넥트에서는 이미지 생성을 위한 첫 번째 기반 모델인 에뮤를 포함한 몇 가지 새로운 개발 사항을 발표했습니다. 에뮤의 기술은 사진을 찍고 시각적 스타일이나 배경을 변경할 수 있는 인스타그램용 AI 이미지 편집 도구, 그리고 해당 어시스턴트와의 메시지나 여러 앱의 그룹 채팅에서 사실적인 이미지를 직접 생성할 수 있는 메타 AI의 이매진 기능 등 다양한 생성 AI 경험의 기반이 되고 있습니다. 이 흥미로운 분야에 대한 저희의 연구는 계속 진행 중이며, 오늘 텍스트 지침만으로 제어되는 이미지 편집과 확산 모델에 기반한 텍스트-비디오 생성 방법에 대한 새로운 연구 결과를 발표할 예정입니다.

Emu Video: 고품질 비디오 생성을 위한 간단한 팩터화 방법

인공지능 이미지 생성 툴을 직접 사용해 본 적이 있든 없든, 그 결과를 본 적이 있을 것입니다: 시각적으로 뚜렷하고 종종 고도로 양식화되고 세밀한 이러한 이미지는 그 자체로도 상당히 인상적일 수 있으며, 움직임을 추가하여 생동감을 불어넣으면 그 효과는 더욱 커집니다.

에뮤 모델을 활용하는 에뮤 비디오는 확산 모델을 기반으로 텍스트-비디오를 생성하는 간단한 방법을 제시합니다. 이는 텍스트만, 이미지만, 텍스트와 이미지 모두 등 다양한 입력에 대응할 수 있는 비디오 생성 작업을 위한 통합 아키텍처입니다. 먼저 텍스트 프롬프트에 따라 이미지를 생성한 다음, 텍스트와 생성된 이미지 모두에 따라 비디오를 생성하는 두 단계로 프로세스를 분할했습니다. 비디오 생성에 대한 이러한 '인수분해' 또는 분할 접근 방식을 통해 비디오 생성 모델을 효율적으로 훈련할 수 있습니다. 인수분해 비디오 생성이 단일 확산 모델을 통해 구현될 수 있음을 보여줍니다. 비디오 확산을 위한 노이즈 스케줄 조정과 고해상도 비디오를 직접 생성할 수 있는 다단계 훈련과 같은 중요한 설계 결정을 제시합니다.

심층적인 모델 캐스케이드가 필요한 이전 작업(예: Make-A-Video의 경우 5개 모델)과 달리, 당사의 최첨단 접근 방식은 구현이 간단하며 두 개의 확산 모델만으로 초당 16프레임으로 512x512 4초 길이의 동영상을 생성할 수 있습니다. 실제로 이 모델은 응답자의 96%가 품질 면에서, 85%가 텍스트 프롬프트에 대한 충실도 면에서 Make-A-Video보다 선호했습니다. 마지막으로, 동일한 모델이 텍스트 프롬프트를 기반으로 사용자가 제공한 이미지에 '애니메이션'을 적용하여 다시 한 번 이전 작업을 큰 차이로 능가하는 새로운 최첨단 기술을 선보였습니다.

Emu Edit: 인식 및 생성 작업을 통한 정밀한 이미지 편집

물론 생성 AI를 사용하는 것은 종종 과정입니다. 프롬프트를 시도하고 생성된 이미지가 생각했던 것과 다르면 원하는 결과를 얻을 때까지 프롬프트를 계속 조정해야 합니다. 이것이 바로 프롬프트 엔지니어링이 등장한 이유입니다. 지시형 이미지 생성 모델은 최근 몇 년 동안 상당한 발전을 이루었지만, 정밀한 제어를 제공하는 데 있어서는 여전히 한계에 직면해 있습니다. 그래서 다양한 이미지 조작 작업을 간소화하고 이미지 편집에 향상된 기능과 정밀도를 제공하는 새로운 접근 방식인 Emu Edit를 소개합니다.

Emu Edit는 로컬 및 전역 편집, 배경 제거 및 추가, 색상 및 지오메트리 변환, 감지 및 분할 등의 작업을 포괄하는 지침을 통해 자유 형식 편집이 가능합니다. 현재의 방식은 다양한 편집 작업에서 과도하게 수정하거나 성능이 떨어지는 경우가 많습니다. 유니티는 '믿을 수 있는' 이미지를 만드는 것이 주된 목표가 되어서는 안 된다고 주장합니다. 대신 모델은 편집 요청과 관련된 픽셀만 정확하게 변경하는 데 집중해야 합니다. 오늘날의 많은 생성형 AI 모델과 달리 Emu Edit는 지침을 정확하게 따르기 때문에 지침과 관련이 없는 입력 이미지의 픽셀은 그대로 유지됩니다. 예를 들어 야구 모자에 "알로하!"라는 텍스트를 추가할 때 모자 자체는 변경되지 않아야 합니다.

컴퓨터 비전 작업을 이미지 생성 모델에 대한 지침으로 통합하면 이미지 생성 및 편집에서 전례 없는 제어 기능을 제공한다는 것이 핵심 인사이트입니다. 로컬 및 글로벌 편집 작업에 대한 자세한 검토를 통해 세부 편집 지침을 실행하는 데 있어 Emu Edit의 방대한 잠재력을 강조합니다.

모델을 학습시키기 위해 각각 입력 이미지, 수행할 작업에 대한 설명, 목표 출력 이미지가 포함된 1,000만 개의 합성 샘플이 포함된 데이터 세트를 개발했습니다. 이는 현재까지 가장 큰 규모의 데이터 세트입니다. 그 결과, 이 모델은 지침 충실도와 이미지 품질 측면에서 전례 없는 편집 결과를 보여줍니다. 에뮤 에디트는 다양한 이미지 편집 작업에 대한 정성적, 정량적 평가 모두에서 새로운 최첨단 결과를 도출하며 기존 방식보다 우수한 성능을 입증했습니다.

앞으로의 여정

이 작업은 아직은 기초 연구 단계에 불과하지만, 잠재적인 활용 사례는 분명합니다. 답장에 적합한 미디어를 검색할 필요 없이 나만의 애니메이션 스티커나 재치 있는 GIF를 즉석에서 생성하여 그룹 채팅에 전송할 수 있다고 상상해 보세요. 또는 전문적인 기술 없이도 사진과 이미지를 직접 편집할 수 있습니다. 또는 정적인 사진에 애니메이션을 적용하여 인스타그램 게시물에 생동감을 더할 수도 있습니다. 또는 완전히 새로운 것을 생성할 수도 있습니다.

물론 전문 아티스트와 애니메이터를 대체할 수는 없지만, 새로운 컨셉을 구상하는 아트 디렉터나 최신 릴에 활기를 불어넣는 크리에이터, 독특한 생일 축하 인사를 공유하는 절친 등, Emu Video, Emu Edit 및 이와 같은 새로운 기술은 사람들이 새로운 방식으로 자신을 표현하는 데 도움이 될 수 있습니다. 그리고 이는 축하할 만한 일이라고 생각합니다.

https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/

Emu Video and Emu Edit: Our latest generative AI research milestones

Unlike prior work that requires a deep cascade of models (e.g., five models for Make-A-Video), our state-of-the-art approach is simple to implement and uses just two diffusion models to generate 512x512 four-second long videos at 16 frames per second. In h

ai.meta.com

저작자표시 비영리 변경금지

'인공지능' 카테고리의 다른 글

한국은행 AI와 노동시장 변화 고임금·고학력 근로자가 AI 기술에 더 많이 노출 (0)	2023.11.23
앤스로픽, 200만 토큰과 절반 환각을 제공하는 AI Claude 2.1 발표 (0)	2023.11.22
AI 알고리즘을 이용한 산업모니터링: 증권사 리포트 텍스트 분석 (0)	2023.11.20
빌게이트츠, AI는 컴퓨터 사용 방식을 완전히 바꿀 것이고, 소프트웨어 산업을 변혁 시킬 것 (0)	2023.11.20
OpenAI 샘 알트먼 해임 전 AI 안전에 관한 대립 의견 (0)	2023.11.19

ABOUT ME

Triangular Triangular

'인공지능' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'인공지능' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바