딥마인드, 인공지능의 레벨 인공일반지능(AGI)를 달성하기 위한 기간

카테고리 없음 2023. 11. 22. 14:46

대부분의 작업에서 최소한 인간과 동등한 수준의 능력을 갖춘 AI 시스템인 인공 일반 지능(AGI)을 달성하기 위한 길은 과학자들 사이에서 여전히 논쟁의 대상이 되고 있습니다. AGI는 아직 멀었다는 의견부터 10년 이내에 등장할 가능성이 있다는 의견, 현재의 대규모 언어 모델(LLM)에서 이미 'AGI의 불꽃(sparks of AGI)'을 볼 수 있다는 의견까지 다양합니다. 심지어 일부 연구자들은 오늘날의 LLM이 AGI라고 주장하기도 합니다.

이 논의를 명확히 하기 위해 수석 AGI 과학자 셰인 레그를 비롯한 Google 딥마인드의 과학자 팀은 AGI 시스템과 그 선구자의 기능과 행동을 분류하기 위한 새로운 프레임워크를 제안했습니다.

저자들은 논문에서 "AI 연구 커뮤니티가 'AGI'가 의미하는 바를 명시적으로 반영하고 AI 시스템의 성능, 일반성, 자율성과 같은 속성을 정량화하는 것이 중요하다고 주장합니다."라고 썼습니다.

인공일반지능(AGI)의 원칙

AGI의 핵심 과제 중 하나는 AGI가 무엇을 수반하는지에 대한 명확한 정의를 내리는 것입니다. 이 논문에서 딥마인드 연구원들은 튜링 테스트, 커피 테스트, 의식 측정, 경제적 측정, 작업 관련 능력 등 9가지의 다양한 AGI 정의를 분석합니다. 그리고 각 정의가 AGI의 본질을 포착하는 데 있어 어떤 단점이 있는지 강조합니다.

예를 들어, 현재의 LLM은 튜링 테스트를 통과할 수 있지만, 현재 언어 모델의 단점에서도 알 수 있듯이 설득력 있는 텍스트를 생성하는 것만으로는 AGI에 충분하지 않습니다. 기계에 의식 속성이 있는지 여부를 판단하는 것은 여전히 불분명하고 달성하기 어려운 목표입니다. 또한 특정 작업(예: 무작위 주방에서 커피 만들기)에 실패하면 시스템이 AGI가 아님을 나타낼 수 있지만, 해당 작업을 통과했다고 해서 반드시 AGI 상태라고 단정할 수는 없습니다.

연구진은 AGI에 대한 보다 포괄적인 프레임워크를 제공하기 위해 인공지능을 측정하기 위한 6가지 기준을 제안합니다.

인공지능의 측정은 인간과 같은 이해력, 의식, 감성 등의 자질보다는 능력에 초점을 맞춰야 합니다.
AGI의 측정은 일반성과 성능 수준을 모두 고려해야 합니다. 이를 통해 AGI 시스템이 광범위한 작업을 수행할 수 있을 뿐만 아니라 실행 능력도 뛰어나야 합니다.
AGI는 인지 및 메타인지 작업을 필요로 하지만, 구체화 및 물리적 작업이 AGI의 전제 조건으로 간주되어서는 안 됩니다.
시스템이 배포할 수 없더라도 AGI 수준의 작업을 수행할 수 있는 잠재력만 있으면 충분합니다. 연구진은 "AGI 측정의 조건으로 배포를 요구하면 법적, 사회적 고려 사항과 같은 비기술적 장애물과 잠재적인 윤리적, 안전 문제가 발생할 수 있습니다."라고 설명합니다.
AGI 지표는 사람들이 중요하게 여기는 실제 업무에 초점을 맞춰야 하며, 연구자들은 이를 "생태학적으로 타당하다"고 설명합니다.
마지막으로, 과학자들은 AGI는 하나의 종착점이 아니라 다양한 수준의 AGI가 있는 하나의 경로라고 강조합니다.

인텔리전스의 깊이와 폭

딥마인드는 모든 작업에서 모든 인간을 능가하는 일반적인 AI 시스템인 초인적 AGI에 이르기까지 5단계에 걸쳐 '성능'과 '일반성'을 측정하는 매트릭스를 제시합니다. 성능은 AI 시스템의 능력이 인간과 비교되는 방식을 의미하며, 일반성은 AI 시스템의 능력 범위 또는 매트릭스에서 지정된 성능 수준에 도달하는 작업의 범위를 나타냅니다.

< 인공일반지능의 레벨(Levels of AGI) >

성능(행) x 일반성(열)	Narrow 명확한 범위의 작업 또는 작업 집합	General 새로운 기술 학습과 같은 메타인지 능력을 포함한 광범위한 비신체적 작업
Level 0: No AI	Narrow Non-AI calculator software; compiler	General Non-AI human-in-the-loop computing, e.g., Amazon Mechanical Turk
Level 1: Emerging 숙련되지 않은 인간과 동등하거나 다소 낫은 정도	Emerging Narrow AI GOFAI; simple rule-based systems, e.g., SHRDLU	Emerging AGI ChatGPT Bard Llama 2
Level 2: Competent 숙련된 성인의 50번째 백분위수 이상	Competent Narrow AI toxicity detectors such as Jigsaw ; Smart Speakers such as Siri, Alexa, Google Assistant ; VQA systems such as PaLI ; Watson; SOTA LLMs for a subset of tasks (e.g., short essay writing, simple coding)	Competent AGI not yet achieved
Level 3: Expert 숙련된 성인의 90번째 백분위수 이상 성인	Expert Narrow AI spelling & grammar checkers such as Grammarly generative image models such as Imagen or Dall-E 2	Expert AGI not yet achieved
Level 4: Virtuoso 숙련된 성인의 99번째 백분위수 이상 성인	Virtuoso Narrow AI Deep Blue AlphaGo	Virtuoso AGI not yet achieved
Level 5: Superhuman 인간을 100% 능가하는 성능	Superhuman Narrow AI AlphaFold AlphaZero StockFish	Artificial Superintelligence(ASI) not yet achieved

https://arxiv.org/abs/2311.02462

이 매트릭스는 또한 좁은 의미의 인공지능과 일반적인 인공지능을 구분합니다. 예를 들어, 우리는 이미 매우 특정한 작업에서 탁월한 능력을 발휘하는 알파제로와 알파폴드와 같은 초인적인 협소 AI 시스템을 보유하고 있습니다. 이 매트릭스를 통해 다양한 수준의 AI 시스템을 분류할 수 있습니다. ChatGPT, Bard, Llama 2와 같은 고급 언어 모델은 짧은 에세이 작성이나 간단한 코딩과 같은 일부 좁은 작업에서는 "유능한"(레벨 2) 수준이며, 수학적 능력이나 추론과 계획이 필요한 작업과 같은 다른 작업에서는 "떠오르는"(레벨 1) 수준입니다.이 매트릭스는 또한 좁은 의미의 인공지능과 일반적인 인공지능을 구분합니다. 예를 들어, 우리는 이미 매우 특정한 작업에서 탁월한 능력을 발휘하는 알파제로와 알파폴드와 같은 초인적인 협소 AI 시스템을 보유하고 있습니다. 이 매트릭스를 통해 다양한 수준의 AI 시스템을 분류할 수 있습니다. ChatGPT, Bard, Llama 2와 같은 고급 언어 모델은 짧은 에세이 작성이나 간단한 코딩과 같은 일부 좁은 작업에서는 "유능한"(레벨 2) 수준이며, 수학적 능력이나 추론과 계획이 필요한 작업과 같은 다른 작업에서는 "떠오르는"(레벨 1) 수준입니다.

연구진은 "따라서 현재 프론티어 언어 모델은 광범위한 작업에서 성능 수준이 높아질 때까지는 레벨 1 일반 AI('신흥 AGI')로 간주될 수 있습니다(이 시점이 되면 레벨 2 일반 AI인 '유능한 AGI' 기준을 충족하게 됩니다)."라고 설명합니다.

또한 연구자들은 AGI 매트릭스가 성능에 따라 시스템을 평가하지만 실제로 배포할 때 시스템이 레벨과 일치하지 않을 수 있다고 지적합니다. 예를 들어, 텍스트-이미지 변환 시스템은 대부분의 사람이 그릴 수 있는 것보다 더 높은 품질의 이미지를 생성하지만, 잘못된 아티팩트를 생성하여 숙련된 개인의 99번째 백분위수에 속하는 '거장' 수준에 도달하지 못하게 합니다.

연구진은 "이론적으로는 '전문가' 수준의 시스템이지만, 프롬프트 인터페이스가 너무 복잡해 대부분의 최종 사용자가 최적의 성능을 이끌어내지 못하기 때문에 실제로는 '유능한' 수준에 불과할 수 있습니다."라고 설명합니다.연구진은 "이론적으로는 '전문가' 수준의 시스템이지만, 프롬프트 인터페이스가 너무 복잡해 대부분의 최종 사용자가 최적의 성능을 이끌어내지 못하기 때문에 실제로는 '유능한' 수준에 불과할 수 있습니다."라고 설명합니다.

딥마인드는 언어 지능, 수학적 및 논리적 추론, 공간 추론, 대인관계 및 개인 내 사회적 지능, 새로운 기술 학습 능력, 창의성 등 다양한 속성을 측정하는 광범위한 인지 및 메타인지 작업을 포괄하는 AGI 벤치마크가 필요하다고 제안합니다.

그러나 그들은 또한 충분히 일반적인 지능으로 달성할 수 있는 모든 작업을 열거하는 것은 불가능하다는 것을 인정합니다. "따라서 AGI 벤치마크는 살아있는 벤치마크여야 합니다. 따라서 이러한 벤치마크에는 새로운 과제를 생성하고 합의할 수 있는 프레임워크가 포함되어야 합니다."라고 그들은 말합니다.

자율성과 위험

딥마인드는 AI 시스템의 자율성과 위험을 측정하기 위해 별도의 매트릭스를 도입했습니다. AI 시스템은 인간이 모든 작업을 수행하는 레벨 0부터 완전 자율 AI를 나타내는 레벨 5까지 다양하며, 그 사이에는 인간과 AI가 작업과 권한을 공유하는 다양한 레벨이 존재합니다.

https://arxiv.org/abs/2311.02462

AI 시스템과 관련된 위험은 자율성 수준에 따라 다릅니다. AI가 인간의 기술을 보조하는 역할을 하는 낮은 수준의 위험에는 사무직화 및 기존 산업의 혼란이 포함됩니다. 자율성이 높아지면 개인화된 콘텐츠를 통한 표적 조작, 광범위한 사회적 혼란, 완전 자율 에이전트가 인간의 가치와 어긋날 때 발생하는 더 심각한 피해 등의 위험이 발생할 수 있습니다.AI 시스템과 관련된 위험은 자율성 수준에 따라 다릅니다. AI가 인간의 기술을 보조하는 역할을 하는 낮은 수준의 위험에는 사무직화 및 기존 산업의 혼란이 포함됩니다. 자율성이 높아지면 개인화된 콘텐츠를 통한 표적 조작, 광범위한 사회적 혼란, 완전 자율 에이전트가 인간의 가치와 어긋날 때 발생하는 더 심각한 피해 등의 위험이 발생할 수 있습니다.

딥마인드의 프레임워크는 AGI와 관련된 모든 것들과 마찬가지로 단점과 단점이 있을 것입니다. 하지만 인간의 능력을 뛰어넘는 AI 시스템을 개발하기 위한 여정에서 우리가 어디에 서 있는지 가늠할 수 있는 포괄적인 가이드 역할을 합니다.

https://venturebeat.com/ai/here-is-how-far-we-are-to-achieving-agi-according-to-deepmind/

Here is how far we are to achieving AGI, according to DeepMind

Google DeepMind's latest insight on the journey to artificial general intelligence (AGI), outlining a framework for classifying AGI.

venturebeat.com

https://arxiv.org/abs/2311.02462

Levels of AGI: Operationalizing Progress on the Path to AGI

We propose a framework for classifying the capabilities and behavior of Artificial General Intelligence (AGI) models and their precursors. This framework introduces levels of AGI performance, generality, and autonomy. It is our hope that this framework wil

arxiv.org

Levels of AGI_Operationalizing Progress on the Path to AGI.pdf

0.45MB

저작자표시 비영리 변경금지

ABOUT ME

Triangular Triangular

인공일반지능(AGI)의 원칙

인텔리전스의 깊이와 폭

자율성과 위험

티스토리툴바