ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 심화되는 AI 학습 데이터 부족 문제현황 해결방안
    인공지능 2024. 7. 21. 03:50

    1. 서론: 데이터 중심 시대로의 전환

    인공지능(AI) 기술은 급속한 발전을 거듭하며 우리 삶의 다양한 영역에 걸쳐 혁신적인 변화를 가져오고 있다. 특히 챗GPT와 같은 생성형 AI 서비스의 등장은 AI 시대의 본격적인 도래를 알리는 신호탄이 되었다. 이러한 AI 기술의 발전은 방대한 데이터 학습을 기반으로 이루어진다. AI 모델은 더욱 많은 데이터를 학습할수록 그 성능이 향상되는 경향을 보이기 때문에, 고품질의 데이터는 AI 시대의 새로운 원유로 간주되며 그 중요성이 날이 갈수록 강조되고 있다. 그러나 역설적으로 AI 기술의 발전과 함께 그 어느 때보다 데이터의 가치가 높아진 지금, AI 학습에 활용 가능한 데이터가 고갈될 수 있다는 우려가 현실로 다가오고 있다. 본 글에서는 AI 학습 데이터 부족 현상의 심각성과 그로 야기될 수 있는 위험을 살펴보고, 이를 해결하기 위한 다양한 방안을 모색하고자 한다.

    2. 심화되는 AI 학습 데이터 부족 현상

    AI 기술 발전과 더불어 AI 모델은 점점 더 복잡해지고 있으며, 이는 곧 더 많은 양의 학습 데이터에 대한 수요로 직결된다. 특히 최근 몇 년 사이 급격한 성장세를 보이는 GPT, 라마와 같은 거대언어모델(LLM)의 경우, 그 크기와 복잡성이 증가함에 따라 요구되는 학습 데이터량 또한 기하급수적으로 늘어나고 있다. 일례로 오픈AI가 2020년 공개한 GPT-3는 약 3000억 개의 토큰(문장을 구성하는 최소 단위)을 학습한 반면, 3년 후 공개된 GPT-4는 그 40배에 달하는 약 12조 개의 토큰을 학습한 것으로 추정된다. 또한, 메타가 선보인 최신 모델 라마3는 15조 개가 넘는 토큰을 학습했다고 알려져, 불과 4년 만에 AI 모델의 학습 데이터량이 50배 가까이 폭증했음을 확인할 수 있다.

    그러나 AI 모델의 학습에 필요한 데이터의 양이 급증하는 추세와는 달리, 실제로 활용 가능한 고품질 데이터의 양은 매우 제한적이다. 현재 AI 학습에 사용되는 데이터는 대부분 도서, 논문, 뉴스, 소셜 미디어 게시글, 블로그 콘텐츠 등 인터넷상에 공개된 정보에서 비롯된다. 그러나 인터넷상의 방대한 정보 중 AI 훈련에 적합한 고품질 데이터는 10% 미만에 불과하며, 특히 저작권 문제없이 사용할 수 있는 고품질 데이터는 더욱 제한적이다. 실제로 최근에는 AI 개발 기업들이 AI 학습 데이터를 무단으로 사용했다는 비판이 거세지면서 뉴스 등 저작권이 있는 데이터의 활용이 제한되는 추세이다.

    3. AI 학습 데이터 부족이 초래할 위기: AI 겨울의 도래?

    전문가들은 AI 학습 데이터 부족 현상이 지속될 경우 2026년경 AI 기술 발전 속도가 급격히 둔화될 수 있다고 경고한다. 실제로 영국 과학 전문지 뉴사이언티스트는 AI 챗봇 훈련에 필요한 언어 데이터의 크기가 최근 몇 년간 연평균 50%씩 증가한 반면, 사람이 생성하는 데이터의 증가율은 연 7%에 불과해 2026년경 AI 학습 데이터가 고갈될 수 있다는 연구 결과를 발표했다. 특히, 'AI가 과잉훈련(over training)을 한다고 가정할 시 2025년부터 데이터 고갈에 직면할 수 있다'고 전망했다. 이는 과거 1970년대와 1980년대, 두 차례 기술적 한계로 인해 AI 기술 발전이 장기간 정체되었던 'AI 겨울'을 떠올리게 한다. 챗GPT와 같은 생성형 AI의 등장으로 제3의 황금기를 맞이한 AI 분야가 데이터 부족이라는 암초에 가로막혀 또다시 침체기를 맞이할 수 있다는 우려가 커지고 있다.

     

    데이터 수요·공급 그래프. 가운데 표를 보면, 고품질 언어 데이터 수요가 공급을 따라잡는다. [사진=에포크 홈페이지 캡처]
    데이터 재고량에 대한 예측(자료 : 에포크 AI)

    AI 학습 데이터 부족 문제는 특히 한국어 AI 개발에 심각한 걸림돌로 작용한다. 한국어는 사용 인구가 상대적으로 적어 영어권에 비해 확보 가능한 데이터 자체가 부족하며, '커먼크롤(Common Crawl)'과 같은 대규모 데이터 공개 플랫폼 또한 부재하다. 커먼크롤미국의 비영리 조직이 구축한 플랫폼으로, 온라인상에 공개된 데이터 중 저작권 문제없이 수집 가능한 데이터를 수집하여 제공한다. 국내 AI 기업들은 한국어 데이터 부족 문제를 해결하기 위해 자구 노력의 일환으로 해외 데이터를 구매하거나 자체적으로 데이터를 구축하는 등 노력을 기울이고 있지만, 막대한 비용과 시간이 소요될 뿐 아니라 근본적인 해결책이 되기는 어렵다는 한계에 직면하고 있다.

    Common Crawl Overview
    Common Crawl Overview (자료 : 커먼크롤 홈페이지 캡처)
    언어 분포를 보면 영어가 45.5%, 일어가 5.1%이나 한국어는 0.6% 정도이다 (자료 : 커먼크롤 홈페이지 캡처)

    4. AI 학습 데이터 부족 문제 해결을 위한 과제

    AI 학습 데이터 부족 문제는 단순히 데이터의 양적 부족에 국한되지 않으며, 데이터 저작권 문제, 데이터 가격 산정 기준 부재, 데이터 거래 시장 미성숙 등 다층적인 문제가 복합적으로 작용한 결과이다. 따라서 이러한 문제 해결을 위해서는 정부, 기업, 개인 모두의 노력이 요구된다.

    데이터 공유 및 거래 활성화

    AI 학습 데이터 부족 문제 해결을 위해서는 데이터 공유 및 거래 활성화가 필수적이다. 이를 위해서는 우선 데이터 저작권 문제 해결이 선행되어야 한다. AI 학습에 데이터를 제공한 창작자의 권리를 보호하면서도 AI 개발을 저해하지 않는 균형점을 찾는 것이 중요하다. 또한, 데이터 가격 산정 기준을 명확히 하고 데이터 거래 시장을 활성화하여 데이터 공급을 늘리는 방안도 모색해야 한다. 예를 들어, 특정 콘텐츠가 AI 모델의 성능 향상에 얼마나 기여했는지 정량적으로 평가하고 이를 기반으로 데이터 가격을 산정하는 '데이터 값' 산출 시스템을 구축하는 것이다. 또한, 정부 주도로 데이터 공개 플랫폼을 구축하여 누구나 쉽게 고품질 데이터를 이용할 수 있도록 지원하는 방안도 고려할 수 있다.

    합성 데이터 활용

    최근에는 AI 모델이 생성한 데이터를 다시 AI 학습에 사용하는 합성 데이터 기술이 주목받고 있다. 합성 데이터는 실제 데이터를 기반으로 생성되지만 개인정보 침해 우려 없이 무제한으로 생성 가능하다는 장점을 지닌다. 예를 들어, 수학 문제 풀이 AI 모델을 개발한다고 가정할 경우, AI 모델이 스스로 다양한 유형의 수학 문제와 풀이 과정을 생성하고 이를 학습 데이터로 활용하는 것이다. 아직까지는 합성 데이터가 실제 데이터만큼의 성능 향상을 보장하지 못한다는 한계가 있지만, 기술 발전에 따라 AI 학습 데이터 부족 문제 해결에 기여할 수 있는 잠재력이 큰 분야로 평가받는다.

    새로운 데이터 소스 발굴

    기존에 활용하지 않았던 새로운 데이터 소스를 발굴하는 것 또한 데이터 부족 문제 해결에 도움이 될 수 있다. 예를 들어 유튜브 동영상, 레딧과 같은 커뮤니티 게시글, 팟캐스트 등은 AI 학습에 활용 가능한 방대한 데이터를 포함하고 있다. 특히 유튜브는 오픈AI가 차세대 모델 GPT-5 개발을 위해 주목하고 있는 데이터 원천 중 하나이다. 그러나 새로운 데이터 소스를 활용할 경우 저작권 문제를 해결하고 플랫폼 정책을 준수해야 한다는 점을 명심해야 한다. 실제로 유튜브는 플랫폼에 업로드된 동영상을 AI 학습 데이터로 활용하는 것을 금지하고 있으며, 오픈AI의 '소라'와 같은 AI 모델이 유튜브 동영상을 무단으로 학습 데이터로 사용했다는 의혹이 제기되기도 했다.

    고데이터 효율 AI 기술 개발

    제한된 데이터 환경에서도 AI 모델의 성능을 극대화하기 위해 데이터 학습 효율을 높이는 AI 기술 개발이 중요하다. 예를 들어, 커리큘럼 러닝(curriculum learning)은 AI 모델이 쉬운 데이터부터 어려운 데이터 순으로 학습하도록 유도하여 데이터 학습 효율을 높이는 머신러닝 기법이다. 이외에도 소량의 데이터를 인위적으로 증식하여 학습 데이터 부족 문제를 완화하는 데이터 증강(data augmentation) 기법, 기존에 학습된 모델의 지식을 유사한 분야의 새로운 모델 학습에 활용하는 전이 학습(transfer learning) 등 제한된 데이터를 효율적으로 활용하는 다양한 AI 기술들이 연구되고 있다.

    해결 과제 설명
    데이터 공유 및 거래 활성화 - 데이터 저작권 문제 해결 필요
    - 데이터 가격 산정 기준 명확화
    - 데이터 거래 시장 활성화
    - 데이터 값 산출 시스템 구축
    - 정부 주도의 데이터 공개 플랫폼 구축
    합성 데이터 활용 - AI 모델이 생성한 데이터를 다시 학습에 사용
    - 개인정보 침해 우려 없이 무제한 생성 가능
    - 기술 발전에 따른 높은 잠재력
    새로운 데이터 소스 발굴 - 기존에 활용하지 않았던 데이터 소스 발굴
    - 예: 유튜브 동영상, 레딧 커뮤니티 게시글, 팟캐스트
    - 저작권 문제 해결 및 플랫폼 정책 준수 필요
    고 데이터 효율 AI 기술 개발 - 커리큘럼 러닝: 쉬운 데이터부터 어려운 데이터 순으로 학습 유도
    - 데이터 증강: 소량의 데이터를 인위적으로 증식
    - 전이 학습: 기존 모델의 지식을 새로운 모델 학습에 활용

    AI 학습 데이터 부족 문제 해결을 위한 과제
    AI 학습 데이터 부족 문제 해결을 위한 과제

    5. 데이터 중심 시대, AI의 미래를 위한 방향

    AI 학습 데이터 부족 문제는 단순한 기술적 문제를 넘어 AI 산업 지속 가능성을 위협하는 심각한 문제이다. AI 기술의 발전은 고품질 데이터 확보와 올바른 활용을 전제로 한다는 점을 명심해야 한다. 데이터 공유 및 거래 활성화, 합성 데이터 활용, 새로운 데이터 소스 발굴, 데이터 효율을 높이는 AI 기술 개발 등 다각적인 노력을 통해 AI 학습 데이터 부족 문제를 해결하고, 인간과 AI가 공존하는 미래를 만들어나가는 것은 우리 모두의 과제이다.

    AI 학습 데이터 부족 문제는 우리에게 많은 도전과제를 안겨준다. 그러나 이를 해결하기 위해서는 기술적인 접근뿐만 아니라 사회적, 정책적 접근이 필요하다. 다양한 이해관계자들이 협력하여 문제를 해결하는 방안을 모색해야 한다.

    사회정책적 접근

    • 데이터 거버넌스와 정책적 지원 : 데이터 공유와 활용을 촉진하기 위해서는 정부의 적극적인 역할이 필요하다. 정부는 데이터 거버넌스 체계를 확립하고, 데이터를 제공하는 개인과 기업의 권리를 보호하는 한편, AI 개발을 위한 데이터 활용을 촉진하는 정책을 수립해야 한다. 예를 들어, 유럽연합(EU)은 데이터 거버넌스 법안을 통해 데이터 공유와 활용을 촉진하고 있으며, 한국도 이에 발맞춰 관련 법안과 정책을 마련할 필요가 있다.
    • 공공 데이터의 개방 : 공공 데이터는 AI 학습에 중요한 자원이 될 수 있다. 정부와 공공 기관은 보유한 데이터를 적극적으로 개방하고, 이를 AI 학습에 활용할 수 있도록 지원해야 한다. 이는 데이터 부족 문제를 완화하는 데 크게 기여할 수 있다. 예를 들어, 교통, 의료, 환경 등 다양한 분야에서 축적된 공공 데이터를 활용하면 AI 모델의 성능을 크게 향상시킬 수 있다.
    • 데이터 리터러시 교육 : 데이터 리터러시(data literacy)는 데이터의 중요성을 이해하고, 데이터를 효과적으로 활용할 수 있는 능력을 의미한다. AI 학습 데이터 부족 문제를 해결하기 위해서는 데이터 리터러시 교육이 중요하다. 데이터 리터러시를 높이면 개인과 기업이 데이터를 보다 효과적으로 수집, 분석, 공유할 수 있게 되어 데이터 활용의 폭이 넓어질 것이다.

    협업과 파트너십

    • 기업 간 협력 : AI 학습 데이터 부족 문제를 해결하기 위해서는 기업 간 협력이 필수적이다. 기업들은 데이터를 공유하고, 공동으로 AI 모델을 개발하는 파트너십을 통해 데이터 부족 문제를 해결할 수 있다. 예를 들어, 구글, 페이스북, 아마존 등 주요 기술 기업들은 AI 연구를 위해 데이터를 공유하고 협력하는 사례가 있다. 이러한 협력은 데이터 부족 문제를 해결하는 데 큰 도움이 될 수 있다.
    • 학계와의 협력 : 학계와의 협력도 중요하다. 대학과 연구 기관은 AI 연구에 필요한 데이터를 제공하고, 이를 통해 AI 기술 발전에 기여할 수 있다. 또한, 학계는 새로운 AI 모델과 알고리즘을 개발하여 데이터 학습 효율을 높이는 데 기여할 수 있다. 이러한 협력은 AI 학습 데이터 부족 문제를 해결하는 데 중요한 역할을 할 것이다.
    해결 과제 설명
    데이터 거버넌스와 정책적 지원 - 정부의 데이터 거버넌스 체계 확립
    - 데이터 제공자의 권리 보호
    - AI 개발을 위한 데이터 활용 촉진 정책 수립
    - 예: EU의 데이터 거버넌스 법안, 한국의 관련 법안 및 정책 마련 필요
    공공 데이터의 개방 - 정부와 공공 기관의 데이터 개방
    - AI 학습에 활용 가능
    - 교통, 의료, 환경 등 다양한 분야의 공공 데이터 활용하여 AI 모델 성능 향상
    데이터 리터러시 교육 - 데이터의 중요성 이해 및 효과적 활용 능력 향상
    - 데이터 수집, 분석, 공유 능력 증진
    - 개인과 기업의 데이터 활용 폭 넓힘
    기업 간 협력 - 기업 간 데이터 공유 및 AI 모델 공동 개발
    - 구글, 페이스북, 아마존 등 주요 기업의 협력 사례
    - 데이터 부족 문제 해결에 큰 도움
    학계와의 협력 - 대학과 연구 기관의 데이터 제공
    - AI 기술 발전에 기여
    - 새로운 AI 모델과 알고리즘 개발을 통해 데이터 학습 효율 향상

    데이터 중심 시대, AI의 미래를 위한 방향
    데이터 중심 시대, AI의 미래를 위한 방향

    6. 결론: 지속 가능한 AI 발전을 위한 다각적인 접근

    AI 학습 데이터 부족 문제는 단순히 기술적 문제가 아닌, 사회적, 경제적, 정책적 접근이 필요한 복합적인 문제이다. 이를 해결하기 위해서는 정부, 기업, 학계, 개인 등 다양한 이해관계자들이 협력하여 데이터 거버넌스를 확립하고, 데이터를 효과적으로 활용할 수 있는 체계를 구축해야 한다.

    데이터 공유 및 거래 활성화, 합성 데이터 활용, 새로운 데이터 소스 발굴, 데이터 효율을 높이는 AI 기술 개발 등 다양한 방안을 모색하여 AI 학습 데이터 부족 문제를 해결할 수 있다. 또한, 데이터 거버넌스와 정책적 지원, 공공 데이터의 개방, 데이터 리터러시 교육 등을 통해 데이터 활용의 폭을 넓히고, 지속 가능한 AI 발전을 이룩해야 한다.

    우리 모두의 노력으로 AI 학습 데이터 부족 문제를 해결하고, 인간과 AI가 공존하는 미래를 만들어나가는 것이 중요하다. 이를 통해 AI 기술이 더욱 발전하고, 우리의 삶에 긍정적인 변화를 가져올 수 있을 것이다. AI의 미래는 우리의 손에 달려 있으며, 지금 당장 데이터 중심 시대를 대비해야 할 때이다.


    https://www.newscientist.com/article/2353751-ai-chatbots-could-hit-a-ceiling-after-2026-as-training-data-runs-dry/

    https://zdnet.co.kr/view/?no=20230110071207

    https://www.aitimes.com/news/articleView.html?idxno=158463

    https://commoncrawl.org/

Designed by Tistory.