ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 합성 데이터와 AI 기술
    인공지능 2023. 10. 1. 20:16

    합성 데이터와 AI 기술

    1. 합성 데이터의 개념 및 중요성

    1.1 합성 데이터의 개념

    합성 데이터란 실제 데이터의 대체재로서, 컴퓨터 시뮬레이션 또는 특정 알고리즘을 사용하여 생성되는 임의의 데이터를 의미합니다. 이 데이터는 실제 데이터와 유사한 특성과 분포를 가지며, 주로 인공지능 모델의 학습 및 테스트 과정에서 활용됩니다. 합성 데이터는 실제 데이터를 대체하거나 보완하기 위해 사용되며, 특히 데이터 획득이 어려우거나 제한적인 경우에 유용하게 활용됩니다.

    합성 데이터는 다양한 분야에서 중요한 역할을 합니다. 이에 대한 몇 가지 관련된 측면을 살펴보겠습니다.

    • 데이터 희귀성 극복 : 일부 분야에서는 특정 현상을 분석하기 위한 데이터가 희귀하거나 얻기 어려울 수 있습니다. 예를 들어 의료 분야에서는 특정 질병의 희귀한 발병 케이스를 연구해야 할 때가 있습니다. 합성 데이터를 사용하면 이러한 데이터 희귀성을 극복하고 모델 학습에 필요한 데이터를 생성할 수 있습니다.
    • 개인정보 보호 : 실제 환경에서 사용되는 데이터 중에는 개인정보를 포함하거나 민감한 정보를 담고 있는 경우가 많습니다. 이러한 데이터의 활용은 개인정보 보호 및 법령과의 충돌을 일으킬 수 있습니다. 합성 데이터는 개인정보를 포함하지 않으며, 따라서 개인정보 보호 문제를 회피하면서도 모델 학습 및 실험을 수행할 수 있는 대안을 제공합니다.
    • 데이터 다양성 확보 : 합성 데이터를 생성함으로써 데이터 다양성을 높일 수 있습니다. 이는 모델의 성능을 향상시키는 데 도움이 됩니다. 데이터 다양성은 모델이 다양한 상황에서 잘 작동하고 다양한 유형의 입력을 처리할 수 있는 능력을 키울 수 있습니다.
    • 알고리즘 및 모델 개발 : 합성 데이터는 새로운 알고리즘 및 모델의 개발 및 테스트에도 사용됩니다. 모델이 합성 데이터에 대해 얼마나 잘 작동하는지 평가하고, 모델을 개선하기 위한 실험에 활용됩니다.

    합성 데이터는 데이터 희귀성 극복, 개인정보 보호, 데이터 다양성 확보, 알고리즘 및 모델 개발 등 다양한 측면에서 중요한 역할을 하며, 특히 인공지능 및 기계 학습 분야에서 널리 활용되고 있습니다. MIT Technology Review가 '인공지능을 위한 합성 데이터'를 혁신 기술로 선정한 것은 이러한 중요성을 강조한 것입니다.

    1.2 합성 데이터의 장점

    • 충분한 양의 데이터 확보

    합성 데이터의 주요 장점 중 하나는 데이터 품질의 향상입니다. 실제 데이터와는 다르게 합성 데이터는 오류가 적으며 일관된 데이터 품질을 유지합니다. 이러한 데이터 품질 향상은 학습된 모델의 일반화 성능을 향상시킵니다. 합성 데이터는 자동으로 생성되며 라벨링이 될 수 있기 때문에 잡음, 오류, 누락, 편향 등의 데이터 오류를 최소화할 수 있습니다.

    또한, 합성 데이터는 현실에서 어렵게 얻을 수 있는 데이터를 보충함으로써 데이터 다양성을 확보하고 데이터의 편향성 문제를 해결하는 데 유용합니다. 예를 들어, 킹스칼리지 런던은 현실에서 얻기 어려운 연령별, 성별에 따른 질병 감지에 관한 뇌 이미지 데이터 10만 건을 합성 데이터로 생성하여 모델 학습에 활용했습니다. 이를 통해 모델은 다양한 연령과 성별에 대한 특징을 학습하고 일반화 성능을 향상시킬 수 있었습니다.

    • 데이터 라벨링의 용이성

    합성 데이터는 라벨링 작업을 간소화하는 데에도 도움을 줍니다. 합성 데이터 생성 과정에서 데이터에 대한 정확한 라벨을 쉽게 부여할 수 있으며, 이는 모델 학습을 위한 지도학습 데이터로 활용됩니다. 라벨링된 데이터의 품질과 일관성을 유지하는 데에도 더 쉽게 접근할 수 있습니다.

    • 데이터 개인정보 보호

    합성 데이터는 실제 데이터와 달리 개인정보를 포함하지 않습니다. 따라서 개인정보 보호 및 규정 준수에 더 용이하며, 실제 데이터 사용으로 인한 개인정보 노출 및 법적 문제를 방지할 수 있습니다. 합성 데이터는 실제 데이터와 달리 개인 정보나 저작권 문제와 관련된 우려가 적습니다. 이로 인해 개인정보 보호와 저작권 문제 해결에 대한 추가적인 절차나 비용이 필요하지 않아 실제 데이터보다 안전하게 활용할 수 있습니다.

    • 데이터 다양성 확보

    합성 데이터 생성 과정에서 다양한 조건과 변수를 조작하여 데이터의 다양성을 확보할 수 있습니다. 이는 모델의 다양한 상황에서의 성능을 향상시키고 일반화 능력을 키울 수 있는 장점으로 작용합니다.

    • 실험 및 모델 개선

    합성 데이터는 모델의 초기 테스트, 실험 및 개선에 활용됩니다. 모델이 합성 데이터에 대해 어떻게 동작하는지를 평가하고, 모델의 성능을 개선하기 위한 실험에 사용됩니다.

    합성 데이터의 장점은 충분한 데이터 확보, 데이터 라벨링 용이성, 개인정보 보호, 데이터 다양성 확보, 실험 및 모델 개선에 대한 효율적인 지원을 제공한다는 점입니다.

    • 데이터 품질 제고

    실제 데이터와 달리 합성 데이터는 오류가 적고 일관된 데이터 품질을 유지하여 학습된 모델의 일반화 성능이 우수하다. 합성 데이터는 실제 데이터와 유사한 특성을 가지면서도 자동으로 라벨링 되기 때문에 잡음 오류 누락 편향 등 데이터 오류를 최소화 할 수 있다. 현실에서 부족한 데이터를 보충하여 데이터 다양성을 확보함으로써 데이터의 편향성 문제를 해결하는데 유용하다. 예를 들어, 킹스칼리지런던은 현실에서 확보하기 어려운 연령별·성별 질병이 감지된 뇌 이미지와 건강한 뇌 이미지 데이터 10만 건을 합성데이터로 생성하였다.

    • 특수 상황 학습 용이

    합성 데이터는 존재하지 않거나 얻기 어려운 특수한 상황에 대한 모델 학습을 용이하게 만듭니다. 롱테일 상황 또는 엣지 케이스(edge case)에 대한 학습은 현실 데이터만으로는 부족할 수 있습니다. 예를 들어, 특정 지역의 폭설 예보와 관련된 모델을 학습시키기 위해서는 특수한 기상 조건과 관련된 데이터가 필요합니다. 합성 데이터를 활용하면 이러한 특수 상황에 대한 학습 데이터를 생성할 수 있으며 모델이 다양한 환경에서 더욱 강력한 성능을 발휘할 수 있습니다.

    2. 합성 데이터의 부상

    합성 데이터 생성 시장은 현재 국내외에서 빠르게 성장하고 있으며, 이는 머신 러닝 및 딥 러닝 모델의 발전과 데이터의 중요성 인식 증가에 기인합니다. 아래에서 국내외 합성 데이터 시장의 규모와 전망을 자세히 살펴보겠습니다.

    2.1 국내외 합성 데이터 시장 규모 및 전망

    2021년 기준으로, 합성 데이터 생성 글로벌 시장 규모는 약 1억 2,330만 달러를 기록했습니다. 또한, 2022년부터 2030년까지 연평균 34.8%의 성장률로 성장할 것으로 예측되며, 이로 인해 2030년에는 합성 데이터 생성 글로벌 시장 규모가 약 17억 9천만 달러에 달할 것으로 전망됩니다. 이러한 성장은 기업 및 연구기관에서 합성 데이터의 중요성을 점차 깨달았으며, 머신 러닝 및 딥 러닝 알고리즘 개발에 필수적인 풍부하고 다양한 데이터를 확보하기 위해 이루어지고 있습니다.

    < 2021년도 합성 데이터 생성 글로벌 시장 규모 >

    ※ 출처 : Grand view research

    내 합성 데이터 생성 시장은 2018년에 약 1,629억 원의 규모를 가졌으며, 연평균 23.4%의 성장률로 성장할 것으로 예측됩니다. 이에 따라 2024년에는 약 5,752억 원의 규모로 확대될 것으로 전망됩니다. 국내에서도 합성 데이터의 수요가 증가하고 있으며, 이는 머신 러닝 및 인공지능 기술의 발전과 산업 분야에서 데이터 기반 의사 결정의 필요성이 커지고 있기 때문입니다. 특히, 합성 데이터는 개인 정보 보호와 관련된 법적 규제와 관련된 우려를 줄이면서 데이터 다양성을 확보하는 데 기여하고 있습니다.

    < 합성 데이터 생성 국내 시장 규모 예측 >

    ※ 출처 : 중소기업기술정보진흥원(2021), 중소기업 전략 기술로드맵 2021-2023, 재구성

    이러한 국내외 합성 데이터 시장의 성장은 인공지능 및 머신 러닝 모델의 발전을 더욱 가속화하고, 다양한 산업 분야에서 데이터 기반 의사 결정과 혁신을 촉진할 것으로 기대됩니다. 또한, 데이터 보안 및 개인 정보 보호에 대한 더 많은 연구와 기술 발전이 필요하며, 합성 데이터의 활용은 이러한 도전에 대한 대안으로 떠오를 수 있습니다.

    2.2 가트너 하이프 사이클

    가트너는 Hype Cycle for Artificial Intelligence 2022에서 합성 데이터를 기술 성숙도상 정점(Peak of Inflated Expectation)에 위치

    < Hype Cycle for Artificial Intelligence 2022 >

    ※ 출처 : Gartner

    또한 가트너는 2030년에 이르면 인공지능에 사용되는 데이터 대부분이 규칙 통계 모델 시뮬레이션 등에 의해 인위적으로 생성될 것으로 예측하고 있다.

    가트너의 'Hype Cycle for Artificial Intelligence 2022'에서 합성 데이터가 기술 성숙도상의 정점인 'Peak of Inflated Expectation'에 위치한다는 정보는 매우 중요한 인사트입니다. 이것은 합성 데이터가 현재 매우 높은 관심을 받고 있으며 기대치가 높다는 것을 의미합니다. 그러나 이러한 초기 단계에서는 기술적인 성숙도와 실제 적용 가능성 사이에 줄곧 인식 차이가 존재할 수 있습니다.

    이 'Peak of Inflated Expectation'는 기술 또는 개념이 처음 소개되고 관심을 모으며 열기가 높아지는 단계를 나타냅니다. 이 단계에서는 기술의 가능성과 잠재적인 이점이 과대 평가되는 경향이 있으며, 몇몇 성공 사례나 선도 기업들에 의해 홍보되면서 이러한 과대 평가가 더욱 증폭될 수 있습니다.

    그러나 'Peak of Inflated Expectation' 단계를 지나면 'Trough of Disillusionment' 단계로 이동하게 됩니다. 이 단계에서는 초기 기대치와 실제 성과 사이의 간극이 드러나며, 실제로는 기술의 어려움과 제약 사항이 더 많이 나타납니다. 이 단계에서는 일부 기업이나 연구 그룹이 실패하고 기술에 대한 실망이 높아질 수 있습니다.

    그러나 이러한 실망 단계를 극복하고 'Slope of Enlightenment' 단계로 나아가면 기술이 더 성숙되고 현실적인 적용 가능성을 갖추게 됩니다. 이 단계에서는 기술을 효과적으로 활용하는 방법이 개발되며, 성공 사례들이 늘어납니다. 기업들은 이제 더 나은 결과를 얻기 위해 이 기술을 활용하고 있으며, 이로써 기술의 성숙도가 증가하게 됩니다.

    마지막으로 'Plateau of Productivity' 단계에서는 기술이 기업 및 산업에 널리 채택되고 적용되며, 기술의 이점을 최대로 누리게 됩니다. 이 단계에서는 기술이 안정화되고 표준화되며, 산업에 큰 변화를 가져오게 됩니다.

    2030년&#44; 합성 데이터 활용 증가 추이 예측
    < 2030년, 합성 데이터 활용 증가 추이 예측 >

    가트너가 2030년에 대부분의 인공지능 데이터가 규칙, 통계 모델, 시뮬레이션 등을 통해 인위적으로 생성될 것으로 예측한 것은 중요한 전망입니다. 이것은 합성 데이터와 같은 기술이 인공지능 및 머신 러닝 모델의 훈련 및 개선에 더욱 중요한 역할을 할 것으로 기대된다는 것을 시사합니다. 또한 이러한 예측은 실제 데이터 확보의 어려움, 개인 정보 보호 및 라이선스 문제 등과 같은 문제를 극복하고 데이터에 대한 높은 수요를 충족시키기 위한 대안으로 합성 데이터의 중요성을 강조하는 것으로 해석될 수 있습니다.

    2.3 국내외 기업 동향

    합성 데이터의 활용과 개발을 통해 많은 기업들이 혁신적인 기회를 모색하고 있습니다. 이러한 기업들은 합성 데이터의 저비용 및 효율성을 인식하고 다양한 분야에서 이를 활용하고 있으며, 아래는 그 중 몇 가지 예시입니다:

    • 메타(Meta): 메타는 합성 데이터 생성 기업 Reverie를 인수하고, 자사 메타버스 사업부인 리얼리티 랩스와 통합함으로써 합성 데이터의 중요성을 강조하고 있습니다. 이를 통해 가상 현실(VR) 및 증강 현실(AR) 경험을 개선하고자 합성 데이터를 활용하고 있습니다.
    • 엔비디아(NVIDIA): 엔비디아는 2021년 10월, 인공지능 훈련용 합성 데이터 생성 엔진인 '옴니버스 리플리케이터'를 출시했습니다. 이 도구를 통해 자율주행 자동차, 스마트 공장 로봇, 물류 로봇 등을 훈련하는 데 사용되는 고품질 합성 데이터를 생성하고 있습니다.
    • 토요타(Toyota): 토요타는 컴퓨터 비전을 위한 합성 데이터 연구를 진행하고 있으며, 이를 통해 자율주행 자동차 및 로봇 시스템의 성능을 향상시키는데 합성 데이터를 활용하고 있습니다.
    • 우버(Uber) AI 연구소: 우버 AI 연구소는 자체 모델인 'Generative Teaching Networks'를 개발하고 있으며, 합성 데이터를 활용하여 다양한 분야에서 모델 학습 및 성능 개선을 위한 연구를 진행하고 있습니다.
    • 마이크로소프트(Microsoft): 마이크로소프트는 2022년 12월, 인신매매에 대응하기 위한 최초의 차별된 개인 합성 데이터 세트를 국제이주기구(IOM)와 협력하여 개발하였습니다. 이러한 합성 데이터는 사회 문제 해결을 위한 중요한 자원으로 활용될 것으로 기대됩니다.
    • 아마존(Amazon): 아마존은 2022년 6월, 데이터 라벨링 솔루션인 Amazon SageMaker에서 합성 데이터 생성이 가능하다고 발표하였습니다. 이로써 아마존은 합성 데이터를 사용하여 머신 러닝 모델을 향상시키고자 하는 기업들에게 효과적인 도구를 제공하고 있습니다.

    이러한 국내외 기업들의 합성 데이터 활용 및 개발 동향은 데이터 주도 비즈니스 및 기술 혁신의 중요한 부분으로 자리잡고 있으며, 이를 통해 다양한 분야에서의 혁신과 성능 향상이 기대됩니다.

    국내에서는 씨앤에이아이, 페블러스, 나니아랩스, 드림투리얼, 어나더리얼 등의 스타트업이 합성 데이터 관련 기술을 앞세워 시장 참여 중이다.

    합성 데이터가 부상함에 따라 데이터 공급업체 수는 급증하는 추세로 2022년 12월 말 기준, 114개이다.

    https://syntheticdata.carrd.co

    특히, 비정형 합성 데이터(Unstructed synthetic data) 솔루션의 발전이 돋보이는데 이는 컴퓨터 비전 학습 사례 증가, 지원 기술의 가용성 증가, 급성장 산업에서의 합성 데이터 수요 증가에 등에 기인한 것이다.

    2022년 합성 데이터 공급업체 현황
    < 2022년 합성 데이터 공급업체 현황 >

    https://elise-deux.medium.com/new-list-of-synthetic-data-vendors-2022-f06dbe91784

    2.4 합성 데이터 공급업체의 동향과 특징

    합성 데이터 공급업체들은 데이터 주도 비즈니스 분야에서 중요한 역할을 하고 있으며, 다음과 같은 동향과 특징을 보이고 있습니다.

    • 자금 투자: 합성 데이터 기업들은 자금 투자를 통해 성장하고 있습니다. 최근 18개월 동안 투자금액은 최소 3억 2,500만 달러에 달하는데, 이는 합성 데이터 분야에 대한 투자 관심의 증가를 반영하고 있습니다. 자금 투자는 연구 및 개발, 기술 향상, 시장 확장 등에 활용되고 있습니다.
    • 차별화: 합성 데이터 공급업체들은 경쟁을 위해 차별화를 강조하고 있습니다. 처음 몇 년 동안 동종 시장 경험을 쌓은 후, 특정 사용 사례나 산업 분야에 중점을 두어 자체적인 역량과 독특한 서비스를 제공하려는 경향이 있습니다. 이를 통해 고객들에게 더 많은 가치를 제공하고 있습니다.
    • 서비스 중심의 비즈니스 모델: 기존에는 제품 중심의 공급을 강조했던 산업에서 합성 데이터 기업들은 서비스 중심의 비즈니스 모델로 전환하고 있습니다. 이를 통해 고객사들에게 보다 맞춤형 데이터 솔루션을 제공하며, 고객의 요구에 더 적극적으로 대응하고 있습니다.
    • 대기업의 진입: 합성 데이터 생성은 이제 공급업체만의 특권이 아니며, 대기업들도 자체적인 합성 데이터 기능을 개발하고 있습니다. 이러한 대기업들은 데이터 자체를 생산하고 활용함으로써 경쟁력을 확보하고 있습니다.
    • 파트너십: 일부 대기업은 합성 데이터 공급업체, 빅데이터 기업, 저문 기업 등과의 파트너십을 통해 협력 관계를 구축하고 있습니다. 이를 통해 시너지 효과를 창출하고 새로운 비즈니스 기회를 모색하고 있습니다.

    이러한 동향과 특징은 합성 데이터 분야가 현재와 앞으로의 경제 생태계에 미치는 중요성을 강조하며, 데이터 관련 기업들이 지속적인 혁신과 발전을 추구하고 있음을 보여줍니다.

    3. 합성 데이터 분류

    합성 데이터는 데이터 보안, 개인 정보 보호, 연구 및 분석 목적에 따라 다양한 방식으로 분류됩니다. 주로 사용되는 합성 데이터의 세 가지 주요 분류는 다음과 같습니다.

    완전 합성 데이터와 부분 합성 데이터 비교
    < 완전 합성 데이터와 부분 합성 데이터 비교 >

    * 출처 : Staice

    3.1 완전 합성 데이터 (Fully Synthetic Data)

    완전 합성 데이터는 공개하려는 데이터에 대한 실제 관측값이 전혀 없이 완전히 가상으로 생성된 데이터입니다. 이러한 데이터는 가장 강력한 정보 보호와 개인 정보 보호를 제공합니다. 완전 합성 데이터는 실제 데이터의 분포와 특성을 모방하여 생성되지만, 원래 데이터와 직접적으로 연결되지 않으므로 데이터 주체의 개인 정보나 중요한 정보를 노출하지 않습니다. 이러한 특성으로 인해 완전 합성 데이터는 민감한 정보를 다루는 곳에서 매우 유용하며, 데이터 공개나 공유에 대한 높은 보안 수준이 필요한 경우에 적합합니다.

    3.2 부분 합성 데이터 (Partially Synthetic Data)

    부분 합성 데이터는 공개하려는 데이터 중에서 일부 변수나 속성만을 선택하여 가상으로 생성된 데이터입니다. 일반적으로 이러한 합성 데이터에서는 민감한 정보가 포함된 변수들을 실제 데이터 대신 합성 데이터로 대체합니다. 나머지 변수들은 실제 데이터에서 가져오거나 그대로 사용합니다. 이렇게 함으로써 데이터의 보안성은 일부 향상되지만 완전한 보안은 제공되지 않습니다. 부분 합성 데이터는 데이터의 일부 민감한 정보를 숨기고 싶을 때 유용하며, 데이터 분석이나 연구에 사용될 때 민감한 정보 노출을 최소화합니다.

    3.3 복합 합성 데이터 (Hybrid Synthetic Data)

    복합 합성 데이터는 데이터의 일부 변수들의 값을 합성 데이터로 생성하고, 다른 변수들은 실제 데이터를 사용하여 값을 도출하는 방법으로 생성됩니다. 이러한 방식은 민감한 정보를 가진 변수들을 완전히 합성 데이터로 대체하지 않고, 일부 정보를 숨기고 일부 정보를 유지하는 데 사용됩니다. 이러한 방식은 데이터의 특정 부분에 대한 개인 정보 보호와 데이터 유용성을 균형있게 유지할 때 유용합니다. 데이터의 일부 변수는 실제 데이터와 연결되며 다른 부분은 합성 데이터로 보호됩니다.

    이러한 합성 데이터 분류 방법들은 데이터 공개와 연구 분야에서 개인 정보 보호와 데이터 보안을 고려할 때 중요한 도구로 활용됩니다. 데이터 소유자 및 사용자는 데이터의 민감한 측면과 필요한 데이터 유용성을 고려하여 적절한 합성 데이터 방법을 선택합니다.

    230109_IF보고서_가짜_데이터가_만드는_진짜_인공지능_시대.pdf
    4.43MB

Designed by Tistory.