ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 경제성·맞춤형 성능 겸비한 소형언어모델(sLLM) 개발 경쟁 촉발
    인공지능 2023. 10. 30. 01:41

    비용 절감, 훈련시간 단축 등 가성비 앞세운 소형 언어모델 ‘sLLM’ 부상

    소형 언어모델 'sLLM'의 부상은 대규모 언어모델의 한계와 AI 개발 방향에 대한 새로운 고찰을 가져온 중요한 발전입니다. 대규모 언어모델이 점차 거대해지면서 발생하는 문제점과 한계를 극복하고자 하는 시도로서, sLLM은 다양한 장점을 가지고 있습니다.

    첫째로, sLLM은 대규모 모델과 비교해 훈련 시간과 비용이 훨씬 적게 듭니다. 대형 언어모델은 훈련에 상당한 컴퓨팅 자원과 시간이 소요되며, 이로 인해 비용도 증가합니다. 하지만 sLLM은 상대적으로 적은 컴퓨팅 리소스로도 효율적인 훈련을 수행할 수 있어 개발 및 실험에 더 접근성이 높습니다.

    둘째로, sLLM은 미세조정을 통해 정확도를 향상시킬 수 있는 유연성을 가지고 있습니다. 대형 모델과 마찬가지로, sLLM은 문맥을 이해하고 특정 작업에 적합한 답변을 생성할 수 있습니다. 이를 통해 개발자들은 적은 노력으로 원하는 작업에 맞는 모델을 만들고 정확도를 높일 수 있습니다.

    세 번째로, sLLM은 데이터의 깊이 있는 학습을 통해 특정 분야에 더 적합한 모델을 구축하는 데 사용될 수 있습니다. 이러한 모델은 특정 도메인 또는 업무에 최적화된 지식을 갖추고 있으며 해당 분야의 전문성을 발휘할 수 있습니다. 예를 들어 의료 분야에서 의학 용어와 개념에 대한 이해력이 있는 sLLM 모델은 의료 정보 검색 및 의사 결정 지원에 효과적으로 활용될 수 있습니다.

    마지막으로, sLLM은 특정 목적에 맞춘 맞춤형 AI 모델을 구축하는 데 효과적입니다. 모든 기업과 플랫폼이 대규모 언어모델의 크기와 능력을 필요로 하는 것은 아니기 때문에, sLLM과 같이 작고 유연한 모델은 자신의 목적과 필요에 맞게 AI 모델을 조정하고 구축하는 데 유용합니다.

    sLLM은 대규모 언어모델의 한계를 극복하고 비용 효율적인 AI 개발을 실현하기 위한 중요한 도구로 부상하고 있습니다. 이러한 모델은 다양한 분야와 응용에 적용되어 향후 AI 개발과 연구에 있어서 중요한 역할을 할 것으로 예상됩니다.

    소형언어모델
    소형언어모델
    구분 대형언어모델(LLM) 소형언어모델(sLLM)
    매개변수
    • 약 수천 억 개
    • 수십 수백 억 개
    주요 제품·서비스
    • 오픈AI ‘GPT 시리즈’, 구글 ‘팜’, 칭화대 ‘GLM-130B’,
    • 네이버 ‘하이퍼클로바X’, LG AI 연구원 ‘엑사원’,
    • 카카오 ‘KoGPT’, SKT ‘에이닷’, KT ‘믿음’ 등
    • 스탠퍼드⼤ 알파카, 마이크로소프트 파이-1 등
    특징
    • 정확하고 복잡한 작업, 방대한 컴퓨팅 자원 필요
    • 많은 훈련 시간 필요, 비용 부담 큰 편
    • 적은 컴퓨팅 자원을 활용해 학습
    • 특정 영역 언어에 특화, 맞춤형 서비스 가능
    • 신속한 파인튜닝 등

    메타의 라마(LLaMA), sLLM 출시…스탠퍼드 ‘알파카 7B’ 등 속속 등장

    현재 빅테크 기업들 간의 대형 언어모델 경쟁이 치열하게 진행되고 있지만, 소형 언어모델(sLLM)의 부상은 데이터 양보다 데이터 질에 더 중점을 두는 경향을 강화하고 있습니다. 초거대 AI 언어모델인 챗GPT와 같은 모델은 다방면에서 많은 정보를 학습하였지만, 기업들은 세상의 모든 정보를 필요로 하지 않는 경우가 많습니다. 따라서 특정 분야에서 높은 효율성을 가진 독자적인 언어모델의 필요성이 부각되고 있습니다.

    물론 대형 언어모델도 중요하지만, 가성비, 유연성, 효용성 등의 장점을 갖는 소형 언어모델도 주목받고 있습니다. 전체적인 AI 언어모델 시장은 빅테크 기업들의 대형 모델이 주도하고 있지만, 기업과 정부는 보안 및 개인정보 유출 우려로 인해 소형 언어모델을 독자적으로 운영하는 sLLM 시장을 확대하고 있습니다.

    대형 언어모델의 경쟁과 병행하여, 기업들은 소형 언어모델이 효과적으로 활용될 수 있는 분야를 발굴하고 도입해 나가야 합니다. 데이터 양보다 데이터의 시의성과 정확성을 강조하며 특화된 정보의 효용성을 높이는 언어모델의 개발이 필요합니다. 또한 적시에 필요한 데이터만을 수집할 수 있는 데이터 수집 도구와 집계 기능을 업데이트하고 개선하는 것이 중요합니다. 이러한 노력을 통해 기업들은 sLLM을 보다 효과적으로 활용하고 경쟁력을 확보할 수 있을 것으로 예상됩니다.

    특정 분야에 최적화된 sLLM 개발과 도입 확산 추세

    생성형 AI 기술의 발전으로 기업들은 내부 데이터를 가장 중요한 자산 중 하나로 인식하고 있습니다. 다양한 산업 분야에서 사용되는 어휘와 용어의 상이성은 기업 간의 데이터와 콘텐츠를 통합하고 자체 언어모델을 구축하는 것을 어렵게 만들 수 있습니다. 그러나 고객 데이터와 조직 내 콘텐츠를 결합하면 기업은 자체 언어모델을 생성하고 사용할 수 있으며, 이 모델은 거대한 언어 모델처럼 크지 않더라도 한 기업에게 최적화된 모델이 될 수 있습니다.

    LG AI 연구원이 공개한 엑사원 2.0 버전과 같은 소형 언어모델은 매개변수 수를 줄이는 대신 품질 좋은 데이터를 활용하고 미세 조정을 통해 성능을 개선합니다. 이러한 접근 방식은 데이터 확보 및 학습 시간과 비용을 절감하면서도 높은 성능을 달성하는데 도움이 됩니다.

    sLLM은 저렴하고 빠르게 생성할 수 있으며 기업이 보유한 데이터를 활용해 맞춤형 모델을 구축하는 데 적합합니다. 이는 데이터 보안 문제를 해결하는 데도 도움이 됩니다. 대규모 언어모델은 외부 클라우드 서버에서 실행되기 때문에 데이터 보안 우려가 있지만, 소형 언어모델은 기업 자체 서버나 PC에서 구동할 수 있어 정보 유출 가능성이 줄어듭니다.

    메타와 마이크로소프트가 대형 언어모델보다 모델 품질에 중점을 두고 작은 모델을 개발하고 있는 것은 대형 언어모델의 한계를 극복하고 AI 기술을 다양한 분야와 응용에 더 널리 활용하기 위한 중요한 발전입니다. 이러한 접근 방식은 보다 경제적이고 효율적인 AI 모델을 개발하고 활용할 수 있도록 도와주며, 기업과 산업에 새로운 기회를 제공할 것으로 기대됩니다.

    데이터 ‘양’보다 ‘질’에 중점을 두는 ‘소형언어모델’ 경쟁에 준비 강화

    현재 빅테크 기업들 간의 대형 언어모델 경쟁이 치열하게 진행되고 있지만, 소형 언어모델(sLLM)의 부상은 데이터 양보다 데이터 질에 더 중점을 두는 경향을 강화하고 있습니다. 초거대 AI 언어모델인 챗GPT와 같은 모델은 다방면에서 많은 정보를 학습하였지만, 기업들은 세상의 모든 정보를 필요로 하지 않는 경우가 많습니다. 따라서 특정 분야에서 높은 효율성을 가진 독자적인 언어모델의 필요성이 부각되고 있습니다.

    물론 대형 언어모델도 중요하지만, 가성비, 유연성, 효용성 등의 장점을 갖는 소형 언어모델도 주목받고 있습니다. 전체적인 AI 언어모델 시장은 빅테크 기업들의 대형 모델이 주도하고 있지만, 기업과 정부는 보안 및 개인정보 유출 우려로 인해 소형 언어모델을 독자적으로 운영하는 sLLM 시장을 확대하고 있습니다.

    대형 언어모델의 경쟁과 병행하여, 기업들은 소형 언어모델이 효과적으로 활용될 수 있는 분야를 발굴하고 도입해 나가야 합니다. 데이터 양보다 데이터의 시의성과 정확성을 강조하며 특화된 정보의 효용성을 높이는 언어모델의 개발이 필요합니다. 또한 적시에 필요한 데이터만을 수집할 수 있는 데이터 수집 도구와 집계 기능을 업데이트하고 개선하는 것이 중요합니다. 이러한 노력을 통해 기업들은 sLLM을 보다 효과적으로 활용하고 경쟁력을 확보할 수 있을 것으로 예상됩니다.

    sLLM 개발 나선 글로벌 대학·기업 및 국내 AI스타트업

    스탠포드대학 Alpaca

    매개변수 70억 개의 소형언어모델 ‘알파카’는 52,000개 데이터를 기반으로 클라우드 서비스에서 제공하는 컴퓨터 8대를 이용해 3시간 만에 훈련 종료. 비용은 600달러(약 79만 원)
    알파카 성능은 기대 이상으로 평가: 이메일·SNS 글 작성 등에서 챗GPT와 비교한 결과 90개 항목에서 앞서는 성과

    마이크로소프트 PH-I

    매개변수 13억 개를 가진 새로운 코딩 특화 언어모델 ‘파이-1’이 100배 크기인 GPT-3.5를 일부 능가했다는 연구 결과 발표(2023년 6월)
    ‘파이-1’은 인터넷에서 수집한 60억 개의 토큰 및 GPT-3.5에서 생성된 10억 개의 토큰을 사용해 설계. 또한 8개의 엔비디아 A100 칩을 사용해 단 나흘 동안 훈련. 휴먼이벌(HumanEval) 테스트에서 GPT-3.5보다 우수 한 성능을 보인 것으로 분석
    마이크로소프트 리서치는 ‘파이-1-스몰(phi-1-small)’이라는 더 작은 모델도 개발(3.5억 개 매개변수)

    데이터브릭스 (미국 SW 기업) Dolly 2.0

    돌리(Dolly) 2.0: 100달러 비용으로 1대 서버에서 3시간 훈련해 구축한 매개변수 60억 개의 소형언어모델
    1.0 버전은 알파카의 데이터셋 활용
    2.0버전은 데이터브릭스 자체 구축한 데이터셋을 학습, 상업 목적으로 사용 가능

    세레브라스 (미국 AI 반도체 스타트업) Cerebras-GPT

    다양한 패키지의 sLLM 모델 공개
    매개변수 1억 개부터 130억 개 사이인 소형언어모델 7종(Cerebras-GPT7) 오픈소스로 공개
    학습 시간이 짧고 학습 비용이 낮고, 소비전력이 적은 것이 특징

    갓잇AI (미국) ELMAR

    클라우드를 이용하지 않는 온프레미스(사내구축)형 소형언어모델 ‘엘마’ 출시
    피터 레란 갓잇AI 회장은 “모든 기업이 크고 강력한 모델이 필요한 것은 아니며 데이터가 외부로 반출되는 것을 원하지 않는 기업도 많다”고 설명

    스테빌리티 AI StableLM

    스테이블LM 출시(텍스트와 이미지, 코드를 생성할 수 있는 대화형 오픈소스언어모델)
    매개변수 규모는 30억, 70억 개 두 가지 버전. 챗GPT 등 LLM과 달리 오픈 소스로 공개. 누구나 스테이블LM을 무료로 사용해 새로운 제품이나 기술 개발 가능
    영어·스페인어로만 대화할 수 있고 한국·일본·중국어 등 아시아권 언어는 제대로 지원하지 못하는 한계
    * 스테빌리티AI는 지난 2021년 방글라데시계 영국인 에마드 모스타크가 독일 뮌헨 대학교 AI 연구소를 포함해 7개 AI 연구기관의 지원을 받아 설립한 AI 스타트업

    포티투마루 (한국 AI 스타트업) LLM42

    ‘LLM42’ 공개(2023.5), 국내뿐 아니라 해외에 기술 공급 추진
    챗GPT와 같은 초거대 언어모델(LLM)의 경량화 버전을 실현한 것으로 솔루션 구축과 학습에 들어가는 비용을 크게 절감하고 기업용 프라이빗(Private) 모드를 지원해 기업 내부 데이터와 민감한 고객 정보 유출 걱정 없이 안전하게 초거대 인공지능 활용 가능

    스켈터랩스 (한국 AI 스타트업) BELLA

    sLLM 버전 ‘벨라(BELLA)’ 개발 계획 공개(20223.6)
    ‘벨라’는 다양한 과업을 수행할 수 있는 LLM 기반의 애플리케이션 개발과 도메인에 특화된 스켈터랩스의 독자적인 LLM 개발 등 크게 두 가지 영역으로 구분
    특히 기업 업무에 최적화된 독자적인 LLM 개발을 한층 강화 예정. 도메인에 특화된 경량화된 ‘벨라-LLM(가칭)’을자체 개발 중이며 올해 하반기 공개 예정

    엔씨소프트 VARCO

    개인, 기업이 쉽게 활용할 수 있는 소형-중형 규모의 한국어 전용 ‘바르코 LLM’을 우선 공개했다. 해당 모델은 개발 초기 단계부터 엔씨가 직접 선별한 고품질 데이터를 위주로 학습해 사용자가 쉽고 편리하게 비즈니스에 활용할 수 있다는 점이 특징
    바르코 LLM 기반 생성 AI 플랫폼 3종 △이미지 생성 툴(VARCO Art) △텍스트 생성 및 관리 툴(VARCO Text) △디지털 휴먼 생성 및 편집, 운영 툴(VARCO Human)이다. 생성 AI 플랫폼 3종은 ‘바르코 스튜디오’라는 명칭으로 서비스

    출처 : ICT Brief 2023-27호 주요이슈 1

Designed by Tistory.