ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Groq, 눈깜작할 사이에 답을 주는 LLM 특화된 LPU(Language Processor Unit)
    인공지능 2024. 2. 24. 00:53

    Groq LPU™

    추론 엔진

    추론 성능과 정밀도를 위해 특별히 설계된 단순하고 효율적인 디자인

    LLM에 대한 수요가 가속화되고 있으며 현재 프로세서는 필요한 속도와 수요를 처리할 수 없습니다. GPU는 생성 AI 생태계에서 가장 약한 링크입니다. Groq은 북미에서 제작 및 엔지니어링된 간단한 설계로 상당한 성능, 효율성 및 정밀도를 모두 제공하기 위해 엔드투엔드 추론 가속 시스템인 LPU™ 추론 엔진을 개발했습니다. 이는 추론 성능과 정확성을 위해 특별히 제작된 세계 최초의 Language Processor Unit™ 추론 엔진입니다 . 얼마나 성능이 좋나요? 현재 우리는 사용자당 초당 300개 이상의 토큰으로 Llama-2 70B를 실행하고 있습니다.

    LPU는 교육을 가능하게 하는 CPU 및 그래픽 프로세서와 함께 데이터 센터에 상주하며 고객은 온프레미스 배포 또는 API 액세스를 선택할 수 있습니다. 우리의 비전은 AI 경험이 무엇이어야 하는지에 대한 새로운 기대치를 설정하는 것입니다. 즉, 에너지 효율적인 패키지에 짧은 대기 시간과 실시간 전달을 모두 갖춘 놀라운 추론입니다. 

    Groq LPU
    Groq LPU™

    LPU™ 추론 엔진과 LLM에 강점

    LPU™ 추론 엔진(LPU는 Language Process Unit™을 나타냄)은 LLM과 같은 순차 구성 요소가 있는 계산 집약적 애플리케이션을 처리하기 위해 Groq에서 개발한 새로운 유형의 처리 시스템입니다.

    LPU 추론 엔진은 LLM의 두 가지 병목 현상, 즉 컴퓨팅 용량과 메모리 대역폭을 극복하도록 설계되었습니다. LPU 시스템은 GPU만큼 더 많은 컴퓨팅 기능을 갖추고 있으며 계산된 단어당 시간을 줄여 텍스트 시퀀스를 더 빠르게 생성할 수 있습니다. 외부 메모리 대역폭 병목 현상이 없는 LPU 추론 엔진은 그래픽 프로세서보다 훨씬 더 나은 성능을 제공합니다.

    GROQ 프로세서는 독특하고 새로운 디자인으로, 높은 수준의 벡터 및 행렬(텐서) 병렬 처리 기능을 갖춘 단일 코어로 작동합니다.
    GroqChip Overview
    GroqChip Overview
    각각 4개의 TSP가 탑재된 두 개의 카드와 2개의 AMD 로마 EPYC CPU가 결합된 Groq 노드 디자인

    https://www.forbes.com/sites/karlfreund/2021/02/25/the-cambrian-ai-landscape-groq/?sh=68f19f8721bf

    LPU™ 추론 엔진의 정의

    LPU™ 추론 엔진에는 다음과 같은 특징이 있습니다.

    • 탁월한 순차 성능
    • 단일 코어 아키텍처
    • 대규모 배포에도 유지되는 동기식 네트워킹
    • 500억 개가 넘는 LLM을 자동 컴파일하는 기능
    • 즉각적인 메모리 액세스
    • 낮은 정밀도 수준에서도 유지되는 높은 정확도

    KEY ATTRIBUTES OF AN LPU™ SYSTEM
    KEY ATTRIBUTES OF AN LPU™ SYSTEM

    https://wow.groq.com/wp-content/uploads/2023/11/Groq_LLMs_OnePager.pdf

    LPU™ 추론 엔진에서 GROQ의 성능

    이전에는 사용자당 초당 100개의 토큰 기록을 설정했고 그 다음에는 사용자당 초당 240개의 토큰 기록을 설정했습니다. Groq는 최근 LPU™ 시스템에서 실행되는 Llama 2 70B에서 사용자당 초당 300개가 넘는 토큰의 성능 결과를 발표했습니다.

    https://groq.com/

    Groq: 언어 처리 장치(LPU)를 통해 AI의 미래 개척

    Groq

    빠르게 진화하는 인공지능(AI) 환경에서 해당 분야의 GPU 지배력에 도전하는 새로운 경쟁자가 등장했습니다. 상대적으로 잘 알려지지 않은 회사인 Groq(Elon Musk의 개발 중인 챗봇인 "Grok"과 혼동하지 마세요)는 획기적인 언어 처리 장치(LPU)로 헤드라인을 장식하여 속도와 효율성에 대한 새로운 기준을 세웠습니다. LLM(대형 언어 모델) 처리. 이 기사에서는 Groq 혁신의 본질, 그것이 AI 산업에 미치는 영향, 개발자와 기업 모두에게 중요한 이유를 자세히 살펴봅니다.

    LPU 부상

    Groq의 혁신의 중심에는 전례 없는 속도로 언어 작업을 처리하도록 설계된 특수 프로세서인 LPU가 있습니다. 병렬 처리(GPU)에 의존하는 기존 컴퓨팅 시스템과 달리 LPU는 순차 처리 접근 방식을 채택하므로 언어를 이해하고 생성하는 데 매우 적합합니다. 이러한 설계 철학을 통해 LPU는 LLM의 두 가지 주요 병목 현상인 컴퓨팅 밀도와 메모리 대역폭을 해결하여 GPU보다 더 빠르고 에너지 효율적이며 비용 효율적인 솔루션을 제공합니다.

    GroqChip vs GPU
    GroqChip vs GPU

    Groq의 LPU는 기존 GPU 기반 시스템을 능가하는 속도로 Llama-2 및 Mixtral과 같은 오픈 소스 LLM을 실행하여 그 우수성을 입증했습니다. 예를 들어, 생성 AI 솔루션 회사인 ArtificialAnalytic.ai는 최근 Groq의 LLM 벤치마킹 테스트를 실행하여 지연 시간 대 처리량, 시간 경과에 따른 처리량, 총 응답 시간 및 처리량 차이를 포함한 핵심 성과 지표에서 8명의 참가자를 가장 잘 뽑을 수 있었습니다. Groq LPU™ 추론 엔진은 Llama 2–70b에서 매우 잘 작동했기 때문에 지연 시간 대 처리량 차트에서 Groq를 플롯하려면 축을 확장해야 했습니다. 이러한 성능 향상은 현재 GPU 기반 시스템에서는 상상할 수 없는 실제 이점으로 이어집니다.

    Groq의 비전과 전략

    Google의 TPU(텐서 처리 장치) 개발에 중추적인 역할을 한 Jonathan Ross가 2016년에 설립한 Groq는 항상 소프트웨어 및 컴파일러 개발을 우선시해 왔습니다. 이 접근 방식은 하드웨어(이 경우 LPU)가 소프트웨어 요구 사항과 완벽하게 일치하도록 보장하여 언어 처리 작업에 탁월한 고도로 최적화된 시스템을 제공합니다.

    AI 혁신을 위한 Groq의 노력은 하드웨어에만 국한되지 않습니다. 이 회사는 추론을 위해 PyTorch, TensorFlow 및 ONNX와 같은 표준 기계 학습 프레임워크를 지원하므로 개발자가 Groq의 기술을 기존 애플리케이션에 통합할 수 있습니다. 또한 회사의 실험 부문인 GroqLabs는 오디오, 음성, 이미지 조작, 과학 연구 등 채팅을 넘어 다양한 산업을 변화시킬 수 있는 LPU의 다용성과 잠재력을 보여주는 수많은 애플리케이션을 탐색하고 있습니다[2].

    업계에 미치는 영향과 앞으로의 방향

    Groq의 LPU 도입은 AI 업계에서 중요한 이정표를 세웠습니다. Groq는 언어 처리 작업에서 기존 GPU보다 훨씬 뛰어난 솔루션을 제공함으로써 NVIDIA, AMD, Intel과 같은 기존 플레이어에게 도전할 뿐만 아니라 AI를 위한 새로운 애플리케이션 및 사용 사례를 위한 길을 닦고 있습니다. LPU의 우수한 성능은 독립적인 벤치마크에서 인정받았으며 핵심 성과 지표에서 1위를 차지해 AI 가속 분야의 선두주자로서 Groq의 입지를 더욱 공고히 했습니다.

    LLM 컨텍스트 창 크기가 증가하고(곧 출시될 Google의 Gemini 1.5 Pro에서 본 것처럼) AI 환경이 계속 발전하고 다양한 추가 기능 검색 메커니즘(RAG)과 같은 새로운 메모리 전략으로 인해 LPU의 역할 더 빠르고 효율적이며 비용 효과적인 AI 애플리케이션을 구현한다는 점은 아무리 강조해도 지나치지 않습니다. LPU가 약속을 지킬 수 있다면 업계는 실시간 AI 애플리케이션에 대한 접근성이 더욱 높아져 개발자, 기업 및 사회 전반에 새로운 가능성을 열어주는 새로운 혁신 시대로 진입할 준비가 되어 있습니다.

    결론적으로, Groq의 LPU는 AI 처리의 패러다임 전환을 나타내며, 현재 하드웨어 솔루션의 처리 병목 현상으로 인해 발생하는 일부 한계를 극복하여 AI의 잠재력이 크게 확장되는 미래를 엿볼 수 있습니다. Groq이 지속적으로 제품을 혁신하고 확장함에 따라 LPU는 차세대 AI 애플리케이션의 초석이 되어 업계와 서비스를 제공하는 사람들에게 흥미로운 시간이 될 것입니다.

    Groq 프롬프트 화면 webui.
    Groq 프롬프트 화면 webui

     

    Groq 사용법

    무료 챗봇 서비스인 Groq를 사용하려면 https://groq.com 에서 등록하세요 . Groq에 대한 액세스는 ChatGPT 및 Gemini와 마찬가지로 webui를 통해 브라우저를 통해 이루어집니다. 프랑스 회사 Mistral이 만든 "Mixtral 8x7B-32k"와 Meta가 만든 "Llama 2 70B-4k"의 두 가지 오픈 소스 모델 중에서 선택할 수 있습니다. 모델은 왼쪽 상단의 드롭다운 메뉴를 통해 선택됩니다.

    모델 선택
    모델 선택

    브라우저 오른쪽 상단에 있는 톱니바퀴 아이콘을 선택하여 설정을 조정하고 시스템 프롬프트를 추가할 수도 있습니다.

    드롭다운에서 시스템 프롬프트 또는 설정을 선택
    드롭다운에서 시스템 프롬프트 또는 설정을 선택

    설정에서는 다음을 수동으로 조정할 수 있습니다.

    • Seed numbers
    • Output tokens
    • Input tokens
    • Temperature
    • Top P
    • Top K

    이러한 설정은 이 문서의 범위를 벗어나므로 "그대로" 둘 수 있습니다. 온도, Top P 및 Top K는 결정성/창의성/무작위성을 제어하는 ​​것에 관한 것이며 모험심이 있다면 동일한 입력 프롬프트를 사용할 때 효과를 확인하기 위해 원하는 대로 조정할 수 있습니다.

    시스템(SYS) 프롬프트에서는 모델이 여러 프롬프트에 걸쳐 준수해야 할 지침을 추가할 수 있습니다. 특정 기술이나 지식 영역에 LLM을 집중시키는 것을 사용할 수 있으며 환각의 가능성을 줄이기 위해 질문에 응답하는 방법에 대해 LLM에 지시할 수도 있습니다(예: "단계별", " 시간”, “답변하기 전에 설명하기”, “생각의 나무”, “답을 모르면 말해주세요” 또는 유용하다고 생각하는 기타 전략).

     

    시스템 프롬프트 필드
    시스템 프롬프트 필드

     

    Groq의 LPU 추론 엔진의 아키텍처와 개념은 기존 솔루션과 차별화됩니다. 특정 기술적 세부 사항은 복잡할 수 있지만, 전체적인 원리는 다음과 같이 이해할 수 있습니다

    • LLM을 위한 전용 하드웨어: AI 작업에 일반적으로 사용되는 범용 GPU(Graphics Processing Unit)와 달리, Groq의 LPU는 언어 처리 작업을 위해 특별히 설계되었습니다. 이 전문화를 통해 더 일반적인 하드웨어에서는 불가능한 최적화를 실현할 수 있습니다.
    • 스트림라인 데이터 처리: Groq의 아키텍처는 전통적인 컴퓨팅 시스템의 주요 병목 현상인 데이터 이동을 최소화합니다. 칩 내에서 데이터 흐름을 효율적으로 관리함으로써, LPU는 작업을 더 빠르고 에너지를 덜 소모하면서 실행할 수 있습니다.
    • 병렬 처리 능력: LPU는 복잡한 언어 모델을 처리하기 위해 여러 작업을 병렬로 실행할 수 있습니다. 이러한 병렬성은 엔진의 벤치마크를 압도하는 성능의 핵심 요소입니다.

    Llama2 7B, 70B과 Mixtral 8x7B 모델들을 지원하며, 각각의 속도와 가격은 아래와 같습니다

    https://discuss.pytorch.kr/t/groq-18-llm-lpu-language-processing-unit/3553

    차세대 AI 엔진, LLM 속도 대결에서 1위 차지

    AI 채팅 프롬프트에 대한 응답이 충분히 빠르지 않습니까? 캘리포니아에 본사를 둔 생성 AI 회사 Groq는 LPU 추론 엔진에서 매우 빠른 솔루션을 보유하고 있으며, 이는 최근 공개 벤치마크에서 모든 경쟁자를 능가했습니다.

    Groq는 컴퓨팅 밀도 및 메모리 대역폭 문제를 극복하고 LLM(대형 언어 모델)과 같은 집약적인 컴퓨팅 애플리케이션의 처리 속도를 높이기 위해 새로운 유형의 칩을 개발하여 "계산된 단어당 시간을 줄여 텍스트 시퀀스를 훨씬 많이 생성할 수 있습니다" 더 빠르게."

    이 언어 처리 장치는 정보를 처리하고 최종 사용자의 쿼리에 대한 답변을 제공하여 매우 빠른 응답을 위해 가능한 한 많은 토큰(또는 단어)을 제공하는 회사 추론 엔진의 필수적인 부분입니다.

    2023년말, 내부 테스트에서는 Meta AI의 Llama-2(70B) LLM을 통해 사용자당 초당 300개 이상의 토큰을 달성하여 "새로운 성능 기준을 설정"했습니다. 2024년 1월에 이 회사는 최초의 공개 벤치마킹에 참여하여 다른 모든 클라우드 기반 추론 제공업체가 성과를 거두었습니다. 이제 독립적인 테스트에서 상위 8개 클라우드 제공업체를 상대로 승리를 거두었습니다.

    Groq는 언어 처리 장치 추론 엔진의 성능을 플롯하기 위해 ArtificialAnalytic.ai의 지연 시간 대 처리량 차트 축을 확장해야 했다고 보고합니다

    ArtificialAnalytic.ai의 공동 창작자인 Micah Hill-Smith는 "ArtificialAnalytic.ai는 Groq와 Llama 2 Chat(70B) API를 독립적으로 벤치마킹하여 초당 241개 토큰의 처리량을 달성했는데, 이는 다른 호스팅 제공업체보다 두 배 이상 빠른 속도입니다."라고 말했습니다. . "Groq는 사용 가능한 속도의 단계적 변화를 나타내며 대규모 언어 모델에 대한 새로운 사용 사례를 가능하게 합니다."

    Groq LPU 추론 엔진은 총 응답 시간, 시간 경과에 따른 처리량, 처리량 차이, 대기 시간 대 처리량 등의 항목에서 가장 높은 점수를 얻었습니다. 후자 범주에 대한 차트는 결과를 수용하기 위해 축을 확장해야 합니다.

    Groq 언어 처리 장치 추론 엔진은 초당 241개의 토큰을 전달했으며, 100개의 토큰을 전달하는 데 0.8초가 걸렸습니다.

    Groq CEO이자 창립자인 Jonathan Ross는 "Groq는 '가진 자와 가지지 못한 자'를 제거하고 AI 커뮤니티의 모든 사람이 번영할 수 있도록 돕기 위해 존재합니다."라고 말했습니다. "속도는 개발자의 아이디어를 비즈니스 솔루션과 삶을 변화시키는 애플리케이션으로 바꾸는 것이기 때문에 추론은 해당 목표를 달성하는 데 매우 중요합니다. LPU 추론 엔진이 대규모 언어 모델을 실행하고 Groq를 AI 가속기 분야의 진정한 경쟁자로 인정해준 ArtificialAnalytic.ai 직원들에게 감사드립니다."

    GroqChat 인터페이스를 통해 회사의 LPU 추론 엔진을 직접 사용해 볼 수 있지만 챗봇은 인터넷에 액세스할 수 없습니다. 승인된 사용자가 Llama 2(70B), Mistral 및 Falcon을 통해 엔진을 시험해 볼 수 있도록 Groq API에 대한 조기 액세스도 제공됩니다.

    https://newatlas.com/technology/groq-lpu-inference-engine-benchmarks/

Designed by Tistory.