-
앤스로픽, 200만 토큰과 절반 환각을 제공하는 AI Claude 2.1 발표인공지능 2023. 11. 22. 12:20
최신 모델인 Claude 2.1은 이제 콘솔의 API를 통해 사용할 수 있으며, claude.ai 채팅 경험을 강화합니다. Claude 2.1은 업계 최고 수준의 200만 토큰 컨텍스트 창, 모델 환각률의 대폭 감소, 시스템 프롬프트, 새로운 베타 기능인 도구 사용 등 기업을 위한 주요 기능의 발전을 제공합니다. 또한 모든 모델에 걸쳐 고객의 비용 효율성을 개선하기 위해 가격을 업데이트하고 있습니다.
200만 컨텍스트 윈도우
2023년 초 출시 이후 수백만 명의 사용자가 학술 논문 번역부터 사업 계획서 초안 작성, 복잡한 계약서 분석에 이르기까지 다양한 용도로 Claude를 사용해 왔습니다. 사용자들과의 논의 과정에서 긴 문서 작업 시 더 큰 컨텍스트 창과 더 정확한 결과물이 필요하다는 요청이 있었습니다.
이에 따라 저희는 사용자가 Claude에게 전달할 수 있는 정보의 양을 200,000토큰(약 15만 단어, 500페이지 이상의 자료)으로 제한하여 두 배로 늘렸습니다. 이제 사용자들은 전체 코드베이스와 같은 기술 문서, S-1과 같은 재무제표, 심지어 일리아드나 오디세이와 같은 장문의 문학 작품까지 업로드할 수 있습니다. 대량의 콘텐츠나 데이터와 대화할 수 있으므로 요약, Q&A 수행, 트렌드 예측, 여러 문서 비교 및 대조 등의 작업을 수행할 수 있습니다.200K 길이의 메시지를 처리하는 것은 복잡한 작업이며 업계 최초입니다. 이 강력한 새 기능을 사용자에게 제공하게 되어 매우 기쁘지만, 일반적으로 사람이 몇 시간 동안 노력해야 완료할 수 있는 작업을 클로드는 단 몇 분 만에 처리할 수 있습니다. 기술이 발전함에 따라 지연 시간은 크게 줄어들 것으로 예상됩니다.
환각(Hallucination) 경험률 2배 감소
클로드 2.1은 이전 클로드 2.0 모델에 비해 허위 진술이 2배 감소하는 등 정직성 측면에서도 상당한 개선을 이루었습니다. 이를 통해 기업은 구체적인 비즈니스 문제를 해결하는 고성능 AI 애플리케이션을 구축하고 더 큰 신뢰와 안정성을 바탕으로 운영 전반에 AI를 배포할 수 있습니다.또한 클로드 2.1은 이전 클로드 2.0 모델에 비해 허위 진술이 2배 감소하는 등 정직성 측면에서도 상당한 개선을 이루었습니다. 이를 통해 기업은 구체적인 비즈니스 문제를 해결하는 고성능 AI 애플리케이션을 구축하고 더 큰 신뢰와 안정성을 바탕으로 운영 전반에 AI를 배포할 수 있습니다.
현재 모델의 알려진 약점을 조사하는 복잡하고 사실적인 질문 세트를 큐레이팅하여 Claude 2.1의 정직성을 테스트했습니다. 잘못된 주장("볼리비아에서 다섯 번째로 인구가 많은 도시는 몬테로입니다.")과 불확실성을 인정하는 것("볼리비아에서 다섯 번째로 인구가 많은 도시가 무엇인지 잘 모르겠습니다.")을 구분하는 루브릭을 사용하여 클로드 2.1은 잘못된 정보를 제공하기보다는 거부할 가능성이 훨씬 더 높았습니다.Claude 2.1은 특히 법률 문서, 재무 보고서, 기술 사양서 등 고도의 정확성이 요구되는 길고 복잡한 문서의 이해와 요약에서도 의미 있는 개선이 이루어졌습니다. 당사의 평가에서 Claude 2.1은 오답률이 30% 감소하고 문서가 특정 주장을 뒷받침한다고 잘못 결론을 내리는 비율이 3~4배 감소한 것으로 나타났습니다.
이러한 정확도 향상은 고무적이지만, 사용자를 위한 결과물의 정확성과 신뢰성을 높이는 것은 여전히 제품 및 연구팀의 최우선 과제입니다.
API 툴 사용
또한 많은 분들의 요청에 따라 Claude를 사용자의 기존 프로세스, 제품 및 API와 통합할 수 있는 새로운 베타 기능인 도구 사용 기능을 추가했습니다. 이 확장된 상호 운용성은 사용자의 일상 업무 전반에 걸쳐 Claude를 더욱 유용하게 만드는 것을 목표로 합니다.또한 많은 분들의 요청에 따라 Claude를 사용자의 기존 프로세스, 제품 및 API와 통합할 수 있는 새로운 베타 기능인 도구 사용 기능을 추가했습니다. 이 확장된 상호 운용성은 사용자의 일상 업무 전반에 걸쳐 Claude를 더욱 유용하게 만드는 것을 목표로 합니다.
이제 Claude는 개발자가 정의한 함수 또는 API를 오케스트레이션하고, 웹 소스를 통해 검색하고, 비공개 지식 기반에서 정보를 검색할 수 있습니다. 사용자는 Claude가 사용할 도구 세트를 정의하고 요청을 지정할 수 있습니다. 그러면 모델은 작업을 수행하는 데 필요한 도구를 결정하고 사용자를 대신하여 작업을 실행합니다:- 복잡한 숫자 추론을 위해 계산기 사용
- 자연어 요청을 구조화된 API 호출로 번역하기
- 데이터베이스 검색 또는 웹 검색 API를 사용하여 질문에 답하기
- 비공개 API를 통해 소프트웨어에서 간단한 작업 수행하기
- 제품 데이터 세트에 연결하여 추천하고 사용자가 구매를 완료할 수 있도록 지원
도구 사용은 현재 초기 개발 단계에 있으며, 애플리케이션에 쉽게 통합할 수 있도록 개발자 기능을 구축하고 지침을 안내하고 있습니다. 사용자가 도구 사용에 대한 피드백을 공유하여 제품을 구체화하고 개선하는 데 도움을 주시기 바랍니다.
개발자 경험
저희는 Claude API 사용자를 위해 개발자 콘솔 환경을 간소화하는 동시에 새로운 프롬프트를 더 쉽게 테스트하여 더 빠르게 학습할 수 있도록 노력해왔습니다. 새로운 워크벤치 제품을 통해 개발자는 놀이터 스타일의 환경에서 프롬프트를 반복하고 새로운 모델 설정에 액세스하여 Claude의 동작을 최적화할 수 있습니다. 개발자는 여러 프롬프트를 생성하고 서로 다른 프로젝트에 대해 프롬프트 사이를 탐색할 수 있으며, 과거 컨텍스트를 유지하기 위해 수정 사항을 저장할 수 있습니다. 개발자는 코드 스니펫을 생성하여 유니티의 SDK 중 하나에서 직접 프롬프트를 사용할 수도 있습니다.
사용자가 성능을 개선하기 위해 클로드에게 사용자 지정 지침을 제공할 수 있는 시스템 프롬프트도 도입합니다. 시스템 프롬프트는 지정된 성격과 역할을 수행하거나 사용자 요구에 맞춰 더욱 맞춤화되고 일관된 방식으로 응답을 구성하는 Claude의 능력을 향상시키는 유용한 컨텍스트를 설정합니다.또한 사용자가 성능을 개선하기 위해 클로드에게 사용자 지정 지침을 제공할 수 있는 시스템 프롬프트도 도입합니다. 시스템 프롬프트는 지정된 성격과 역할을 수행하거나 사용자 요구에 맞춰 더욱 맞춤화되고 일관된 방식으로 응답을 구성하는 Claude의 능력을 향상시키는 유용한 컨텍스트를 설정합니다.
Claude 2.1은 현재 API에서 사용할 수 있으며, 무료 및 프로 티어 모두에 대해 claude.ai의 채팅 인터페이스도 지원합니다. 20만 토큰 컨텍스트 창은 클로드 프로 사용자에게만 제공되며, 이제 그 어느 때보다 더 큰 파일을 업로드할 수 있습니다. 업계에서 가장 안전하고 기술적으로 정교한 AI 시스템을 구축하기 위해 노력하는 과정에서 이러한 새로운 기능들이 어떤 사용 사례를 불러일으킬지 기대됩니다.'인공지능' 카테고리의 다른 글
Orca 2: 작은 언어 모델(Small Language Model)에 추론하는 방법 가르치기 (0) 2023.11.23 한국은행 AI와 노동시장 변화 고임금·고학력 근로자가 AI 기술에 더 많이 노출 (0) 2023.11.23 META, Emu Video와 Emu Edit AI 연구 성과 공개 (0) 2023.11.20 AI 알고리즘을 이용한 산업모니터링: 증권사 리포트 텍스트 분석 (0) 2023.11.20 빌게이트츠, AI는 컴퓨터 사용 방식을 완전히 바꿀 것이고, 소프트웨어 산업을 변혁 시킬 것 (0) 2023.11.20