Gemini 1.5: Google AI Studio에서 비공개 미리보기로 이용 가능한 차세대 모델

2월 15, 2024
Jaclyn Konzelmann Google Labs
Wiktor Gworek Google Labs

지난주, Google에서는 Gemini Advanced에 Gemini 1.0 Ultra를 출시했습니다. 이제 Gemini Advanced 구독에 가입하여 이 버전을 시험 사용해 보실 수 있습니다. Gemini API를 통해 이용 가능한 1.0 Ultra 모델은 많은 관심을 끌었으며 Google AI Studio의 일부 개발자와 파트너를 대상으로 지속적으로 배포되고 있습니다.

오늘은 차세대 Gemini 1.5 모델이 출시되었다는 반가운 소식을 전합니다. 이 모델은 MoE(Mixture-of-Experts)라는 새로운 방식을 사용해 효율성을 높였습니다. 이는 사용자의 요청을 소규모의 "전문가" 신경망으로 전달하여 빠른 속도로 양질의 응답을 제공하는 방식입니다.

개발자는 Gemini 1.5 Pro비공개 미리보기를 신청할 수 있습니다. Gemini 1.5 Pro는 폭넓은 작업을 망라하여 크기를 조정할 수 있도록 최적화된 중간 규모의 멀티모달 모델입니다. 이 모델은 실험적인 1백만 개의 토큰을 포함하는 새로운 컨텍스트 창을 제공하며 Google AI Studio에서 시험 사용할 수 있습니다. Google AI Studio는 Gemini 모델을 사용해 개발할 수 있는 가장 빠른 방법이며, 개발자가 애플리케이션에 Gemini API를 손쉽게 통합할 수 있도록 지원합니다. Gemini 1.5 Pro는 180여 개 국가 및 지역에서 38개 언어로 제공됩니다.

토큰 1백만 개: 개발자를 위한 새로운 사용 사례 제공

기존에 공개적으로 이용 가능한 대규모 언어 모델용 컨텍스트 창으로는 토큰 200,000개가 가장 큰 규모였습니다. 그런데 Google에서 이 규모를 대폭 늘려 최대 1백만 개의 토큰을 지속적으로 실행하여 모든 대규모 파운데이션 모델 중에서 가장 긴 컨텍스트 창을 구현했습니다. Gemini 1.5 Pro에는 128,000개의 토큰을 포함하는 컨텍스트 창이 기본 제공될 예정이지만, 현재의 비공개 미리보기에서는 실험적으로 토큰 1백만 개가 포함된 컨텍스트 창을 이용할 수 있습니다.

저희는 컨텍스트 창이 더 커짐으로써 열리게 될 새로운 가능성에 대한 기대가 큽니다. Google AI Studio에서 대규모 PDF, 코드 리포지토리, 심지어 길이가 긴 동영상까지 프롬프트로 직접 업로드할 수 있습니다. 그러면 Gemini 1.5 Pro가 모달리티 전체에 걸쳐 추론하여 텍스트를 출력합니다.

1) 여러 파일을 업로드하고 질문하기
Google AI Studio에서 개발자가 PDF와 같은 파일을 여러 개 업로드하고 질문을 할 수 있도록 기능을 추가했습니다. 컨텍스트 창이 커졌기 때문에 모델이 더 많은 정보를 받아들일 수 있고, 더 일관되고 관련성이 높으며 유용한 출력을 제공할 수 있습니다. 이 토큰 1백만 개의 컨텍스트 창을 이용하자 한 번에 700,000단어를 초과하는 텍스트를 로드할 수 있었습니다.

Gemini 1.5 Pro는 Apollo 11 PDF 스크립트 전체에서 특정 인용구를 찾아 추론할 수 있습니다. [데모 목적으로 속도를 빠르게 한 동영상]

2) 코드 리포지토리 전체 쿼리

컨텍스트 창이 크기 때문에 코드베이스 전체를 심층 분석할 수도 있습니다. 이렇게 하면 Gemini 모델이 복잡한 관계와 패턴을 파악하고 코드를 이해하는 데 도움이 됩니다. 개발자는 컴퓨터나 Google 드라이브를 통해 새 코드베이스를 직접 업로드할 수 있고, 모델을 이용해 신속하게 온보딩하여 코드를 파악할 수 있습니다.

Gemini 1.5 Pro를 사용하면 개발자가 새 코드베이스를 학습할 때 생산성을 강화할 수 있습니다. [데모 목적으로 속도를 빠르게 한 동영상]

3) 전체 길이 동영상 추가

Gemini 1.5 Pro는 최대 1시간 길이의 동영상을 바탕으로 추론할 수도 있습니다. 동영상을 첨부하면 Google AI Studio가 이를 수천 개 프레임으로 나누며(오디오 없이), Gemini 모델이 멀티모달이기 때문에 사용자는 고도로 정교한 추론과 문제 해결 작업을 수행할 수 있습니다.

Gemini 1.5 Pro는 동영상 및 여타 시각적 입력 데이터 전반에 걸쳐 추론과 문제 해결 작업을 수행할 수 있습니다. [데모 목적으로 속도를 빠르게 한 동영상]

개발자가 Gemini 모델을 사용해 개발할 수 있는 더 다양한 방법

모델에 최신 혁신 요소를 도입하는 것 외에도, Google에서는 다음과 같이 Gemini를 사용해 더 간편하게 개발할 수 있도록 지원합니다.

  • 손쉬운 튜닝. 일련의 예시를 제공한 다음 Google AI Studio 내에서 몇 분 만에 구체적인 요구 사항에 따라 Gemini를 맞춤 설정할 수 있습니다. 이 기능은 앞으로 며칠 이내에 배포될 예정입니다. 
  • 새로운 개발자 환경. AI 기반의 최신 기능을 개발하기 위한 Gemini API를 Project IDX의 개발 작업공간 전반에서 신규 Firebase Extensions와 통합하거나 새로 출시된 Google AI Dart SDK와 통합할 수 있습니다. 
  • Gemini 1.0 Pro의 가격 인하. Google에서는 수많은 AI 작업에서 가격 대비 우수한 성능을 제공하는 1.0 Pro 모델도 업데이트할 예정입니다. 현재 안정 버전의 경우, 이전에 공지한 것과 비교해 텍스트 입력은 50%, 출력은 25% 가격이 인하되었습니다. AI Studio의 종량제 요금제도 곧 실시할 예정입니다.

지난 12월 이후 지금까지 크고 작은 여러 개발업체가 Gemini 모델을 사용해 개발해 왔으며, 드디어 Google AI Studio에서 첨단 연구 결과를 초창기 개발자 제품으로 내놓을 수 있어 기대가 큽니다. 이번 미리보기 버전의 경우 대규모 컨텍스트 창 기능이 아직 실험 단계여서 다소 지연이 발생할 것으로 예상되지만, Google에서는 모델을 계속해서 개선하고 여러분의 의견을 반영해 단계별 배포를 시작할 것입니다. 실험 기능을 유용하게 활용해 보시기 바랍니다.