Gemini 1.5 Flash-8B, 프로덕션 환경에서 사용할 준비 완료

2024년 10월 3일

Logan Kilpatrick Group Product Manager

Shrestha Basu Mallick Product Google DeepMind

현재, Google의 최신 Flash 버전인 Gemini 1.5 Flash-8B가 프로덕션 환경에서 사용할 준비가 완료되어 다음의 성능으로 제공됩니다.

50% 더 낮은 가격 (1.5 Flash 대비)

2배 더 높은 속도 제한 (1.5 Flash 대비)

작은 프롬프트에서 더 짧은 지연 시간 (1.5 Flash 대비)

개발자는 Google AI Studio와 Gemini API를 통해 gemini-1.5-flash-8b에 무료로 액세스할 수 있습니다.

더 작고 빠른 경량 모델

저희는 I/O에서 속도와 효율성에 최적화된 경량 모델인 Gemini 1.5 Flash를 발표했습니다. 지난 몇 개월 동안 Google DeepMind는 개발자 피드백과 가능성의 한계를 테스트한 결과를 바탕으로 1.5 Flash를 더욱 향상시키는 데 상당한 진전을 이루었습니다.

지난달에는 1.5 Flash의 더 작고 빠른 버전인 Gemini 1.5 Flash-8B의 시험용 버전을 출시했습니다. 이제 이 모델을 프로덕션 환경에서 사용할 수 있도록 정식 출시하게 되어 기쁩니다. Flash-8B는 많은 벤치마크에서 5월에 출시된 1.5 Flash 모델의 성능에 거의 필적하며 특히 채팅, 스크립트 작성, 긴 문맥 언어 번역과 같은 작업에서 뛰어난 성능을 발휘합니다.

저희가 출시하는 동급 최고의 소규모 모델에는 개발자 의견과 이러한 모델로 무엇을 구현할 수 있는지 자체적으로 테스트한 결과가 지속적으로 반영됩니다. 대량의 멀티모달 사용 사례부터 긴 문맥의 요약까지, 이 모델은 다양한 작업에서 최고의 잠재력을 발휘할 것으로 보입니다.

Performance chart of the 1.5 Flash model launched in May across many benchmark

모든 Gemini 모델의 인텔리전스당 최저 비용

Gemini 1.5 Flash-8B의 안정적 릴리스를 통해 Gemini 모델의 인텔리전스당 최저 비용을 발표합니다.

토큰 길이가 128K 미만인 프롬프트에 대해 입력 토큰 1백만 개당 0.0375달러

토큰 길이가 128K 미만인 프롬프트에 대해 출력 토큰 1백만 개당 0.15달러

토큰 길이가 128K 미만인 캐시된 프롬프트에 대해 토큰 1백만 개당 0.01달러

유료 등급의 개발자에게는 10월 14일 월요일부터 요금이 청구됩니다.

1.5 Flash 및 1.5 Pro로 개발자 비용 절감을 위해 이미 수행된 작업에 더해 이 새로운 가격은 개발자가 더 발전된 세상을 만들기 위한 제품과 서비스를 자유롭게 개발할 수 있도록 하겠다는 저희 약속의 징표입니다.

A pricing table for the Gemini 1.5 Flash model, outlining the cost per one million tokens for input and output

Flash-8B에 대해 2배 더 높은 속도 제한

Gemini 1.5 Flash-8B는 단순하고 양이 많은 작업에 가장 적합합니다. 이 모델을 최대한 유용하게 사용할 수 있도록 1.5 Flash-8B 속도 제한을 두 배로 늘릴 예정입니다. 이는 개발자가 최대 4,000 RPM(분당 요청 수)으로 요청을 보낼 수 있다는 의미입니다.

즐겁게 개발하시고 더 많은 최신 정보를 원하시면 계속 지켜봐 주세요.

게시 위치: