오늘은 Gemini 2.5 모델 제품군 전반에 대한 업데이트를 공유해 드리고자 합니다.
Gemini 2.5 모델은 사고 모델로, 응답하기 전에 생각을 통해 추론할 수 있어 성능과 정확성이 향상됩니다. 각 모델은 사고 예산을 자체 제어할 수 있으므로 개발자는 모델이 응답 생성 전에 '사고'하는 시기와 정도를 선택할 수 있습니다.
오늘 2.5 모델 제품군에서 최저 지연 시간과 최저 비용을 자랑하는 2.5 Flash-Lite를 미리보기로 선보입니다. 2.5 Flash-Lite는 이전의 1.5 및 2.0 Flash 모델을 더 비용 효율적으로 업그레이드해 설계되었습니다. 또한 대부분의 평가에서 더 나은 성능을 제공할 뿐만 아니라 첫 번째 토큰까지 지연 시간이 짧고 초당 디코딩 토큰 수도 향상되었습니다. 이 모델은 대규모 분류 또는 요약처럼 처리량이 많은 작업에 매우 적합합니다.
Gemini 2.5 Flash-Lite는 API 매개변수로 사고 예산을 동적으로 제어할 수 있는 추론 모델입니다. Flash-Lite는 비용과 속도에 최적화되어 있으므로 Google의 다른 모델과 달리 '사고' 기능이 기본적으로 해제되어 있습니다. 2.5 Flash-Lite는 함수 호출 외에도 Google 검색으로 그라운딩, 코드 실행, URL 컨텍스트 같은 Google의 모든 네이티브 도구를 지원합니다.
지난 한 해 동안 저희 연구팀은 Flash 모델 시리즈로 파레토 프런티어를 꾸준히 확장해 왔습니다. 2.5 Flash를 처음 발표하던 당시, 아직 2.5 Flash-Lite의 기능을 확정하지 못한 상태였습니다. 또한 '사고' 모델과 '비사고' 모델에 대한 가격을 달리 책정해 출시하는 바람에 개발자의 혼란을 초래하기도 했습니다.
Gemini 2.5 Flash의 안정화 버전(Google I/O에서 제공했던 05-20 모델 미리보기와 동일한 버전)과 2.5 Flash의 놀라운 성능과 더불어, 2.5 Flash의 가격을 다음과 같이 업데이트할 예정입니다.
혼란을 최소화하기 위해 미리보기 버전과 안정화 버전 간의 가격을 일관되게 유지하려 노력하는 한편, 이번 조정은 Flash의 탁월한 가치를 반영한 조치로서 여전히 인텔리전스당 가장 우수한 비용 효율성을 제공합니다.
또한 Gemini 2.5 Flash-Lite를 사용하면 비용 및 지연 시간에 민감하지만 모델 인텔리전스가 더 적게 필요한 사용 사례를 위한 (사고 여부와 관계없이) 훨씬 더 저렴한 옵션도 제공합니다.
Gemini 2.5 Flash Preview 04-17을 사용하는 경우, 기존 미리보기 가격은 2025년 7월 15일에 예정된 지원 중단 시점까지 유효하고 그 시점이 되면 해당 모델 엔드포인트가 지원 중단됩니다. 정식 버전으로 출시된 모델인 'gemini-2.5-flash'로 전환하거나 더 저렴한 비용으로 제공되는 2.5 Flash-Lite Preview로 전환할 수 있습니다.
Gemini 2.5 Pro에 대한 성장과 수요는 지금까지 본 어떤 모델보다도 가장 가파르게 증가하고 있습니다. 더 많은 고객이 프로덕션 환경에서 이 모델을 기반으로 개발할 수 있도록 이전과 동일한 파레토 프런티어 가격대로 06-05 버전의 모델을 안정화 버전으로 만들고 있습니다.
코딩이나 에이전트 작업처럼 최고의 인텔리전스와 매우 다양한 기능이 필요한 경우에 Gemini 2.5 Pro가 빛을 발할 것으로 기대합니다. Gemini 2.5 Pro는 가장 큰 사랑을 받는 여러 개발자 도구의 핵심입니다.
2.5 Pro Preview 05-06을 사용하는 경우, 해당 모델은 2025년 6월 19일까지 사용 가능하며 이후로는 지원이 중단됩니다. 2.5 Pro Preview 06-05를 사용하는 경우, 모델 문자열을 'gemini-2.5-pro'로 업데이트하면 됩니다.
훨씬 더 많은 분야에서 2.5 Pro의 인텔리전스가 도움이 되는 모습을 어서 빨리 보고 싶습니다. 또한 가까운 시일 내에 2.5 Pro를 넘는 확장에 대해 더 많은 정보를 공유할 수 있기를 기대합니다.