Gemini API I/O 업데이트

2025년 5월 23일

Shrestha Basu Mallick Group Product Manager

Logan Kilpatrick Group Product Manager

Alisa Fortin Product Manager

Ivan Solovyev Product Manager

Gemini API는 개발자에게 최첨단 생성형 AI 모델을 통해 혁신적인 애플리케이션을 개발할 수 있는 간결한 방법을 제공합니다. 모든 API 기능을 테스트하는 이런 프로세스를 Google AI Studio가 간소화하고 이를 통해 텍스트, 이미지, 동영상 프롬프트로 신속하게 프로토타입을 만들고 실험할 수 있습니다. 대규모로 테스트하고 개발하고자 할 때 Gemini API를 통해 제공되는 모든 기능을 활용할 수 있습니다.

API를 통해 제공되는 새로운 모델

Gemini 2.5 Flash Preview - 추론, 코드, 긴 컨텍스트에서 이전 미리보기보다 더 향상된 새로운 2.5 Flash 미리보기(gemini-2.5-flash-preview-05-20)를 추가했습니다. 이 2.5 Flash 버전은 현재 LMarena 리더보드에서 2.5 Pro에 이어 2위에 올라 있습니다. 또한 이번 최신 업데이트에서는 Flash 비용 효율성을 개선하여 동일한 성능에 필요한 토큰 수를 줄였으며, 그 결과 Google의 평가에서 효율성이 22% 향상되었습니다. 저희의 목표는 개발자 여러분의 의견을 바탕으로 꾸준한 개선을 거쳐 곧 두 모델을 정식 출시하는 것입니다.

Gemini 2.5 Pro 및 Flash 텍스트 음성 변환(TTS) - 저희는 24개 언어에 걸쳐 단일 및 다중 화자 모두에 대해 네이티브 오디오 출력을 지원하는 텍스트 음성 변환(TTS)용 2.5 Pro 및 Flash 미리보기도 발표했습니다. 이러한 모델을 사용하면 TTS 표현과 스타일을 제어하여 풍부한 오디오 출력을 만들 수 있습니다. 다중 화자 기능을 사용해 서로 다른 특색을 지닌 여러 음성으로 대화를 생성함으로써 역동적인 상호작용을 구현할 수 있습니다.

Gemini 2.5 Flash 네이티브 오디오 대화 - 미리보기 버전의 이 모델을 사용하면 Live API를 통해 30여 가지 고유한 음성과 24개 이상의 언어로 자연스러운 대화 음성을 생성할 수 있습니다. 이 모델이 화자와 배경 대화를 구분하여 언제 응답해야 할지 알 수 있도록, 능동적으로 작동하는 오디오 기능도 추가했습니다. 또한 이 모델은 사용자의 감정 표현과 어조에 맞춰 적절히 반응합니다. 별도의 사고 모델은 더 복잡한 쿼리에 대응할 수 있도록 지원합니다. 이를 통해 콜센터 상호작용을 개선하거나, 역동적인 페르소나를 개발하거나, 독창적인 음성 캐릭터를 만드는 등 더 직관적이고 자연스러운 대화형 AI 에이전트와 경험을 개발할 수 있게 되었습니다.

Lyria RealTime - 이제 Gemini API 및 Google AI Studio에서 라이브 음악 생성 기능을 사용할 수 있습니다. 텍스트 프롬프트를 사용하여 연속 재생되는 연주곡 스트림을 만들 수 있습니다. Lyria RealTime에서 WebSocket을 사용하여 지속적인 실시간 통신 채널을 구축합니다. 이 모델은 작고 자연스럽게 이어지는 청크로 음악을 계속해서 생성하고, 입력에 따라 유동적으로 반응합니다. 앱에 반응형 사운드트랙을 추가하거나 새로운 유형의 악기를 디자인하는 것을 상상해 보세요! Google AI Studio의 PromptDJ-MIDI 앱으로 Lyria RealTime을 사용해 보세요.

Gemini 2.5 Pro Deep Think - 2.5 Pro를 위한 실험적인 추론 모드도 테스트 중입니다. 매우 복잡한 수학 및 코딩 프롬프트에 대해 이런 Deep Thinking 기능이 발휘하는 놀라운 성능을 확인했습니다. 조만간 개발자 여러분도 실험해 보실 수 있도록 이 기능을 광범위하게 제공해 드릴 수 있기를 기대합니다.

Gemma 3n - Gemma 3n은 스마트폰, 노트북, 태블릿과 같은 일상적인 기기에 사용하기에 최적화된 생성형 AI 개방형 모델입니다. 이 모델은 텍스트, 오디오 및 비전 입력 데이터를 처리할 수 있습니다. 이 모델에는 PLE(Per-Layer Embedding) 매개변수 캐싱과 유연하게 컴퓨팅 및 메모리 요구 사항을 줄일 수 있는 MatFormer 모델 아키텍처 등 매개변수 효율적 처리 방식에 있어 혁신적인 기술이 적용되었습니다.

API의 새로운 기능

사고 요약

개발자가 모델 응답을 이해하고 디버그하는 데 도움이 되도록, Gemini API에 2.5 Pro 및 Flash를 위한 사고 요약 기능을 추가했습니다. 저희는 모델의 원시 사고를 수집하여 이를 헤더, 관련 세부 정보, 도구 호출이 포함된 유용한 요약 정보로 종합합니다. Google AI Studio의 원시 사고 사슬도 새로운 사고 요약과 함께 업데이트되었습니다.

사고 예산

저희는 개발자가 개발 중인 앱의 성능, 지연 시간, 비용의 균형을 맞추기 위해 모델이 얼마나 많이 사고해야 할지 제어할 수 있도록 사고 예산 기능이 있는 2.5 Flash를 출시했습니다. 이 기능은 2.5 Pro에도 곧 확장 적용될 예정입니다.

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GOOGLE_API_KEY")
prompt = "What is the sum of the first 50 prime numbers?"
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-05-20",
  contents=prompt,
  config=types.GenerateContentConfig(
    thinking_config=types.ThinkingConfig(thinking_budget=1024,
      include_thoughts=True
    )
  )
)
 
for part in response.candidates[0].content.parts:
  if not part.text:
    continue
  if part.thought:
    print("Thought summary:")
    print(part.text)
    print()
  else:
    print("Answer:")
    print(part.text)
    print()

Python

스트리밍 없이 사고 요약 기능을 활성화하고 불러와서 응답과 함께 최종 사고 요약을 반환하는 샘플 코드.

새로운 URL 컨텍스트 도구

저희는 개발자가 제공하는 링크에서 더 많은 컨텍스트를 검색하고자 새로운 실험용 도구인 URL 컨텍스트를 추가했습니다. 이 도구를 단독으로 사용하거나 Google 검색으로 그라운딩같은 다른 도구와 함께 사용할 수 있습니다. 이 도구는 Gemini API를 활용해 자체적인 리서치 에이전트를 개발하려는 개발자를 위한 핵심 구성 요소입니다.

from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch
 
client = genai.Client()
model_id = "gemini-2.5-flash-preview-05-20"
 
tools = []
tools.append(Tool(url_context=types.UrlContext))
tools.append(Tool(google_search=types.GoogleSearch))
 
response = client.models.generate_content(
    model=model_id,
    contents="Give me three day events schedule based on YOUR_URL. Also let me know what needs to taken care of considering weather and commute.",
    config=GenerateContentConfig(
        tools=tools,
        response_modalities=["TEXT"],
    )
)
 
for each in response.candidates[0].content.parts:
    print(each.text)
# get URLs retrieved for context
print(response.candidates[0].url_context_metadata)

Python

Google 검색으로 그라운딩 및 URL 컨텍스트의 샘플 코드

컴퓨터 사용 도구

새로운 컴퓨터 사용 도구를 통해 Project Mariner의 브라우저 제어 기능을 Gemini API에 도입합니다. 개발자가 이 도구를 더욱 수월하게 사용할 수 있도록, Google AI Studio에서 원클릭으로 브라우저 제어 에이전트를 실행할 수 있게 최적화된 Cloud Run 인스턴스 생성을 지원할 예정입니다. Automation Anywhere, UiPath, Browserbase와 같은 회사와 함께 초기 테스트를 시작했습니다. 이들 파트너사의 소중한 피드백은 올여름에 공개 예정인 더 광범위한 개발자용 실험 버전에 탑재될 기능을 개선하는 데 큰 도움이 될 것입니다.

구조화된 출력 개선 사항

Gemini API는 이제 JSON 스키마를 더욱 폭넓게 지원하며, 여기에는 '$ref'(참조)와 같이 요청이 많은 키워드 및 튜플과 같은 구조(예: prefixItems)를 정의할 수 있게 해주는 키워드 등이 포함됩니다.

동영상 이해 기능 개선 사항

이제 Gemini API를 사용해 YouTube 동영상 URL 또는 동영상 업로드를 프롬프트에 추가할 수 있게 됩니다. 덕분에 사용자는 동영상 콘텐츠를 요약, 번역 또는 분석할 수 있습니다. 이번 최신 업데이트를 통해 Gemini API는 동영상 클리핑을 지원하므로, 유연하게 동영상의 특정 부분만 따로 떼어 분석할 수 있습니다. 이는 8시간 이상의 긴 동영상에 특히 유용합니다. 또한 다이내믹한 초당 프레임 수(FPS)에 대한 지원도 추가하여 게임이나 스포츠처럼 속도가 중요한 동영상에는 60FPS를, 속도가 덜 중요한 동영상에는 0.1FPS를 지원합니다. 사용자의 토큰을 절약할 수 있도록 고해상도(720p), 표준 해상도(480p), 저해상도(360p)의 3가지 동영상 해상도에 대한 지원도 도입했습니다.

비동기 함수 호출

이제 Live API의 계단식 아키텍처는 비동기 함수 호출을 지원하여 사용자와의 대화가 중단되지 않고 원활하게 이어지도록 보장합니다. 즉, Live 에이전트가 함수 정의에 동작 필드를 추가하고 NON-BLOCKING으로 설정하기만 하면 백그라운드에서 기능을 실행하는 동안에도 계속 응답을 생성할 수 있습니다. 이에 대한 자세한 내용은 Gemini API 개발자 문서를 확인하세요.

배치 API

또한 요청을 손쉽게 일괄 처리하고 최대 24시간 내에 반환할 수 있는 새로운 API도 테스트 중입니다. 이 API는 대화형 API의 절반 가격에 제공되며 요청 한도도 훨씬 더 높습니다. 올여름 후반기에 더 광범위한 출시를 목표로 하고 있습니다.

개발을 시작해 보세요

올해 I/O의 하이라이트를 요약해 드렸습니다. 자연스럽게 들리는 오디오 기능을 갖춘 대화형 AI 에이전트 개발이든, 코드를 분석하고 생성하는 도구 개발이든, Gemini API와 Google AI Studio를 사용하면 멋진 아이디어를 현실로 만들 수 있습니다. 언제나처럼, Gemini API 개발자 문서에서 모든 최신 코드 샘플 등 자세한 내용을 확인해 보세요.

이 공지와 모든 Google I/O 2025 업데이트는 io.google에서 확인하실 수 있습니다.