개발자를 위한 Gemini 시대의 다음 장

12월 11, 2024
Shrestha Basu Mallick Group Product Manager Gemini API
Kathy Korevec Director of Product Google Labs

Google은 최첨단 모델, 더 빠른 코드 작성을 위한 지능형 도구, 다양한 플랫폼과 기기의 원활한 통합 등을 통해 AI의 미래를 만들어가는 힘을 개발자에게 드리고 있습니다. 작년 12월 Gemini 1.0 출시 이후 수백만 명의 개발자가 Google AI StudioVertex AI를 사용하여 109개 언어에서 Gemini로 개발했습니다.

오늘 저희는 Gemini 2.0 Flash Experimental을 발표합니다. 이를 통해 훨씬 더 몰입감 있는 대화형 애플리케이션뿐 아니라 개발자 대신 적절한 조치를 취하여 워크플로를 향상시키는 새로운 코딩 에이전트도 지원합니다.


Gemini 2.0 Flash를 사용한 개발

Gemini 1.5 Flash의 성공을 바탕으로 개발된 Flash 2.0은 1.5 Pro보다 속도는 두 배 더 빠른 동시에 성능은 더 강력합니다. 그뿐만 아니라 새로운 멀티모달 출력을 포함하며 네이티브 도구 사용과 함께 제공됩니다. 또한 실시간 오디오 및 동영상 스트리밍으로 동적 애플리케이션을 개발하기 위한 Multimodal Live API도 출시됩니다.

오늘부터 개발자는 실험 단계에서 Google AI StudioVertex AIGemini API를 통해 Gemini 2.0 Flash를 테스트하고 탐색할 수 있습니다. Gemini 2.0 Flash는 내년 초에 정식 출시될 예정입니다.

개발자는 Gemini 2.0 Flash를 사용해 다음을 이용할 수 있습니다.

1. 향상된 성능

Gemini 2.0 Flash는 1.5 Pro보다 강력하면서도 개발자가 Flash에서 기대하는 속도와 효율성을 제공합니다. 또한 주요 업계 기준치에서 향상된 멀티모달, 텍스트, 코드, 동영상, 공간적 이해 및 추론 성능을 제공합니다. 향상된 공간적 이해를 통해 복잡한 이미지에 있는 작은 객체에서 보다 정확한 경계 상자를 생성하고 객체 식별 및 캡션 생성을 향상시킬 수 있습니다. 공간적 이해 동영상에서 자세히 알아보거나 Gemini API 문서를 읽어보세요.

Link to Youtube Video (visible only when JS is disabled)

2. 새로운 출력 형식

개발자는 Gemini 2.0 Flash를 사용하여 텍스트, 오디오, 이미지를 포함할 수 있는 통합 응답을 생성할 수 있으며 이 모든 것은 단일 API 호출을 통해 가능합니다. 이러한 새로운 출력 형식은 초기 테스트 참여자가 이용 가능하며, 내년에는 더 폭넓게 이용할 수 있을 것으로 기대합니다. 모든 이미지 및 오디오 출력에서 육안으로는 볼 수 없는 SynthID 워터마크가 활성화되어 잘못된 정보 및 오귀인에 대한 우려를 줄이는 데 도움이 됩니다.

  • 다국어 네이티브 오디오 출력: Gemini 2.0 Flash는 네이티브 텍스트 음성 변환 오디오 출력 기능이 있습니다. 덕분에 개발자는 모델이 말하는 대상뿐 아니라 모델이 말하는 방식을 세밀하게 제어할 수 있으며, 8가지 고음질의 음성과 다양한 언어 및 악센트 중에서 선택할 수 있습니다. 실제로 구현된 네이티브 오디오 출력을 듣거나 개발자 문서에서 자세한 내용을 읽어보세요.

  • 네이티브 이미지 출력: Gemini 2.0 Flash는 이제 기본적으로 이미지를 생성하고 대화식 멀티 턴 편집을 지원하므로, 이전 출력 결과를 기반으로 만들고 미세 조정할 수 있습니다. Gemini 2.0 Flash는 인터리빙된 텍스트와 이미지를 출력할 수 있어 레시피 같은 멀티모달 콘텐츠에 유용합니다. 네이티브 이미지 출력 동영상에서 자세한 내용을 확인하세요.

Link to Youtube Video (visible only when JS is disabled)

3. 네이티브 도구 사용

Gemini 2.0은 도구를 사용하도록 학습해 왔습니다. 이는 에이전트 경험 개발을 위한 기본적 기능입니다. 사용자 설정 타사 함수 외에도 Google 검색 및 코드 실행 같은 도구를 함수 호출을 통해 기본적으로 호출할 수 있습니다. Google 검색을 기본 도구로 사용하면 더 종합적이고 사실에 기반한 답변을 얻을 수 있으며 게시자에 대한 트래픽이 증가합니다. 여러 번의 검색을 병렬로 실행하면 여러 소스에서 관련성 있는 사실을 동시에 더 많이 찾고 이를 통합해 정확성을 개선함으로써 정보 검색의 질을 더 향상시킬 수 있습니다. 네이티브 도구 사용 동영상에서 자세히 알아보거나 노트북에서 개발을 시작해 보세요.

Link to Youtube Video (visible only when JS is disabled)

4. Multimodal Live API

이제 개발자는 카메라나 화면에서 오디오 및 동영상 스트리밍 입력으로 실시간 멀티모달 애플리케이션을 개발할 수 있습니다. 중단 및 음성 활동 감지 같은 자연스러운 대화 패턴이 지원됩니다. 이 API는 단일 API 호출로 복잡한 사용 사례를 달성하기 위해 여러 도구를 함께 통합할 수 있도록 지원합니다. 멀티모달 실시간 스트리밍 동영상에서 더 자세한 내용을 시청하거나 웹 콘솔 또는 스타터 코드(Python)를 사용해 보세요.

Link to Youtube Video (visible only when JS is disabled)

tldraw의 비주얼 놀이터, Viggle의 가상 캐릭터 생성 및 오디오 내레이션, Toonsutra의 상황에 맞는 다국어 번역, Rooms의 실시간 오디오 추가 등 Gemini 2.0 Flash를 사용해 새로운 경험의 프로토타입을 제작하는 놀라운 발전을 이룬 스타트업의 등장이 정말 기쁩니다.

Gemini 2.0 Flash로 개발을 시작할 수 있도록 공간적 이해, 동영상 분석 및 Google 지도 탐색을 위한 오픈소스 코드와 함께 Google AI Studio에서 3가지 스타터 앱 경험을 공개했습니다.


AI 코드 지원의 진화 활성화

AI 코드 지원이 단순한 코드 검색에서 개발자 워크플로에 포함된 AI 기반 어시스턴트로 빠르게 진화함에 따라, Gemini 2.0을 사용한 최신 기술을 여러분과 공유하고자 합니다. 바로 개발자를 대신해 작업을 실행할 수 있는 코딩 에이전트입니다.

저희가 최근 수행한 연구에서 코드 실행 도구가 탑재된 2.0 Flash를 사용해 실제 소프트웨어 엔지니어링 작업에 대한 에이전트 성능을 테스트하는 SWE-bench Verified에서 51.8%를 달성할 수 있었습니다. 2.0 Flash의 최첨단 추론 속도 덕분에 이 에이전트는 수백 가지의 잠재적 솔루션을 샘플링하여 기존 단위 테스트와 Gemini의 자체 판단에 따라 최상의 솔루션을 선택할 수 있었습니다. 저희는 이 연구를 새로운 개발자 제품으로 전환하는 과정에 있습니다.


AI 기반 코드 에이전트 Jules를 만나보세요

팀이 방금 버그 배시를 마쳤고 여러분은 긴 버그 목록을 보고 있다고 상상해 보세요. 오늘부터는 Gemini 2.0을 사용하게 될 시험용 AI 기반 코드 에이전트인 Jules로 Python 및 Javascript 코딩 작업을 오프로드할 수 있습니다. Jules는 GitHub 워크플로와 통합되어 비동기적으로 작업하면서 버그 수정 작업과 그 밖의 시간이 많이 걸리는 작업을 처리해 줍니다. 그동안 개발자는 개발하려는 대상에 집중할 수 있습니다. Jules는 문제 해결을 위한 종합적인 다단계 계획을 수립하고, 여러 파일을 효율적으로 수정하며, 수정 사항을 GitHub에 직접 전달하기 위해 pull 요청을 준비합니다.

초기 단계이지만, 내부적으로 Jules를 사용해 본 경험에 비추어 볼 때, Jules는 개발자에게 다음과 같은 이점을 제공합니다.

  • 생산성 향상. 비동기 코딩 효율성을 위해 Jules에 문제와 코딩 작업을 할당하세요.

  • 진행 상태 추적. 실시간 업데이트를 통해 늘 최신 정보를 파악하고 주의를 기울여야 하는 작업의 우선순위를 정하세요.

  • 완벽한 개발자 제어: 그 과정에서 Jules가 작성한 계획을 검토하고, 적합하다고 판단할 경우 의견을 제시하거나 조정을 요청하세요. Jules가 작성한 코드를 손쉽게 검토하고 적절한 경우 프로젝트에 병합할 수도 있습니다.

현재 신뢰할 수 있는 엄선된 테스터 그룹에 Jules를 테스트용으로 제공하고 있으며, 2025년 초에는 관심 있는 다른 개발자에게도 제공할 예정입니다. labs.google.com/jules에서 가입하여 Jules에 대한 업데이트를 받아보세요.


Colab의 Data Science Agent가 노트북을 만들어 드립니다

올해 I/O에서는 labs.google/code를 통해 누구나 몇 분 만에 데이터 세트를 업로드하고 유용한 정보를 얻을 수 있는 시험용 Data Science Agent를 출시했습니다. 이 모든 작업이 작동하는 Colab 노트북에 기반을 두고 있습니다. 개발자 커뮤니티로부터 긍정적인 피드백을 받고 그 영향력을 확인하게 되어 기뻤습니다. 예를 들어, 미국 로렌스 버클리 국립연구소의 한 과학자는 전 세계 열대 습지의 메탄 배출과 관련된 프로젝트를 진행하면서 Data Science Agent의 도움 덕분에 1주일은 족히 걸리던 분석 및 처리 시간을 단 5분으로 단축한 것으로 추산했습니다.

Colab은 Gemini 2.0을 사용하여 이 동일한 에이전트 기능을 통합하기 시작했습니다. 분석 목표를 자연어로 간단히 설명하고 노트북이 자동으로 모양을 갖추는 걸 지켜보기만 하면 되므로 연구 및 데이터 분석 수행 능력이 크게 향상됩니다. 개발자는 신뢰할 수 있는 테스터 프로그램에 가입하여 이처럼 새로운 기능을 사전 체험해 볼 수 있습니다. 그 후 2025년 상반기에 Colab 사용자를 대상으로 폭을 더 넓혀 출시될 예정입니다.

미래를 만들어가는 개발자

Gemini 2.0 모델을 사용해 더 많은 기능을 갖춘 AI 앱을 더 빠르고 쉽게 개발할 수 있으므로 개발자는 사용자를 위한 훌륭한 경험 개발에 집중할 수 있습니다. 앞으로 몇 달 안에 Android Studio, Chrome DevTools, Firebase 등의 Google 플랫폼에 Gemini 2.0을 도입할 예정입니다. 개발자는 Gemini Code Assist에서 가입하여 Gemini 2.0 Flash를 사용해 Visual Studio Code, IntelliJ, PyCharm 등 널리 사용되는 IDE에서 향상된 코딩 지원 기능을 경험할 수 있습니다. ai.google.dev를 방문해서 시작하고, Google AI for Developers를 팔로우하여 향후 업데이트를 확인하세요.