Gemini 2.0: 실시간 멀티모달 상호작용으로 앱 레벨 업

2024년 12월 23일

Ivan Solovyev Product Manager

말하기, 시각적 단서, 실시간 조정이 혼합되어 이루어지는 인간 대 인간의 의사소통은 자연스러운 멀티모달 활동입니다. Google은 Gemini용 Multimodal Live API를 사용하여 인간과 컴퓨터 간의 상호작용에서 이와 동일한 수준의 자연스러움을 달성했습니다. 텍스트, 오디오, 동영상을 원활하게 혼합하여, 시각적 입력을 사용하고 상황에 맞는 솔루션을 실시간으로 수신할 수 있어 더 친밀한 상호작용을 느끼게 해주는 AI 대화를 상상해 보세요. Gemini 2.0용 Multimodal Live API는 이러한 형식의 상호작용을 지원하며 Google AI Studio와 Gemini API에서 사용할 수 있습니다. 이 기술을 사용하면 실시간 데이터를 활용하여 전 세계에서 어떤 일이 일어나든 그 상황에 대응하는 애플리케이션을 개발할 수 있습니다.

작동 방식

Multimodal Live API는 WebSocket을 활용하여 지연 시간이 짧은 서버 간 통신을 용이하게 하는 스테이트풀 API입니다. 이 API는 함수 호출, 코드 실행, 검색 그라운딩, 단일 요청 내 여러 도구의 조합 등 다양한 도구를 지원하여 여러 프롬프트를 입력하지 않고도 종합적인 응답을 얻을 수 있도록 합니다. 이를 통해 개발자는 보다 효율적이고 복잡한 AI 상호작용을 생성할 수 있습니다.

Multimodal Live API의 주요 기능은 다음과 같습니다.

양방향 스트리밍: 텍스트, 오디오, 동영상 데이터를 동시에 송수신할 수 있습니다.

1초 미만의 지연 시간: 인간이 원활한 응답에 대해 가진 기대치에 반응 시간이 부합하도록 600밀리초 만에 첫 번째 토큰을 출력합니다.

자연스러운 음성 대화: 대화 중단과 음성 활동 감지 같은 기능을 비롯해 AI와 보다 자연스럽게 대화할 수 있도록 사람 목소리와 비슷한 음성 상호작용을 지원합니다.

동영상 이해: 동영상 입력을 처리하고 이해하는 기능을 제공하여 모델이 오디오 및 동영상 컨텍스트를 모두 결합하여 보다 정보에 입각한 내용으로 미묘한 뉘앙스까지 고려하여 응답할 수 있도록 합니다. 이처럼 맥락을 고려하여 인식하는 능력은 한층 더 풍부한 상호작용을 가능하게 합니다.

도구 통합: 단일 API 호출 내에서 여러 도구를 통합하여 API의 기능을 확장하고 사용자를 대신하여 복잡한 작업을 해결할 수 있도록 지원합니다.

조절 가능한 목소리: 다양한 감정을 전달할 수 있는 높은 수준의 표현력을 갖춘 5가지의 서로 다른 목소리 중에서 선택할 수 있습니다. 이를 통해 보다 개인화되고 매력적인 사용자 경험을 제공할 수 있습니다.

멀티모달 실시간 스트리밍의 실제 작동

Multimodal Live API를 사용하면 다양한 실시간 대화형 애플리케이션을 구현할 수 있습니다. 다음은 이 API를 효과적으로 적용할 수 있는 몇 가지 사용 사례를 소개합니다.

실시간 가상 어시스턴트: 화면을 관찰하고 실시간으로 맞춤형 조언을 제공하는 어시스턴트가 여러분이 찾고 있는 정보를 발견할 수 있는 곳을 알려주거나 여러분을 대신해 여러 작업을 실행해 준다고 상상해 보세요.

적응형 교육 도구: Multimodal Live API는 학생의 학습 속도에 맞춰 조정할 수 있는 교육 애플리케이션의 개발을 지원합니다. 예를 들어, 언어 학습 앱은 학생의 실시간 발음과 이해도에 따라 연습 난이도를 조정할 수 있습니다.

이 새로운 기능을 탐색하고 나만의 탐색을 시작할 수 있도록, 실시간 스트리밍 기능을 보여주는 데모 애플리케이션을 많이 준비해 두었습니다.

스트리밍 마이크, 카메라 또는 화면 입력을 위한 스타터 웹 애플리케이션입니다. 여러분의 창의력 발휘를 위한 완벽한 기반이 되어줍니다.

Link to Youtube Video (visible only when JS is disabled)

전체 코드와 시작 가이드는 Github: https://github.com/google-gemini/multimodal-live-api-web-console에서 확인할 수 있습니다.

Gemini와 날씨에 대해 채팅해 보세요. 위치를 선택하면 Gemini에서 제공하는 캐릭터가 해당 지역의 날씨를 설명해 줍니다. 언제든지 중단하고 후속 질문을 할 수 있습니다.

Link to Youtube Video (visible only when JS is disabled)

Multimodal Live API 시작하기

본격적으로 시작할 준비가 되셨나요? Google AI Studio에서 직접 멀티모달 실시간 스트리밍으로 실험해 보세요. 또는 완전한 제어를 위해 자세한 설명서와 코드 샘플을 구해 오늘 바로 이 API로 개발을 시작해 보세요.

또한 Daily와도 협력하여 pipecat 프레임워크를 통해 원활한 통합을 제공함으로써, 앱에 실시간 기능을 손쉽게 추가할 수 있습니다. pipecat 프레임워크를 개발한 Daily.co는 개발자가 웹사이트와 앱에 실시간 동영상 및 오디오 스트리밍을 쉽게 추가할 수 있게 해주는 동영상 및 오디오 API 플랫폼입니다. Daily의 통합 가이드를 확인하여 개발을 시작해 보세요.

개발자 여러분이 만들어 낼 결과물이 정말 기대됩니다. 새로운 API로 개발한 놀라운 애플리케이션 및 여러분의 의견을 공유해 주세요!

게시 위치: