말하기, 시각적 단서, 실시간 조정이 혼합되어 이루어지는 인간 대 인간의 의사소통은 자연스러운 멀티모달 활동입니다. Google은 Gemini용 Multimodal Live API를 사용하여 인간과 컴퓨터 간의 상호작용에서 이와 동일한 수준의 자연스러움을 달성했습니다. 텍스트, 오디오, 동영상을 원활하게 혼합하여, 시각적 입력을 사용하고 상황에 맞는 솔루션을 실시간으로 수신할 수 있어 더 친밀한 상호작용을 느끼게 해주는 AI 대화를 상상해 보세요. Gemini 2.0용 Multimodal Live API는 이러한 형식의 상호작용을 지원하며 Google AI Studio와 Gemini API에서 사용할 수 있습니다. 이 기술을 사용하면 실시간 데이터를 활용하여 전 세계에서 어떤 일이 일어나든 그 상황에 대응하는 애플리케이션을 개발할 수 있습니다.
Multimodal Live API는 WebSocket을 활용하여 지연 시간이 짧은 서버 간 통신을 용이하게 하는 스테이트풀 API입니다. 이 API는 함수 호출, 코드 실행, 검색 그라운딩, 단일 요청 내 여러 도구의 조합 등 다양한 도구를 지원하여 여러 프롬프트를 입력하지 않고도 종합적인 응답을 얻을 수 있도록 합니다. 이를 통해 개발자는 보다 효율적이고 복잡한 AI 상호작용을 생성할 수 있습니다.
Multimodal Live API의 주요 기능은 다음과 같습니다.
Multimodal Live API를 사용하면 다양한 실시간 대화형 애플리케이션을 구현할 수 있습니다. 다음은 이 API를 효과적으로 적용할 수 있는 몇 가지 사용 사례를 소개합니다.
이 새로운 기능을 탐색하고 나만의 탐색을 시작할 수 있도록, 실시간 스트리밍 기능을 보여주는 데모 애플리케이션을 많이 준비해 두었습니다.
스트리밍 마이크, 카메라 또는 화면 입력을 위한 스타터 웹 애플리케이션입니다. 여러분의 창의력 발휘를 위한 완벽한 기반이 되어줍니다.
Link to Youtube Video (visible only when JS is disabled)
전체 코드와 시작 가이드는 Github: https://github.com/google-gemini/multimodal-live-api-web-console에서 확인할 수 있습니다.
Gemini와 날씨에 대해 채팅해 보세요. 위치를 선택하면 Gemini에서 제공하는 캐릭터가 해당 지역의 날씨를 설명해 줍니다. 언제든지 중단하고 후속 질문을 할 수 있습니다.
Link to Youtube Video (visible only when JS is disabled)
본격적으로 시작할 준비가 되셨나요? Google AI Studio에서 직접 멀티모달 실시간 스트리밍으로 실험해 보세요. 또는 완전한 제어를 위해 자세한 설명서와 코드 샘플을 구해 오늘 바로 이 API로 개발을 시작해 보세요.
또한 Daily와도 협력하여 pipecat 프레임워크를 통해 원활한 통합을 제공함으로써, 앱에 실시간 기능을 손쉽게 추가할 수 있습니다. pipecat 프레임워크를 개발한 Daily.co는 개발자가 웹사이트와 앱에 실시간 동영상 및 오디오 스트리밍을 쉽게 추가할 수 있게 해주는 동영상 및 오디오 API 플랫폼입니다. Daily의 통합 가이드를 확인하여 개발을 시작해 보세요.
개발자 여러분이 만들어 낼 결과물이 정말 기대됩니다. 새로운 API로 개발한 놀라운 애플리케이션 및 여러분의 의견을 공유해 주세요!