Gemini 2.5를 통해 동영상 이해의 한계를 넓히기

2025년 5월 9일
Anirudh Baddepudi Product Manager
Antoine Yang Research Scientist
Mario Lučić Research Scientist

저희는 최근 Gemini 2.5 Pro Preview(05/06)Gemini 2.5 Flash(04/17) 등, Gemini 제품군의 새로운 모델 두 가지를 출시했습니다. 이러한 모델은 동영상 이해에서 커다란 도약을 이루었습니다. Gemini 2.5 Pro는 비슷한 테스트 조건(동일한 프롬프트 및 동영상 프레임)에서 GPT 4.1과 같은 최신 모델을 능가하며 주요 동영상 이해 벤치마크에서 최첨단 성능을 달성했습니다.

또한 일부 까다로운 벤치마크에서도 미세 조정된 전문 모델과 비등한 성능을 나타냈습니다(예: YouCook2 고밀도 캡션 및 QVHighlights 순간 검색). 비용에 민감한 애플리케이션의 경우 Gemini 2.5 Flash가 경쟁력이 우수한 대안이 될 수 있습니다.

Advancing the frontier of video understanding with Gemini 2.5
동영상 이해 벤치마크에서 Gemini 2.5와 이전 모델 간의 비교 평가. 성능은 다중 선택 VideoQA의 문자열 일치 정확성, EgoTempo의 LLM 기반 정확성, QVHighlights의 R1@0.5, YouCook2의 CIDEr에 의해 측정되었습니다. * 동영상은 1fps에서 처리되었고 1H-VideoQA(7200프레임)를 제외하고 최대 256프레임까지 선형 서브샘플링되었습니다.

Gemini 2.5를 이용한 동영상과 코드의 결합

Gemini 2.5는 네이티브 멀티모달 모델이 코드 및 기타 데이터 형식으로 시청각 정보를 원활하게 사용할 수 있는 최초의 사례입니다. Gemini 2.5의 동영상 이해 기능의 강력한 성능을 보여드리기 위해 저희가 가장 자부심을 갖고 있는 사용 사례 몇 가지를 아래에 소개해 드리겠습니다.


동영상을 인터랙티브 애플리케이션으로 변환

Gemini 2.5 Pro는 동영상을 인터랙티브 애플리케이션으로 변환하는 것에 대한 새로운 가능성을 제공합니다. Google AI Studio 스타터 앱인 Video To Learning 앱은 Gemini 2.5를 이용해 동영상 콘텐츠를 통한 학습을 더 효과적이고 매력적인 것으로 만들어 줍니다.

우선, 이 모델은 동영상을 분석하는 방법을 설명하는 텍스트 프롬프트와 함께 YouTube URL을 확인합니다. Gemini 2.5 Pro는 동영상을 분석하고 동영상의 핵심 아이디어를 강화하는 학습 애플리케이션을 위해 상세 사양을 만들어냅니다.

아래의 비전 수정 시뮬레이터 애플리케이션에서 볼 수 있듯이 생성된 사양은 Gemini 2.5 Pro로 바로 전송되어 애플리케이션용 코드를 생성합니다. Gemini 2.5 Flash에서도 유사한 결과를 달성할 수 있으며 교육 및 인터랙티브 콘텐츠 제작 같은 분야의 새로운 동영상 사용 사례를 엿볼 수 있습니다.

Google AI Studio에서 동영상을 인터랙티브 애플리케이션으로 전환

P5.js를 이용해 동영상에서 애니메이션 만들기

Gemini 2.5 Pro는 단일 프롬프트로 동영상에서 동적 애니메이션을 생성할 수 있는 기능과 같이 흥미진진하고 창의적인 가능성을 제공합니다. 이 기능은 자동화된 콘텐츠 생성과 액세스 가능한 동영상 요약 생성 등의 새로운 사용 사례를 개척합니다.

예를 들어, 'p5.js에서 이 동영상에 등장한 다양한 랜드마크를 포함하는 애니메이션을 만들어줘'라는 프롬프트와 함께 Project Astra동영상이 주어지면 Gemini 2.5 Pro는 해당 영상을 분석하고 이에 상응하는 p5.js 애니메이션을 제작합니다. 애니메이션은 동영상에서와 동일한 시간적 순서로 Gemini 2.5 Pro를 통해 식별된 랜드마크를 시각화합니다.

동영상의 순간을 검색 및 설명하기

Gemini 2.5 Pro는 이전의 동영상 처리 시스템보다 훨씬 우수한 정확도로 시청각 신호를 사용해 동영상 내에서 특정 순간을 식별할 수 있습니다. 예를 들어, 이 10분 길이의 Google Cloud Next ‘25 개회식 기조연설 동영상에서 Gemini 2.5 Pro는 동영상의 시각 신호와 청각 신호를 모두 사용해 제품 프레젠테이션과 관련된 16가지의 서로 다른 세그먼트를 정확하게 식별합니다.

Gemini 2.5 Pro를 통한 순간 검색(Google AI Studio에서 전체 출력 보기)

시간적 추론

또한 Gemini 2.5 Pro는 고급 순간 검색 기능을 갖춰 카운팅과 같이 미묘한 뉘앙스가 있는 시간적 추론 문제를 해결할 수 있습니다. 이 예시에서 Gemini는 Project Astra 동영상에서 주요 캐릭터가 휴대전화를 사용하는 17가지의 서로 다른 시점을 성공적으로 계산했습니다.

Gemini 2.5 동영상 이해를 사용한 빌드

Gemini 2.5 Flash와 Pro의 동영상 이해는 Google AI Studio, Gemini API, Vertex AI에서 사용할 수 있습니다. YouTube 동영상에 대한 지원이 Google AI StudioGemini API를 통해 제공되므로 누구나 수십억 개의 동영상에 액세스하여 애플리케이션을 빌드할 수 있습니다.

이제 Gemini API는 '낮은' 미디어 해상도 매개변수를 제공하여 Gemini 2.5 Pro가 200만 개의 토큰 컨텍스트로 최대 6시간 길이의 동영상을 처리할 수 있게 지원합니다. 이는 수많은 긴 동영상 이해 사용 사례에서 경쟁력 있는 동영상 이해 성능과 더불어 보다 비용 효과적인 설정을 제공합니다(예: VideoMME에서 84.7%의 정확도 대 85.2%의 정확도).

이미 커뮤니티에서 등장하고 있는 혁신적인 동영상 애플리케이션을 보며 신선한 자극을 얻고 있으며, 향후 여러분이 빌드하실 애플리케이션이 기대됩니다!


감사의 말

Video To Learning 앱과 블로그 게시물에서 소개한 비전 수정 시뮬레이터 예시를 만들어 주신 Aaron Wade에게 큰 감사를 드립니다.

또한 Sergi Caelles, Boyu Wang Saarthak Khanna에게도 위에 제시된 평가에 대한 기여에 대해, 참신한 몇 가지 예시를 데모 예시를 제공해 주신 데 대해 감사드립니다. 그리고 이번 릴리스를 위해 최선을 다해 주신 Gemini 비디오 이해 팀 전체에도 감사드립니다. 마지막으로 비디오 이해 팀원 여러분께 감사드립니다 마리오 루치치, S 카고 주식회사, 폴 나체프, 그리고 전반적인 다중 모드 이해가 이어집니다 장바티스트 알레락.