24 결과
2025년 8월 18일 / Gemini
이제 Gemini API의 URL 컨텍스트 도구가 정식 출시되어 개발자가 수동 업로드 대신 웹 콘텐츠를 사용하여 프롬프트를 구성할 수 있게 되었습니다. 이번 출시로 PDF와 이미지에 대한 지원이 확장됩니다.
2025년 8월 15일 / Google AI Studio
Google은 Gemini API 및 Google AI Studio에서 Imagen 4의 정식 버전을 선보입니다. Imagen 4는 고급 텍스트-이미지 변환 모델로서 크게 향상된 텍스트 렌더링이 특징입니다. 속도와 빠른 이미지 생성을 위해 설계된 새로운 Imagen 4 Fast 모델은 Imagen 4 및 Imagen 4 Ultra와 함께 사용할 수 있습니다. Imagen 4와 Imagen 4 Ultra는 최대 2K 해상도의 이미지 생성도 지원합니다.
2025년 7월 31일 / AI
Google은 속도와 가격을 최적화한 모델인 Veo 3 Fast와 더불어 Veo 3 및 Veo 3 Fast를 위한 새로운 이미지-동영상 변환 기능을 소개합니다. 이를 통해 개발자는 텍스트 또는 스틸 이미지에서 고품질의 동영상 콘텐츠를 효율적으로 제작할 수 있으며, 가격은 모델 종류와 오디오 포함 여부에 따라 달라집니다. 현재 Gemini API에서 이용 가능합니다.
2025년 7월 30일 / Gemini
LangExtract는 Gemini 모델로 구동되는 새로운 오픈소스 Python 라이브러리로, 비정형 텍스트에서 구조화된 정보를 추출하기 위해 사용됩니다. 정확한 소스 그라운딩, 제어된 생성을 사용한 신뢰할 수 있는 구조화된 출력, 최적화된 긴 컨텍스트 추출, 대화형 시각화, 유연한 LLM 백엔드 지원을 제공합니다.
2025년 7월 17일 / Gemini
Google의 최신 AI 동영상 생성 모델인 Veo 3가 현재 Gemini API 및 Google AI Studio를 통해 유료 미리보기로 제공됩니다. Google I/O 2025에서 공개된 Veo 3는 대화, 배경 소리, 동물 소리까지도 포함해, 동영상과 이에 동기화된 오디오를 모두 생성할 수 있습니다. 이 모델은 화면상의 동작과 일치하는 정확한 립 싱크 및 사운드로 사실적인 비주얼, 자연스러운 조명, 물리 표현을 제공합니다.
2025년 7월 16일 / AI
'로그 확률' 기능이 Vertex AI의 Gemini API에 공식적으로 도입되었습니다. 이 기능은 선택된 대체 토큰의 확률 점수를 표시하여 모델의 의사 결정에 대한 인사이트를 제공합니다. 이 단계별 안내에서는 이 기능을 활성화 및 해석하고 확실한 분류, 동적 자동 완성, 정량적 RAG 평가 등 다양한 사용 사례에 적용하는 방법을 소개합니다.
2025년 7월 14일 / Gemini
Gemini Embedding 텍스트 모델이 Gemini API 및 Vertex AI에서 정식 출시되었습니다. 이 다용도 모델은 3월에 시험 출시된 이후 MTEB 다국어 리더보드에 지속적으로 1위를 차지했으며, 100개 이상의 언어를 지원하고, 입력 토큰 길이가 최대 2,048입니다. 이 모델의 가격은 백만 입력 토큰당 0.15달러입니다.
2025년 7월 10일 / Gemini
GenAI 프로세서는 Google DeepMind의 새로운 오픈소스 Python 라이브러리입니다. 원활한 체이닝과 동시 실행을 위해 입력 처리부터 모델 호출 및 출력 처리까지 모든 단계를 위한 일관된 'Processor' 인터페이스를 제공함으로써 AI 애플리케이션, 특히 멀티모달 입력을 처리하고 실시간 응답성을 요하는 애플리케이션 개발을 간소화할 수 있도록 설계되었습니다.
2025년 7월 7일 / Gemini
Gemini API의 새로운 일괄 모드는 처리량이 많고 지연 시간이 중요하지 않은 AI 워크로드를 위해 설계되었습니다. 일괄 모드는 예약 및 처리를 수행하여 대규모 작업을 단순화하고 데이터 분석, 대규모 콘텐츠 생성, 모델 평가와 같은 작업을 한층 비용 효율적이고 확장 가능하게 만들어 개발자가 대량의 데이터를 효율적으로 처리할 수 있게 합니다.
2025년 6월 24일 / Gemini
Gemini 2.5 Pro 및 Flash는 코딩, 추론, 멀티모달 기능(공간 이해 능력 포함)을 강화하여 로봇 공학에 변화를 일으키고 있습니다. 해당 모델은 의미론적 장면 이해, 로봇 제어용 코드 생성, Live API를 통한 인터랙티브 애플리케이션 빌드를 위해 사용되며, 안전성을 개선하고 커뮤니티를 위해 기술을 활용하는 데 중점을 두고 있습니다.