Gemini API에 Imagen 3 도입

2025년 2월 6일

Ivan Solovyev Product Manager

이제 개발자는 Gemini API를 통해 Google의 최첨단 이미지 생성 모델인 Imagen 3에 액세스할 수 있습니다. 초반에는 유료 사용자만 이 모델에 액세스할 수 있겠지만, 곧 무료 등급으로 출시될 예정입니다.

Imagen 3는 초현실적인 이미지부터 인상주의적 풍경화, 추상적인 구성, 애니메이션 캐릭터까지 다양한 스타일의 시각적으로 매력적이고 아티팩트가 없는 이미지를 생성하는 데 매우 탁월합니다. 프롬프트 준수 능력이 개선되어 훌륭한 아이디어를 수준 높은 이미지로 쉽게 변환할 수 있습니다. 전반적으로, Imagen 3는 다양한 업계 기준치에서 최첨단 성능을 달성합니다. 가로세로 비율, 생성할 옵션 수, 기타 사항 등을 제어하여 Gemini API를 통해 이미지당 $0.03의 가격으로 이를 달성합니다.

잘못된 정보와 오귀인을 방지하기 위해 Imagen 3에서 생성된 모든 이미지에는 해당 이미지가 AI로 생성되었음을 확인해 주는 보이지 않는 디지털 SynthID 워터마크가 포함됩니다.

Imagen 3 실습 보기

아래 갤러리는 다양한 스타일을 아우르는 Imagen 3의 기능을 잘 보여줍니다.

Imagen 3 generated image of a group of people looking happy, natural light, 8k

프롬프트: 행복해 보이는 사람들, 자연광, 8k

Imagen 3 generated Hyperrealistic portrait of a person dressed in 1920s flapper fashion, vintage style, black and white photograph, elegant pose, 8k

프롬프트: 1920년대 자유분방한 플래퍼 패션을 입은 사람의 초현실적인 이미지, 빈티지 스타일, 흑백 사진, 우아한 포즈, 8k

Imagen 3 generated image of a close-up of a vintage watch with realistic and detailed mechanism

프롬프트: 빈티지 시계의 클로즈업 이미지를 상상해서 상세한 메커니즘을 포함하여 사실적으로 묘사한 이미지를 생성해 주세요

Imagen 3 generated image of an impressionistic landscape painting of a sunset over a field of sunflowers, vibrant colors, thick brushstrokes, inspired by Monet

프롬프트: 모네의 작품에서 영감을 받은 해바라기 밭의 일몰 풍경, 선명한 색상, 크고 두꺼운 붓놀림이 어우러진 인상주의 화풍의 풍경화

Imagen 3 generated image of A surreal dreamscape featuring a giant tortoise with a lush forest growing on its back, floating through a starry sky, glowing mushrooms, bioluminescent plants, ethereal atmosphere

프롬프트: 등에 무성한 숲이 자라는 거대한 거북이가 별이 반짝이는 하늘 위를 떠다니고 빛나는 버섯과 발광 식물, 아련한 천상의 분위기가 느껴지는 초현실적인 꿈같은 모습

Imagen 3 generated lifestyle image of freshly roasted coffee beans spilling out of a burlap sack onto a rustic wooden table next to a up of coffee with 'Awaken Your Senses' written on the cup in cursive

프롬프트: 마대 자루에서 갓 볶은 커피 원두가 투박한 느낌의 나무 탁자 위로 쏟아져 나오는 모습을 담은 일상생활 속 제품 사진. 옆에 놓인 커피잔에서는 김이 모락모락 올라오고, 커피잔에는 'Awaken Your Senses'라는 문구가 필기체로 쓰여 있다. 따뜻하고 편안한 분위기 속에 아침 햇살이 비친다.

Imagen 3 generated hyperrealistic portrait of a woman with piercing blue eyes, laughing, freckles, dramatic lighting, detailed skin texture, 8k

프롬프트: 강렬한 푸른 눈과 웃음, 주근깨, 극적인 조명, 섬세한 피부 질감의 표현이 돋보이는 여성의 초현실적인 이미지, 8k

Imagen 3 generated panoramic view of a majestic mountain range at dawn

프롬프트: 새벽에 바라본 장엄한 산맥의 파노라마 전망

Imagen 3 generated scene from a game where the player needs to find a specific object by looking into drawers in a messy desk

프롬프트: 플레이어가 지저분한 책상 서랍을 들여다보며 특정 물건을 찾아야 하는 게임 장면을 보여주세요.

Imagen 3 generated painted cityscape in the style of Van Gogh

프롬프트: 반 고흐 스타일로 그린 도시 풍경. 소용돌이치는 듯한 붓놀림과 생생한 색상이 특징.

Gemini API에서 Imagen 3 시작하기

이 Python 코드 스니펫은 Gemini API를 사용하여 Imagen 3로 이미지를 생성하는 방법을 보여줍니다.

from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
 
client = genai.Client(api_key='GEMINI_API_KEY')
 
response = client.models.generate_images(
    model='imagen-3.0-generate-002',
    prompt='a portrait of a sheepadoodle wearing cape',
    config=types.GenerateImagesConfig(
        number_of_images=1,
    )
)
for generated_image in response.generated_images:
  image = Image.open(BytesIO(generated_image.image.image_bytes))
  image.show()

Python

생성된 이미지

Imagen 3 generated portrait of a sheepadoodle wearing a cape

Gemini API 개발자 문서에서 더 많은 프롬프트 작성 관련 조언과 이미지 스타일을 살펴볼 수 있으며, 업데이트된 기술 보고서의 부록 D에서 점수, 방법론, 성능 개선에 대한 자세한 내용을 확인할 수 있습니다.

생성형 미디어 모델의 가용성을 Gemini API로 확장하는 첫걸음을 내딛게 되어 기쁘게 생각합니다. 가까운 미래에 개발자가 생성형 미디어와 언어 모델을 함께 연결할 수 있도록 가용성을 더욱더 확대해 나가겠습니다.