이제 개발자는 Gemini API를 통해 Google의 최첨단 이미지 생성 모델인 Imagen 3에 액세스할 수 있습니다. 초반에는 유료 사용자만 이 모델에 액세스할 수 있겠지만, 곧 무료 등급으로 출시될 예정입니다.
Imagen 3는 초현실적인 이미지부터 인상주의적 풍경화, 추상적인 구성, 애니메이션 캐릭터까지 다양한 스타일의 시각적으로 매력적이고 아티팩트가 없는 이미지를 생성하는 데 매우 탁월합니다. 프롬프트 준수 능력이 개선되어 훌륭한 아이디어를 수준 높은 이미지로 쉽게 변환할 수 있습니다. 전반적으로, Imagen 3는 다양한 업계 기준치에서 최첨단 성능을 달성합니다. 가로세로 비율, 생성할 옵션 수, 기타 사항 등을 제어하여 Gemini API를 통해 이미지당 $0.03의 가격으로 이를 달성합니다.
잘못된 정보와 오귀인을 방지하기 위해 Imagen 3에서 생성된 모든 이미지에는 해당 이미지가 AI로 생성되었음을 확인해 주는 보이지 않는 디지털 SynthID 워터마크가 포함됩니다.
아래 갤러리는 다양한 스타일을 아우르는 Imagen 3의 기능을 잘 보여줍니다.
이 Python 코드 스니펫은 Gemini API를 사용하여 Imagen 3로 이미지를 생성하는 방법을 보여줍니다.
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='a portrait of a sheepadoodle wearing cape',
config=types.GenerateImagesConfig(
number_of_images=1,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
생성된 이미지
Gemini API 개발자 문서에서 더 많은 프롬프트 작성 관련 조언과 이미지 스타일을 살펴볼 수 있으며, 업데이트된 기술 보고서의 부록 D에서 점수, 방법론, 성능 개선에 대한 자세한 내용을 확인할 수 있습니다.
생성형 미디어 모델의 가용성을 Gemini API로 확장하는 첫걸음을 내딛게 되어 기쁘게 생각합니다. 가까운 미래에 개발자가 생성형 미디어와 언어 모델을 함께 연결할 수 있도록 가용성을 더욱더 확대해 나가겠습니다.