Bereksperimen dengan pembuatan gambar native Gemini 2.0 Flash

MAR 12, 2025
Kat Kampf Product Manager Google AI Studio
Nicole Brichtova Product Manager Google DeepMind

Pada bulan Desember, kami pertama kali memperkenalkan output gambar native dalam Gemini 2.0 Flash kepada penguji tepercaya. Hari ini, kami menyediakannya untuk eksperimen developer di semua wilayah yang saat ini didukung Google AI Studio. Anda bisa menguji kemampuan baru ini menggunakan versi eksperimental Gemini 2.0 Flash (gemini-2.0-flash-exp) di Google AI Studio dan Gemini API.

Gemini 2.0 Flash memadukan input multimodal, penalaran yang disempurnakan, dan natural language understanding untuk menciptakan gambar.

Berikut adalah beberapa contoh yang menunjukkan keunggulan output multimodal 2.0 Flash:


1. Teks dan gambar secara bersamaan

Gunakan Gemini 2.0 Flash untuk menuturkan sebuah cerita dan ia akan mengilustrasikannya dengan gambar, menjaga karakter dan pengaturannya selalu konsisten. Berikan masukan kemudian model akan menuturkan kembali cerita tersebut atau mengubah gaya gambarnya.

Pembuatan cerita dan ilustrasi di Google AI Studio

2. Pengeditan gambar percakapan

Gemini 2.0 Flash membantu Anda mengedit gambar melalui rangkaian dialog bahasa natural, sangat bagus untuk melakukan iterasi menuju gambar yang sempurna, atau mengeksplorasi berbagai ide secara bersamaan.

Pengeditan gambar percakapan multi-giliran mempertahankan konteks sepanjang percakapan di Google AI Studio

3. Pemahaman dunia

Tidak seperti banyak model pembuatan gambar lainnya, Gemini 2.0 Flash memanfaatkan pengetahuan dunia dan penalaran yang disempurnakan untuk menciptakan gambar yang tepat. Ini membuatnya sempurna untuk menciptakan gambar mendetail yang realistis–seperti mengilustrasikan resep. Meskipun sangat mengutamakan akurasi, seperti semua model bahasa, pengetahuannya luas dan umum, tidak absolut atau lengkap.

Memadukan output teks dan gambar untuk resep di Google AI Studio

4. Rendering teks

Sebagian besar model pembuatan gambar kesulitan merender rangkaian teks panjang secara akurat, dan sering kali menghasilkan karakter yang tidak terformat dengan baik atau tidak terbaca, atau salah eja. Tolok ukur internal menunjukkan bahwa 2.0 Flash memiliki rendering yang lebih kuat dibandingkan model kompetitif terkemuka, dan sangat bagus untuk membuat iklan, postingan sosial, atau bahkan undangan.

Output gambar dengan rendering teks panjang di Google AI Studio

Mulai membuat gambar dengan Gemini hari ini

Mulai gunakan Gemini 2.0 Flash melalui Gemini API. Baca selengkapnya tentang pembuatan gambar di dokumen kami.

from google import genai
from google.genai import types
 
client = genai.Client(api_key="GEMINI_API_KEY")
 
response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)

Jika Anda membangun agen AI, mengembangkan aplikasi dengan visual yang indah, seperti cerita interaktif bergambar, atau bertukar pikiran tentang ide visual dalam percakapan, Gemini 2.0 Flash memungkinkan Anda menambahkan teks dan gambar hanya dengan satu model. Kami sangat menantikan kreasi yang dibuat developer dengan output gambar native dan masukan Anda akan membantu kami menuntaskan versi yang siap produksi dalam waktu dekat.