Hari ini, kami membuat model penalaran termaterialisasi dalam robotika termutakhir kami, Gemini Robotics-ER 1.5, tersedia untuk semua developer. Ini adalah model Gemini Robotics pertama yang tersedia secara luas. Model ini berfungsi sebagai model penalaran tingkat tinggi untuk robot.
Model ini memiliki spesialisasi dalam kemampuan yang sangat penting untuk robotika, termasuk pemahaman visual dan spasial, perencanaan tugas, dan estimasi progres. Model ini juga bisa secara native memanggil alat, seperti Google Penelusuran untuk menemukan informasi, dan dapat memanggil model vision-language-action (VLA) atau fungsi yang ditentukan pengguna (UDF) pihak ketiga lainnya untuk mengeksekusi tugas.
Anda bisa mulai membangun dengan Gemini Robotics-ER 1.5 hari ini dalam versi pratinjau melalui Google AI Studio dan Gemini API.
Model ini dirancang untuk tugas yang sangat menantang bagi robot. Bayangkan jika Anda meminta robot, “Dapatkah Anda menyortir benda-benda ini dengan benar ke dalam tempat kompos, daur ulang, dan tempat sampah?” Untuk menyelesaikan tugas ini, robot perlu mencari panduan daur ulang lokal di internet, memahami objek di depannya, dan mencari tahu cara menyortirnya berdasarkan aturan lokal, lalu melakukan semua langkah untuk menyelesaikannya. Sebagian besar tugas sehari-hari, seperti tugas ini, membutuhkan informasi kontekstual dan beberapa langkah untuk menyelesaikannya.
Gemini Robotics-ER 1.5 adalah model pemikiran pertama yang dioptimalkan untuk jenis penalaran termaterialisasi seperti ini. Model ini mencapai performa termutakhir pada tolok ukur internal dan akademis, terinspirasi dari kasus penggunaan dunia nyata dari program penguji tepercaya kami.
Gemini Robotics-ER 1.5 dirancang khusus untuk aplikasi robotika dan memperkenalkan beberapa kemampuan baru:
Anda bisa menganggap Gemini Robotics-ER 1.5 sebagai otak tingkat tinggi untuk robot Anda. Ia dapat memahami perintah bahasa natural yang kompleks, melakukan penalaran tugas jangka panjang, dan mengatur perilaku mutakhir. Ini berarti ia unggul tidak hanya dalam persepsi, memahami apa yang ada di tempat tersebut dan apa yang harus dilakukan.
Gemini Robotics-ER 1.5 bisa menguraikan permintaan kompleks seperti “bersihkan meja” menjadi sebuah rencana dan memanggil alat yang tepat untuk tugas tersebut, baik itu API hardware robot, model genggaman khusus, atau model vision-language-action (VLA) untuk kontrol motor.
Agar robot bisa berinteraksi dengan dunia fisik di sekitarnya, robot harus dapat melihat dan memahami lingkungan tempat mereka berada. Gemini Robotics-ER 1.5 disesuaikan dengan baik untuk menghasilkan hasil spasial berkualitas tinggi, memungkinkan model menghasilkan titik 2D yang presisi untuk objek. Mari kita lihat beberapa contoh menggunakan Gemini GenAI SDK untuk Python untuk membantu Anda mulai menggunakan model ini dalam aplikasi Anda sendiri.
Diberikan gambar suasana dapur, Gemini Robotics-ER 1.5 bisa memberikan lokasi setiap objek (atau bagian dari objek). Informasi ini kemudian dapat digabungkan dengan sensor 3D robot untuk menentukan lokasi akurat objek di ruang tersebut, memungkinkan library perencanaan Anda menghasilkan rencana gerakan yang akurat.
Prompt:
Point to the following items in the image: dish soap, dish rack, faucet, rice cooker, unicorn. The points are in [y, x] format normalized to 0-1000. Only include objects that are actually present in the image."
Perhatikan bagaimana kami meminta model untuk hanya menyertakan benda yang ada di dalam gambar - ini mencegah halusinasi, seperti menambahkan titik penunjuk untuk unicorn yang tidak ada, dan menjaga model selalu berpijak pada realitas yang bisa dilihatnya. Kita dapat memperluas teknik ini untuk menampilkan keadaan objek dalam streaming video, hanya menyoroti objek dengan keadaan tertentu, seperti wadah yang sedang terbuka atau tertutup, ketika terlihat di dalam bingkai. Di bawah ini adalah video yang mempromosikan model untuk menunjukkan “spidol hijau, nampan coklat, buku catatan hijau, laptop (terbuka), laptop (tertutup), kotak kacamata (terbuka), kotak kacamata (tertutup)”, yang merupakan kueri yang menggabungkan pemahaman spasial dan estimasi keadaan.
Meskipun menemukan objek sangatlah penting, penalaran spasial-temporal yang sesungguhnya melibatkan pemahaman relasi antara objek dan tindakan yang terjadi dari waktu ke waktu. Gemini Robotics-ER 1.5 unggul dalam hal ini dengan memproses video untuk memahami sebab dan akibat di dunia fisik. Misalnya, dalam video berikut ini, sepasang lengan robot memindahkan spidol hijau ke dalam nampan kayu, lalu memindahkan pena biru dan merah ke dalam wadah berbentuk silinder. Ketika kami meminta model untuk meninjau urutannya dan memberi tahu kami tugas apa yang dilakukan beserta urutannya, serta tugas apa yang terjadi di antara dua stempel waktu, kami menerima jawaban yang benar. Ini menunjukkan kemampuan penalaran tentang peristiwa yang terjadi dalam sebuah adegan, bukan hanya apa yang ada di dalamnya.
Prompt:
Describe in detail each step of finishing the task. Breaking it down by timestamp, output in json format with keys "start_timestamp", "end_timestamp" and "description".
Respons:
[
{
"start_timestamp": "00:02",
"end_timestamp": "00:13",
"description": "The left robotic arm picks up the green marker from the table and places it into the wooden tray."
},
{
"start_timestamp": "00:15",
"end_timestamp": "00:22",
"description": "The left robotic arm picks up the blue pen from the table and places it into the black mesh pen cup."
},
{
"start_timestamp": "00:23",
"end_timestamp": "00:28",
"description": "The right robotic arm picks up the red pen from the table and places it into the black mesh pen cup, completing the task of organizing the writing utensils."
}
]
>perbesar ke detik 15 hingga 22 dan berikan perincian per detik tentang hal-hal yang terjadi dalam format yang sama
[
{
"start_timestamp": "00:15",
"end_timestamp": "00:16",
"description": "The left robotic arm begins moving towards the blue pen located on the table to the left of the pen cup."
},
... (removed for brevity, please take a look at the video below)
{
"start_timestamp": "00:21",
"end_timestamp": "00:22",
"description": "The arm lowers the pen into the cup and releases it, placing it upright inside the container."
}
]
Outputnya akurat secara temporal, dan menempatkannya pada video asli menunjukkan bahwa model memiliki pemahaman yang tepat tentang gerakan robot.
Ketika pemikiran diaktifkan, model bisa melakukan penalaran tentang kueri penunjuk dan kotak pembatas yang kompleks. Berikut adalah demonstrasi langkah demi langkah penggunaannya dalam contoh pembuatan kopi. Ini menunjukkan pemahaman tentang “bagaimana” dan “di mana” yang dibutuhkan manusia atau robot untuk menyelesaikan tugas.
Prompt:
Identify where I should put my mug to make a cup of coffee. Return a list of JSON objects in the format: `[{"box_2d": [y_min, x_min, y_max, x_min], "label": <label>}]`, where the coordinates are normalized between 0-1000.
Respons:
Where should I put the coffee pod?
Respons:
Now, I need to close the coffee maker. Plot a trajectory of 8 points that indicates how the handle of the lid should move to close it. Start from the handle. Points are [Y,X] in normalized coordinates [0 - 1000]. Please output all points, including the trajectory points in the format. [{"point": [Y, X], "label": }, {"point": [Y, X], "label": }, ...].
Respons:
I finished my coffee. Where should I put my mug now to clean up? Return a list of JSON objects in the format: [{"point": [y, x], "label": <label>}], where the coordinates are normalized between 0-1000.
Inilah contoh lain dari penggabungan perencanaan dan landasan spasial untuk menghasilkan rencana yang “berlandaskan spasial”. Hal ini bisa dilakukan dengan prompt sederhana, "Jelaskan cara memilah sampah ke tempat sampah. Tunjuklah setiap objek yang Anda maksud. Setiap titik harus dalam format: [{"point": [y, x], "label": }], dengan koordinat yang dinormalisasi antara 0-1000." Respons berisi teks dan titik-titik yang disisipkan dan dapat dirender untuk membuat animasi ini.
Bagan ini menunjukkan serangkaian contoh perubahan anggaran pemikiran saat menggunakan model Gemini Robotics-ER 1.5 dan pengaruhnya terhadap latensi serta performa. Performa model meningkat dengan meningkatnya anggaran token pemikiran. Untuk tugas pemahaman spasial sederhana seperti deteksi objek, performanya tinggi dengan anggaran pemikiran yang sangat rendah, sementara penalaran yang lebih kompleks mendapat manfaat dari anggaran yang lebih besar. Hal ini memungkinkan developer menyeimbangkan kebutuhan akan respons berlatensi rendah dengan hasil akurasi tinggi untuk tugas yang lebih menantang.
Meskipun pemikiran diaktifkan secara default dengan model Gemini Robotics-ER 1.5, Anda bisa mengatur anggaran pemikiran, atau bahkan menonaktifkan pemikiran, dengan menyertakan opsi thinking_config dengan permintaan Anda. Anda dapat menemukan informasi selengkapnya tentang anggaran pemikiran Gemini di sini.
Kami berkomitmen untuk membangun fondasi yang bertanggung jawab untuk aplikasi robotika Anda. Gemini Robotics-ER 1.5 telah membuat peningkatan yang signifikan dalam hal keamanan, dengan filter yang disempurnakan untuk keduanya:
Namun, perlindungan tingkat model ini bukanlah pengganti teknik keamanan ketat yang diperlukan untuk sistem fisik. Kami menganjurkan “pendekatan keju Swiss” untuk keamanan, di sini beberapa lapisan perlindungan bekerja bersama. Developer bertanggung jawab untuk menerapkan praktik terbaik keamanan robotika standar, termasuk penghentian darurat, menghindari tabrakan, dan penilaian risiko secara menyeluruh.
Gemini Robotics-ER 1.5 tersedia dalam pratinjau hari ini. Ia memberikan kemampuan persepsi dan perencanaan yang diperlukan untuk membangun mesin penalaran bagi robot Anda.
Model ini adalah komponen penalaran dasar dari sistem Gemini Robotics yang lebih luas. Untuk memahami ilmu pengetahuan di balik visi kami untuk masa depan robotika, termasuk model tindakan menyeluruh (VLA) dan pembelajaran lintas-perwujudan, baca blog penelitian dan laporan teknis lengkap.