デベロッパーにとって Gemini 時代が次の章へ

2024年12月11日

Shrestha Basu Mallick Product Google DeepMind

Kathy Korevec Director of Product Google Labs

私たちは、最先端のモデル、コード作成を高速化するインテリジェントなツール、プラットフォームやデバイス間のシームレスな連携によって、デベロッパーが AI の未来を築けるようにしています。昨年 12 月に Gemini 1.0 をリリースして以来、何百万人ものデベロッパーが Google AI Studio や Vertex AI と 109 の言語で Gemini を使った開発を進めています。

本日は、インタラクティブ性が増してさらに没頭できるアプリケーションを実現する Gemini 2.0 Flash Experimental と、デベロッパーに代わってアクションを実行することでワークフローを強化する新しいコーディングエージェントについてお知らせします。

Gemini 2.0 Flash で開発する

Flash 2.0 は、Gemini 1.5 Flash の成功を土台として開発されました。速度は 1.5 Pro の 2 倍になり、新しいマルチモーダル出力などのパフォーマンスが向上しているほか、ネイティブツールの利用にも対応しています。また、オーディオや動画をリアルタイムにストリーミングするダイナミックなアプリケーションを開発するためのマルチモーダルライブ API も導入しています。

本日より、試験運用版フェーズの間、デベロッパーは Google AI Studio と Vertex AI の Gemini API から、Gemini 2.0 Flash のテストや確認ができるようになっています。来年初頭には一般公開される予定です。

デベロッパーは、Gemini 2.0 Flash の次のような機能にアクセスできます。

1. パフォーマンスの向上

Gemini 2.0 Flash は 1.5 Pro よりも強力でありながら、Flash に期待されるスピードと効率を維持しています。また、主要なベンチマークで、マルチモーダル、テキスト、コード、動画、空間理解、推論のパフォーマンスが向上しています。空間理解能力が向上したことで、雑然とした画像に含まれる小さな物体に対しても、正確な境界ボックスを生成できます。また、物体の識別能力やキャプションを付ける能力も向上しています。詳細については、空間理解機能についての動画か Gemini API ドキュメントをご覧ください。

Link to Youtube Video (visible only when JS is disabled)

2. 新たな出力モード

デベロッパーは、Gemini 2.0 Flash を使ってテキスト、オーディオ、画像をすべてまとめた応答を、1 回の API 呼び出しで生成できます。この新しい出力モードは早期テスターが利用でき、来年にはさらに多くの方にロールアウトする予定です。すべての画像とオーディオの出力で SynthID の見えない透かしが有効になる予定なので、誤情報や誤出典の懸念を減らすことができます。

多言語ネイティブオーディオ出力: Gemini 2.0 Flash には、ネイティブのテキスト読み上げオーディオ出力が搭載されています。モデルが何を言うかだけでなく、どのように言うかまで細かく制御でき、8 つの高品質な音声とさまざまな言語やアクセントを選ぶことができます。実際にネイティブオーディオ出力を聴いてみるか、デベロッパー向けドキュメントで詳細をご確認ください。

ネイティブ画像出力: Gemini 2.0 Flash は、ネイティブに画像を生成でき、会話型のマルチターン編集にも対応しているので、以前の出力を基に作成したり、改善したりすることができます。テキストと画像を交互に出力することもできるため、レシピなどのマルチモーダルコンテンツに活用できます。詳しくは、ネイティブ画像出力についての動画をご覧ください。

Link to Youtube Video (visible only when JS is disabled)

3. ネイティブツールの利用

Gemini 2.0 は、ツールを利用できるようにトレーニングされています。ツールの利用は、エージェントエクスペリエンスを開発するための基本機能です。関数呼び出しによるカスタムサードパーティ関数に加えて、Google 検索やコード実行などのツールをネイティブに呼び出すことができます。Google 検索をネイティブツールとして使うと、事実に基づいた包括的な回答を得ることができるので、パブリッシャーへのトラフィックを増加させることができます。複数の検索が並列実行されるので、複数のソースから関連性の高い事実を同時に検索でき、それらを組み合わせて正確性を高めることによって、情報検索機能を向上させることができます。詳しくは、ネイティブツールの利用についての動画をご覧ください。ノートブックで開発を始めることもできます。

Link to Youtube Video (visible only when JS is disabled)

4. マルチモーダルライブ API

カメラや画面からオーディオや動画をストリーミング入力することで、リアルタイムマルチモーダルアプリケーションを開発できるようになりました。中断や音声区間検出などの自然な会話パターンがサポートされています。1 回の API 呼び出しで複雑なユースケースを実現できるように、複数のツールをまとめる機能に対応した API になっています。詳しくは、マルチモーダルライブストリーミングについての動画をご覧ください。ウェブコンソールやスターターコード（Python）を試すこともできます。

Link to Youtube Video (visible only when JS is disabled)

うれしいことに、Gemini 2.0 Flash を使って大幅に機能を進化させ、新たな体験のプロトタイプを作成しているスタートアップ企業があります。たとえば、tldraw のビジュアルプレイグラウンド、Viggle の仮想キャラクター作成とオーディオナレーション、Toonsutra の文脈に応じた多言語翻訳、Rooms のリアルタイムオーディオ追加などです。

最初からハイペースで Gemini 2.0 Flash を使った開発を進められるように、Google AI Studio の 3 つのスターターアプリエクスペリエンスと、空間理解、動画分析、Google マップ探索を行うオープンソースコードをリリースしています。

AI コードアシスタンスを進化させる

AI コードアシスタンスは、単純なコード検索から、デベロッパーのワークフローに組み込まれた AI アシスタントへと、急速に進化しています。その最先端で使われているのが Gemini 2.0 で、皆さんに代わってタスクを実行できるコーディングエージェントを実現しています。

私たちの最新の研究によると、コード実行ツールを搭載した 2.0 Flash は SWE-bench Verified で 51.8% のスコアを達成しました。SWE-bench Verified は、現実のソフトウェアエンジニアリングタスクでエージェントのパフォーマンスをテストするベンチマークです。最高水準の推論スピードを持つ 2.0 Flash のおかげで、エージェントは数百のソリューション候補をサンプリングし、既存の単体テストと Gemini 自身の判断に基づいて最良のソリューションを選択できました。現在は、この研究を新しいデベロッパープロダクトにする作業を行っています。

AI コードエージェント Jules の概要

バグ対応が終わったばかりであるにもかかわらず、長いバグのリストと向き合わなければならないことを想像してみてください。本日より、Python と Javascript のコーディングタスクを、Gemini 2.0 を使う試験運用版 AI コードエージェント、Jules にオフロードできます。Jules は非同期で動作し、GitHub ワークフローとも連携できるので、皆さんが本当に開発したいものに集中している間に、バグの修正などの時間のかかるタスクを済ませてくれます。Jules は問題に対処するため、包括的なマルチステッププランを作成し、複数のファイルを効率的に変更してくれます。それだけでなく、pull リクエストを作成し、修正を直接 GitHub に反映してくれます。

Jules は問題に対処するため、計画を立てて実行する（手順は省略されています。この結果は例示用のもので、Jules は間違う可能性もあります。）

これはまだ初期段階ですが、社内で Jules を使った経験から、デベロッパーに次のようなメリットが生まれることがわかっています。

生産性の向上。問題やコーディングタスクを Jules に割り当てることで、効率的に非同期でコーディングを行うことができます。

進捗の追跡。情報をリアルタイムに取得できるので、常に最新情報を把握し、注意が必要なタスクを優先することができます。

デベロッパーがすべてを管理。Jules が作成した計画を随時確認したり、適切と思われるフィードバックを提供したり、調整をリクエストしたりできます。Jules が書いたコードは簡単に確認でき、必要に応じてプロジェクトにマージできます。

本日より、一部の信頼できるテスターが Jules を利用できるようになっています。2025 年初頭には、その他の関心のあるデベロッパーも利用できるようになる予定です。labs.google.com/jules で登録を行うと、Jules の最新情報を入手できます。

Colab のデータサイエンスエージェントでノートブックを作成

今年の I/O では、labs.google/code で試験運用版のデータサイエンスエージェントを公開しました。これを使うと、誰でもデータセットをアップロードし、数分で知見を得ることができます。この機能はすべて Colab ノートブックで実現しています。うれしいことに、デベロッパーコミュニティから多くの肯定的なフィードバックをいただき、効果を確認することができました。たとえば、ローレンスバークレー国立研究所のある科学者は、データサイエンスエージェントを活用し、世界的な熱帯湿地メタン排出プロジェクトに取り組んでいます。推定によると、その際の分析と処理にかかった時間は 1 週間から 5 分に短縮されています。

Colab では、このエージェント機能を Gemini 2.0 を使って組み込む作業が始まっています。分析の目的をわかりやすい言葉で説明するだけで、ノートブックが自動作成されるので、短時間で確認やデータ分析を行えるようになります。この新機能は、2025 年上半期に Colab ユーザーにロールアウトされる予定です。その前に早期アクセスしたいデベロッパーの皆さんは、信頼できるテスタープログラムに参加してください。

Colab のデータサイエンスエージェントは、Gemini 2.0 を使って自然言語の命令からノートブックを作成する

デベロッパーが未来を築く

Gemini 2.0 モデルを使うと、高機能な AI アプリを短時間で簡単に開発できるので、皆さんはユーザーエクスペリエンスの向上に集中することができます。今後数か月以内に、Android Studio、Chrome DevTools、Firebase などのプラットフォームにも Gemini 2.0 を導入する予定です。こちらから登録すると、Gemini Code Assist で Gemini 2.0 Flash を使えるようになるので、Visual Studio Code、IntelliJ、PyCharm などの一般的な IDE で高度なコーディングアシスタンス機能を利用できます。使ってみたい方は、ai.google.dev にアクセスしてください。Google AI for Developers をフォローすると、今後のアップデートについての情報を受け取ることができます。