2023 年の第 2 四半期における Google の広大な機械学習コミュニティのハイライトと成果をご紹介します。私たちは、ML コミュニティのグローバルなネットワークで行われている活動に熱烈な関心を寄せていると同時に感謝の念を抱いています。以下にそのハイライトをご紹介します。
今年の上半期には、世界中の 35 を超えるコミュニティが、ML デベロッパー プログラム チームが配信した ML キャンペーンをホストしてくれました。ML コミュニティ全体のトレーニングにご協力いただき、ありがとうございました。
ML GDE の Suvaditya Mukherjee さん(インド)による Image Segmentation using Composable Fully-Convolutional Networks は Kears.io の一例であり、VGG-16 バックエンドを持つ全層畳み込みネットワークの実装方法と、全層畳み込みネットワークをイメージ セグメンテーションの実行に使用する方法を説明しています。TFUG Malaysia および TFUG Kolkata で行われた Suvaditya さんのプレゼンテーション、KerasCV for the Young and Restless(スライド | 動画)では KerasCV が紹介されました。Suvaditya さんは、基本的なコンピュータービジョン コンポーネントがどのように機能するのか、なぜ Keras が重要なツールと言えるのか、そしてKerasCV が、確立された TFX および Keras エコシステム上にどのように構築されるのかを説明しました。
ML GDE の Aritra Roy Goshipaty さん(インド)による [ML Story] My Keras Chronicles では、Aritra さんが Keras を使ったディープ ラーニングを開始するまでのいきさつが紹介されました。Aritra さんは、オープンソース コミュニティに参加する方法についてアドバイスしています。さらに、Aritra さんの Kaggle ノートブック、[0.11] keras starter: unet + tf data pipeline は、Vesuvius Challenge のスタートガイドとして使用できます。Aritra さんと Subvaditya さんは、論文で提案された、時間的潜在ボトルネック ネットワークの Keras 実装についても説明しました。
ML GDE の Ayse Ayyuce Demirbas さん(ポルトガル)による KerasFuse は、さまざまなコンピュータ ビジョン技術を駆使して、TensorFlow と Keras の能力を組み合わせ、医療イメージ解析タスクを行う Python ライブラリです。イメージ セグメンテーションや分類などのタスクを行うために、TensorFlow と Keras でディープ ラーニング モデルを簡単に開発できるようにするモジュールと関数のコレクションを提供します。
TFUG Ibadan による TensorFlow at Google I/O 23: A Preview of the New Features and Tools では、TensorFlow の最新機能とツールのプレビューについて説明しました。Dtensor、KerasCV および KerasNLP、TF 量子化 API、JAX2TF など、幅広いトピックが取り上げられました。
ML GDE の Dimitre Oliveira さん(ブラジル)による StableDiffusion - Textual-Inversion 実装アプリ は、リサーチからコードを実装し、Textual Inversion プロセスを使用してコードを微調整する方法の一例です。また、HuggingFace、Gradio、TensorFlow Serving、KerasCV などの有用なツールやフレームワークの関連ユースケースも提供しています。
ML GDE の Tanmay Bakshi さん(カナダ)は Understanding Gradient Descent and Building an Image Classifier in TF From Scratch の中で、ML テクノロジーを支えている基盤に関して確かな洞察を得る方法について説明し、イヌとネコに適用できるイメージ分類システムを tf.Keras で実際にゼロから構築しました。
Usha Rengaraju さん(インド)による CVPR 2023 の論文 TensorFlow and Keras Implementation of the CVPR 2023 では、研究論文 BiFormer: Vision Transformer with Bi-Level Routing Attention の実装に関して論じています。
Rouizi Yacine さんによる Smile Detection with Python, OpenCV, and Deep Learning は、TensorFlow、Keras、OpenCV を使用して、より堅牢な笑顔検出器を構築するためにディープ ラーニングを活用する方法を説明したチュートリアルです。
GDSC UNINTER による ML Olympiad for Students は、ML スキルを向上させたい学生や意欲的な ML ユーザー向けに開催され、米国の就労ビザ申請を予測するという課題が出されました。オープニング イベントには 320 人以上の参加者が登録し、YouTube では 700 ビュー以上を記録しました。66 チームが参加し、優勝チームは 71% の F1 スコアを達成しました。
ML GDE の Ertuğrul Demir さん(トルコ)による ICR | EDA & Baseline は、Kaggle の最新の featured コード コンペティションに興味のある初心者のためのスターター ノートブックです。200 以上の賛成票と 490 以上のフォークを獲得しました。
TFUG Hajipur による Compete More Effectively on Kaggle using Weights and Biases は、Kaggle のコンペティションでモデルのパフォーマンスを向上させるために、ウェイトとバイアスを使用する手法を考察するミートアップでした。Usha Rengaraju さん(インド)が講演者として参加し、Kaggle に関する知見とコンペティションに勝つための戦略について講演しました。Usha さんはヒントやコツを紹介し、W&B アカウントの設定方法や、Google Colab および Kaggle との統合方法を実演しました。
ML GDE の Ayush Thakur さん(インド)による Skeleton Based Action Recognition: A failed attempt は、Kaggle コンペティション Google - Isolated Sign Language Recognition に参加した際に学んだことを記録したディスカッション投稿です。Ayush さんは、リポジトリ、トレーニング ログ、コンペティションで自身がアプローチしたアイデアを共有しました。また、Ayush さんの記事 Keras Dense Layer: How to Use It Correctly では、Keras の高密度レイヤとは何か、それが実際にどのように機能するのかを考察しています。
ML GDE の Pankaj Rai さん(インド)が Tech Talks for Educators で発表した Add Machine Learning to your Android App は、オンデバイス ML と、物体検知やジェスチャー検出などの Android アプリに ML 機能を追加する方法を学ぶセッションでした。Pankaj さんは、ML Kit、MediaPipe、TF Lite の機能と、これらのツールの使用方法について説明しました。700 人以上が Pankaj さんのトークに登録しました。
ML GDE の Martin Andrews さん(シンガポール)は、I/O Extended Singapore 2023 で行ったプレゼンテーション MediaPipe with a bit of Bard で、MediaPipe がエコシステムにどのように適合するかを説明し、MediaPipe 機能の 4 つの異なるデモ(オーディオ分類、顔のランドマーク、インタラクティブなセグメンテーション、テキスト分類)を披露しました。
ML GDE の Juan Guillermo Gomez Torres さん(ボリビア)は、Adding ML to our apps with Google ML Kit and MediaPipe の中で ML Kit と MediaPipe を紹介し、オンデバイス ML のメリットを明らかにしました。Startup Academy México (Google for Startups)では、ML と MediaPipe を使用して、クライアントのために価値を高める方法を共有しました。
ML GDE の Hannes Hapke さん(米国)による Introduction to Google's PaLM 2 API では、PaLM2 の使い方と主なメリットが紹介されました。Hannes さんの別の記事 The role of ML Engineering in the time of GPT-4 & PaLM 2 は、この新しいテクノロジーがもたらす機会と課題にうまく対応するために関係者の間で適切なバランスと提携関係を見つける際に ML のエキスパートが果たす役割について説明しています。Hannes さんは North America Connect 2023 および GDG Portland イベントでも同タイトルのプレゼンテーションを行ないました。
ML GDE の Ruqiya Bin Safi さん(サウジアラビア)による ChatBard : An Intelligent Customer Service Center App は、PaLM2 API を使用した生成 AI と LLM が搭載されたインテリジェントなカスタマー サービス センター アプリです。
ML GDE の Sam Witteveen さん(シンガポール)による Bard can now code and put that code in Colab for you では、Bard がコードを書く方法を紹介しています。Sam さんは、生成 AI、論文のレビュー、LLM、LangChain などのプレイリストが含まれた、ML と AI の可能性を探る Youtube チャンネルを運営しています。
ML GDE の Bhavesh Bhatt さん(インド)による Google’s Bard Can Write Code では、Bard のコーディング機能、Bard を使って 2048 ゲームを作成する方法、そしてゲームに基本的ないくつかの機能を追加する方法を紹介しています。また、Bhavesh さんは、LangChain に関する動画をプレイリストにアップロードしており、動画の中で Google Cloud の生成 AI の新しいコースを紹介しています。
GDG Cloud Saudi による Attention Mechanisms and Transformers には、ML GDE の Ruqiya Bin Safi さん(サウジアラビア)が講演者として参加し、NLP における Attention 機構と Transformer について説明しました。もう 1 つのイベント、Hands-on with the PaLM2 API to create smart apps(ジェッダ)では、LLM、PaLM 2、Bard とは何か、PaLM 2 API の使用方法、PaLM 2 API を使用してスマートアプリを作成する方法を詳しく説明しました。
ML GDE の Henry Ruiz さん(米国)とウェブ GDE の Rabimba Karanjai さん(米国)による Hands-on with Generative AI: Google I/O Extended [Virtual] は、生成 AI の ワークショップであり、PaLM API、Hugging Face Transformers、LangChain フレームワークなどのツールの使い方を実践的なデモで示しました。
ML GDE の Kuan Hoong さん(マレーシア)は Google I/O Extended George Town 2023 で行ったセッション、Generative AI with Google PaLM and MakerSuite で、Google PaLM と MakerSuite を使った LLM について説明しました。このイベントは GDG George Town が主催し、LLM、責任ある AI、MLOps など、ML に関するトピックが取り上げられました。
TFUG São Paulo による Intro to Gen AI with PaLM API and MakerSuite は、生成 AI について学び、Google のツールが導入と価値の創造にどのように役立つかを知りたい人を対象としており、MakerSuite を使用して生成 AI のアイデアのプロトタイピングを開始する方法や、PaLM2 および PaLM API の高度な機能にアクセスする方法について解説されています。また、Opening Pandora's box: Understanding the paper that revolutionized the field of NLP(動画)をホストし、ML GDE の Pedro Gengo さん(ブラジル)と ML GDE の Vinicius Caridá さん(ブラジル)が、人気の LLM やその他の生成 AI モデルの背後にある秘密を明らかにしました。このグループのメンバーは、Attention Is All You Need という論文を一緒に研究し、このテクノロジーが提供する最大の可能性について学びました。
GDG Cloud Taipei による Language models which PaLM can speak, see, move, and understand は、PaLM の概念とその応用を理解したい人が対象でした。ML GED の Jerry Wu さん(台湾)が PaLM の主な特徴や機能などについて説明しました。
ML GDE の Chansung Park さん(韓国)と ML GDE の Sayak Paul さん(インド)による Serving With TF and GKE: Stable Diffusion では、TF Serving と Kubernetes エンジンがオンライン デプロイでシステムにどのようにサービスを提供できるかを論じています。す。Stable Diffusion を主要なコンポーネントに分類し、それらがその後のデプロイの検討にどのような影響を与えるかを示した上で、TF Serving のデプロイや k8s クラスタの構成など、デプロイ固有の部分についても取り上げました。
ML GDE の Chansung Park さん(韓国)による TFX + W&B Integration では、KerasTuner を TFX Tuner コンポーネント内の W&B の試験追跡機能と組み合わせてどのように使用できるかを紹介しています。Chansung さんはカスタム TFX コンポーネントを開発して、完全に訓練されたモデルを W&B アーティファクト ストアにプッシュし、現在のバージョンのモデルを用いて Hugging Face Space 上で動作するアプリケーションを公開しています。さらに、ML Infra and High Level Framework in Google Cloud Platform と題したトークでは、MLOps とは何か、なぜ難しいのか、なぜクラウド + TFX が適切な開始点なのか、そして TFX が Vertex AI や Dataflow とどのようにシームレスに統合されるのかについて説明しました。また、ML GDE の Sayak Paul さん(インド)と過去 2 年間に行ったプロジェクトのユースケースを共有しました。
ML GDE の Sayak Paul さん(インド)による Open and Collaborative MLOps は、オープン性とコラボレーション性が MLOps の 2 つの重要な側面である理由についてのトークでした。Sayak さんは、Hugging Face Hub の概要と、それが TFX とどのようにうまく統合されて MLOps ワークフローのオープン性とコラボレーション性を促進するのかについて説明しました。
ML GDE の Grigory Sapunov さん(英国)による Paper review: PaLM 2 Technical Report では、PaLM 2 と論文を詳しく考察しています。Grigory さんは自身のソーシャル チャンネルで Google と DeepMind に関連する論文のレビューを公開しています。そのいくつかは次のとおりです。Model evaluation for extreme risks(論文)、Faster sorting algorithms discovered using deep reinforcement learning(論文)、Power-seeking can be probable and predictive for trained agents(論文)。
Learning JAX in 2023: Part 3 — A Step-by-Step Guide to Training Your First Machine Learning Model with JAX では、ML GDE の Aritra Roy Gosthipaty さん(インド)と ML GDE の Ritwik Raha さん(インド)が、JAX による線形および非線形回帰モデルのトレーニング方法と、PyTrees ライブラリを使用して多層パーセプトロン モデルをトレーニングする方法を示しています。また、Aritra さんと Ritwik さんは、TFUG Mumbai が主催した 2023 年 5 月のミートアップで、Decoding End to End Object Detection with Transformers と題した講演を行い、モードのアーキテクチャのほか、DETR の発端となったさまざまなコンポーネントについて取り上げました。
ML GDE の Jerry Wu さん(台湾)による 20 steps to train a deployed version of the GPT model on TPU では、JAX と TPU を使用して中国語の質問応答データをトレーニングおよび推測する方法が示されました。
TFUG Singapore による Multimodal Transformers - Custom LLMs, ViTs & BLIPs では、マルチモーダル タスクに関連して最近どのようなモデル、システム、手法が登場したかを考察しています。ML GDE の Sam Witteveen さん(シンガポール)は、さまざまなマルチモーダル モデルとシステムを取り上げ、Palm2 モデルを使用して独自のモデルとシステムを構築する方法を紹介しています。このグループは 6 月に、Google Research の副社長兼フェローである Blaise Agüera y Arcas を招き、Cerebra プロジェクトに加えて、生成 AI の現在および将来の発展や新たなトレンドなど、Google DeepMind で進められている研究について情報を共有しました。
ML GDE の Thushan Ganegedara さん(オーストラリア)による Training a recommendation model with dynamic embeddings では、TensorFlow Recommenders (TFRS)と TensorFlow Recommenders Addons (TFRA)を活用して、映画レコメンダー モデルを構築する方法について説明しました。TFRA ライブラリで提供される動的埋め込みを使用して、レコメンデーション設定の埋め込みテーブルのサイズを動的に拡大および縮小する方法が重点的に取り上げられました。
ML GDE の Mathis Hammel さん(フランス)による How I built the most efficient deepfake detector in the world for $100 は、ThisPersonDoesNotExist.com で生成されたイメージを検出する方法、さらには写真が生成された正確な時刻を知る方法を紹介するトークでした。Twitter スレッド OSINT Investigation on LinkedIn は、LinkedIn 上の偽企業を調査した内容をまとめたものです。Mathis さんは TensorFlow モデルをベースにした自作のツールを使い、調査結果を Google Cloud でホストしており、スレッドには生成ニューラル ネットワークの技術的な解説も盛り込まれています。701,000 人以上がこのスレッドを閲覧し、スレッドは 1,200 以上のリツイートと 3,100 以上の「いいね!」を獲得しました。
ML GDE の Hugo Zanini さん(ブラジル)による Few-shot learning: Creating a real-time object detection using TensorFlow and Python は、ウェブカメラを使用してオブジェクトの写真を撮り、イメージにラベルを付け、フューショット学習モデルをトレーニングしてリアルタイムで実行する方法を紹介しています。また、Hugo さんは、Custom YOLOv7 Object Detection with TensorFlow.js という記事で、カスタム YOLOv 7 モデルをトレーニングし、TensorFlow.js を使ってリアルタイムかつオフラインで直接ブラウザ上で実行した方法について説明しています。
ML GDE の Gema Parreno Piqueras さん(スペイン)による The Lord of the Words : The Return of the experiments with DVC(スライド)は、ニューラル機械学習シナリオにおける Transformer について解説し、Tensorflow と DVC の使用方法を説明するトークでした。Gema さんはプロジェクトで、Tensorflow データセット翻訳カタログを使用して、さまざまな言語からデータを読み込み、TensorFlow Transformers ライブラリを使用して複数のモデルをトレーニングしました。
ML GDE の Sayak Paul さん(インド)は、Cloud Community Days Kolkata 2023 と Cloud Community Days Pune 2023 で、2 つのセッション Accelerate your TensorFlow models with XLA(スライド)と Ship faster TensorFlow models with XLA を行い、XLA を使用して TensorFlow モデルを高速化する方法について説明しました。
ML GDE の Rubens Zimbres さん(ブラジル)は Setup of NVIDIA Merlin and TensorFlow for Recommendation Models の中で、レコメンデーション アルゴリズムと Two-Tower アルゴリズムをレビューし、オンプレミスと Vertex AI での NVIDIA Merlin のセットアップについて説明しました。
ML GDE の Paolo Galeone さん(イタリア)による AutoML pipeline for tabular data on VertexAI in Go は、VertexAI と AutoML で Go 言語を使用した表形式モデルの開発とデプロイを掘り下げ、実際の Go コードを紹介しているほか、ドキュメンテーションの制約を克服するために行われた試行錯誤と Google の広範囲にわたる調査を通じて得られた知見が共有されています。
ML GDE の Pedro Gengo さん(ブラジル)と ML GDE の Vinicius Caridá さん(ブラジル)による Beyond images: searching information in videos using AI(スライド)では、動画内の情報を検索できる検索エンジンの作成方法を紹介しました。Pedro さんと Vinicius さんは、音声の文字起こしを行い、フレームにキャプションを付け、このテキストを埋め込みに変換し、べクター DB に保存して、特定のユーザークエリを検索できるようにするアーキテクチャを発表しました。
ML GDE の Gant Laborde さん(米国)による The secret sauce to creating amazing ML experiences for developers は、Gant さんの「ひらめきの」瞬間、ML に携わった 20 年間の経験、そして楽しく有意義なエクスペリエンスを構築するためにデベロッパーが知るべき秘訣について共有するポッドキャストでした。
ML GDE の Gad Benram さん(ポルトガル)による What's inside Google’s Generative AI Studio? では、新機能のプレビューと、新機能に何が期待できるかが解説されています。さらに、Gad さんは、How to pitch Vertex AI in 2023 で、Vertex AI が最適なプラットフォームであることをお客様に納得させる方法について、Google Cloud の担当者向けにシンプルで偽りのないセールストークの 6 つの要点を示しました。
ML GDE の Sachin Kumar さん(カタール)は、How to build a conversational AI Augmented Reality Experience with Sachin Kumar で、Google Cloud AI や Unity など、複数のテクノロジーを組み合わせて AR アプリを作成する方法について説明しました。セッションでは、アプリをゼロからビルドするプロセスを順を追って解説しました。
ML GDE の Nitin Tiwari さん(インド)による Machine Learning on Google Cloud Platform は、ML モデルをトレーニングして、GCP を使ってデプロイするために必要なプロセスを受講者が深く理解できるようにするメンタリングでした。また、Nitin さんは、Building robust ML solutions with TensorFlow and GCP で、GCP と TensorFlow の機能を ML ソリューションに活用して、カスタム ML モデルをデプロイする方法について説明しました。
TFUG Prayagraj による Data to AI on Google cloud: Auto ML, Gen AI, and more では、AutoML や生成 AI など、Google Cloud の高度な AI テクノロジーを活用する方法を学ぶことができました。