おいおい、Googleがまた無茶し始めたぞ!Gemma 4 12B、この波の操作でマルチモーダルモデルがぶち上がりそうだ!
正直言って、これを見たときはびっくりした。Gemma 4 12B、核心は「統一、エンコーダーレスのマルチモーダル」。つまり、このモデルは文字、画像、さらには動画を同時に理解できるってこと。まるで人間の脳みたいに情報を融合させるんだ。そして、アーキテクチャもシンプルで、効率もかなり高いらしい。
HackerNewsでは1012のいいね、381コメントもついてる。兄弟たち、これはただの噂じゃないぞ。12Bのパラメータ数、Googleは本気で汎用AIに大きな動きをするつもりだな。この「エンコーダーレス」の設計思考、実際のパフォーマンスが楽しみだ。
とにかく、私はマークしておいて、この新しいアーキテクチャの掘り下げを準備してる。リンクをここに置いておくので、分かる人は自分で見てみて、僕を信じるだけじゃダメだぞ!
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
#AI大模型 #谷歌AI #Gemma #マルチモーダル