Eh bien, Google recommence à ne pas jouer franc jeu ! Gemma 4 12B, cette opération va faire exploser le modèle multimodal !
Pour être honnête, j'ai été un peu choqué quand j'ai vu ce truc. Gemma 4 12B, l'essence même est "unifié, multimodal sans encodeur". En termes simples, ce modèle peut comprendre simultanément le texte, les images et même les vidéos, comme un cerveau humain qui intègre diverses informations, et en plus, l'architecture est plus simple et l'efficacité est censée être meilleure.
HackerNews a déjà 1012 likes et 381 commentaires, les gars, cet engouement n'est pas à prendre à la légère. Avec 12B de paramètres, Google semble vraiment vouloir faire des vagues sur le chemin de l'IA générale. Ce concept de "sans encodeur", j'attends de voir ses performances réelles.
Quoi qu'il en soit, je l'ai déjà marqué, prêt à creuser ce nouveau trou d'architecture. Voici le lien, ceux qui s'y connaissent peuvent aller jeter un œil, ne vous fiez pas seulement à moi !
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
#AI大模型 #谷歌AI #Gemma #multimodal