Ehi, Google ha ricominciato a fare le cose a modo suo! Gemma 4 12B, questa mossa ha portato i modelli multimodali a un altro livello!
A dire il vero, quando ho visto questa cosa, sono rimasto un po' scioccato. Gemma 4 12B, il cuore del discorso è "unificato, senza encoder multimodale". Tradotto in parole semplici, questo modello può comprendere testo, immagini e persino video, integrando le informazioni come un cervello umano, e la sua architettura sembra essere più semplice e con un'efficienza, si dice, superiore.
Su HackerNews ha già ricevuto 1012 like e 381 commenti, ragazzi, questo è un hype che non si può sottovalutare. Con 12B di parametri, Google sembra seriamente intenzionata a fare grandi movimenti nel campo dell'AI generale. Sono molto curioso di vedere le prestazioni reali di questo approccio "senza encoder".
Comunque, io l'ho già segnato, pronto a scavare a fondo in questo nuovo modello. Ecco il link, chi se ne intende, faccia un salto a dare un'occhiata, non fidatevi solo di me!
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
#AI大模型 #谷歌AI #Gemma #multimodale