Hei, Google iar a început să joace murdar! Gemma 4 12B, mișcarea asta a dus modelele multimodale la un alt nivel!
Sincer, când am văzut chestia asta, am rămas puțin șocat. Gemma 4 12B, esența e „unificare, multimodal fără encoder”. Tradus în limbaj normal, modelul ăsta poate să înțeleagă simultan text, imagini și chiar video, ca un creier uman care îmbină toate informațiile, și pe deasupra, arhitectura e și mai simplă, eficiența se zice că e și mai mare.
Pe HackerNews sunt 1012 like-uri și 381 de comentarii, fraților, popularitatea asta nu e de joacă. Cu 12B de parametri, Google chiar plănuiește să facă niște mișcări mari în domeniul AI-ului general. Ideea asta de „fără encoder” mă face să aștept cu nerăbdare să văd cum se comportă în realitate.
Oricum, eu am marcat-o, pregătesc să săpăm adânc în acest nou model. Am pus linkul aici, cei care se pricep să-l verifice, nu mă credeți pe cuvânt!
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/
#AI大模型 #谷歌AI #Gemma #multimodal