Gemini 2.0 - Ein Modell für „Alles“
Google stellte Gemini 2.0 vor, ein experimentelles KI-Modell, das als transformativer Schritt in Richtung eines "universellen Assistenten" gefeiert wird.
Das Modell, das autonom Websites navigieren kann, zielt darauf ab, die Benutzer zu ermächtigen, fortgeschrittene KI-Agenten zu entwickeln.
CEO Sundar Pichai beschrieb es als die fähigste Schöpfung von Google, die für die "agentische Ära" konzipiert wurde.
Wir starten die Ära von Gemini 2.0 mit Gemini 2.0 Flash, das in wichtigen Benchmarks mit 2X Geschwindigkeit besser abschneidet als 1.5 Pro (siehe Diagramm unten). Ich bin besonders gespannt auf die schnellen Fortschritte beim Codieren, mit mehr, das noch kommt.
Entwickler können eine experimentelle Version in AI ausprobieren… pic.twitter.com/iEAV8dzkaW
— Sundar Pichai (@sundarpichai) 11. Dezember 2024
Dieser Start unterstreicht Googles Engagement, das Rennen um KI inmitten des heftigen Wettbewerbs mit Branchenriesen wie Meta und Microsoft anzuführen.
Das Modell wird über Produkte hinweg eingeführt
Pichai kündigte an, dass Gemini 2.0, das über fortschrittliche multimodale Fähigkeiten verfügt, bald in die Produktpalette integriert wird, die nativ Bild- und Audioausgaben unterstützt.
Wir freuen uns, Gemini 2.0 vorzustellen - unser bisher fähigstes KI-Modell - mit 2.0 Flash Experimental.
Ab heute können alle Gemini-Nutzer eine chat-optimierte Version von Gemini 2.0 Flash Experimental ausprobieren, mit verbesserter Leistung bei einer Reihe von wichtigen Benchmarks und Geschwindigkeit.… pic.twitter.com/HTIn1dDg7J
— Google Gemini App (@GeminiApp) 11. Dezember 2024
Dies folgt auf die Veröffentlichung von Gemini 1.0 im Dezember 2023, das als das erste "nativ multimodale" Modell angepriesen wird, das in der Lage ist, Text-, Video-, Bild-, Audio- und Code-Anfragen zu verarbeiten und darauf zu reagieren.
Die neueste Version spiegelt Googles Bestreben wider, an der Spitze der wettbewerbsintensiven KI-Landschaft zu bleiben.
Pichai stellte fest:
„Wenn Gemini 1.0 darum ging, Informationen zu organisieren und zu verstehen, geht es bei Gemini 2.0 darum, sie viel nützlicher zu machen.“
Gemini 2.0, das fast 10 Monate nach dem Zwischenmodell 1.5 debütiert, bleibt in einer experimentellen Vorschau.
Derzeit ist nur die kleinere, kosteneffiziente 2.0 Flash-Variante verfügbar, hauptsächlich für Entwickler und Tester.
Demis Hassabis, CEO von Google DeepMind, beschrieb den Start als einen bedeutenden Meilenstein für das Unternehmen, trotz seiner begrenzten anfänglichen Veröffentlichung.
Hassabis erklärte:
„Es ist so gut wie das aktuelle Pro-Modell. Man kann es also als eine ganze Stufe besser betrachten, bei der gleichen Kosten- und Leistungs- sowie Geschwindigkeitseffizienz. Wir sind damit wirklich zufrieden.“
Andere Gemini-Nutzer haben weiterhin Zugang zu 1.5 Flash, das für seine Geschwindigkeit und Effizienz bekannt ist.
Obwohl unsere experimentellen Modelle sicherheitsoptimiert sind, im Einklang mit unserem Ansatz und unseren Richtlinien, sind sie eine frühe Vorschau und funktionieren möglicherweise nicht wie erwartet. Darüber hinaus werden einige Gemini-Funktionen nicht mit diesen Modellen in ihrem experimentellen Zustand kompatibel sein.
— Google Gemini App (@GeminiApp) 11. Dezember 2024
Nicht nur Gemini 2.0, Google kündigt eine Vielzahl von Funktionen an
Google hat ehrgeizige Pläne für sein neuestes KI-Modell, Gemini 2.0, skizziert, das, wie Pichai sagt, die bereits für eine Milliarde Nutzer verfügbare AI Overviews-Funktion verbessern wird.
Pichai stellte fest, dass AI Overviews schnell eines von Googles beliebtesten Suchwerkzeugen wird.
Mit der Integration von Gemini 2.0 wird die Funktion in der Lage sein, komplexe, mehrstufige Anfragen zu bearbeiten, wie z.B. mathematische Gleichungen zu lösen und multimodale Fragen zu beantworten.
Die eingeschränkten Tests für das Modell begannen in dieser Woche, aber ein breiterer Zugang zu seinen Denkfähigkeiten ist für Anfang nächsten Jahres geplant.
Das Modell arbeitet auf dem 6. Generation KI-Chip von Google, Trillium, der zeitgleich mit der Ankündigung debütierte.
Laut dem Unternehmen bietet Trillium die vierfache Leistung und ist 67% energieeffizienter als sein Vorgänger.
Google Cloud-Kunden haben jetzt Zugang zu dieser hochmodernen Hardware.
Zu den neuen Funktionen, die von Gemini 2.0 unterstützt werden, gehört "Deep Research", ein fortgeschrittener Forschungsassistent, der innerhalb von Gemini Advanced verfügbar ist.
Dieses Tool nutzt Denk- und Langzeitkontextfähigkeiten, um detaillierte Forschungsberichte zu erstellen.
Wir investieren in die Grenzen von agentischen Fähigkeiten mit einigen frühen Prototypen. Projekt Mariner ist mit Gemini 2.0 gebaut und kann Informationen - Pixel, Text, Code, Bilder + Formulare - auf Ihrem Bildschirm verstehen und verarbeiten, und nutzt diese Informationen dann, um… pic.twitter.com/zM1SKahg86
— Sundar Pichai (@sundarpichai) 11. Dezember 2024
Der CEO von Google DeepMind, Demis Hassabis, bemerkte, dass diese Fortschritte die Grundlage für ein transformatives 2025 schaffen:
„Wir sehen 2025 wirklich als den wahren Beginn der agentenbasierten Ära.“
Google stellte auch Projekt Mariner vor, eine experimentelle Chrome-Erweiterung, die in der Lage ist, autonom durch Webbrowser zu navigieren, und führte Jules ein, einen KI-Agenten, der Entwicklern helfen soll, Codierungsfehler zu identifizieren und zu beheben.
Eine weitere von Gemini unterstützte Funktion, die von Hassabis als "Osterei" beschrieben wird, ist ein Gaming-Assistent, der in der Lage ist, den Bildschirm eines Nutzers zu analysieren und das Gameplay zu verbessern - ein Zeugnis für die wahren multimodalen Fähigkeiten des Modells.
ICYMI: Wir befinden uns in unserer Gemini 2.0 Ära 🧵↓ https://t.co/w2pHRWutgJ
— Google Gemini App (@GeminiApp) 12. Dezember 2024
