Forscher der University of Washington haben Guanaco vorgestellt, einen Open-Source-Chatbot, der die Leistung von ChatGPT erreichen soll und gleichzeitig den Zeit- und Ressourcenaufwand für das Training deutlich reduziert. Guanaco wurde nach einem südamerikanischen Verwandten der Lamas benannt, basiert auf dem Sprachmodell LLaMA und enthält eine neuartige Feinabstimmungsmethode namens QLoRA.

Metaverse-Beitrag (mpost.io)

Die Entwickler von Guanaco behaupten, dass es eine vergleichbare Leistung wie ChatGPT erreicht, aber in nur einem Tag trainiert werden kann. Diese bemerkenswerte Leistung wird durch QLoRA ermöglicht, eine Feinabstimmungstechnik für Sprachmodelle, die den für das Training benötigten GPU-Speicher erheblich reduziert. Während ChatGPT für ein Modell mit 65 Milliarden Parametern satte 780 GB GPU-Speicher benötigt, benötigt die einfachste Version von Guanaco nur 5 GB.

Mit diesen beeindruckenden Effizienzgewinnen stellen Guanaco und ähnliche Open-Source-Modelle die Vorstellung in Frage, dass für moderne Sprachmodelle teures Training notwendig ist. Das Aufkommen von Guanaco, Alpaca und anderen Modellen, die zu einem Bruchteil der Kosten trainiert werden können, hat zu Spekulationen über die Zukunft teurer Modelle wie GPT geführt.

Allerdings ist nicht jeder mit dieser optimistischen Sichtweise auf Open-Source-Modelle einverstanden. Eine aktuelle Studie der University of California hat Zweifel an den Fähigkeiten von Modellen wie Alpakas geweckt und Fragen zu ihrem wahren Potenzial aufgeworfen. Die Forscher kamen zunächst zu einem ähnlichen Schluss wie die Entwickler von Guanaco: Bei richtiger Schulung können Open-Source-Modelle in Bezug auf ihre Fähigkeiten mit GPT mithalten. Weitere Tests offenbarten jedoch eine erhebliche Einschränkung. Diese „Dolly“-Modelle, wie sie manchmal genannt werden, sind gut darin, Lösungen für Probleme zu imitieren, auf die sie während des Trainings gestoßen sind. Bei Aufgaben, mit denen sie nicht explizit konfrontiert wurden, haben sie jedoch Schwierigkeiten, gute Ergebnisse zu erzielen, und bleiben hinter fortgeschritteneren Modellen zurück.

Diese Enthüllung lässt darauf schließen, dass die Millionen, die in das Training von GPT und ähnlichen Modellen investiert wurden, vielleicht nicht umsonst waren. Guanaco und seine Gegenstücke liefern zwar vielversprechende Ergebnisse, es gibt jedoch immer noch Bereiche, in denen ausgefeiltere Modelle herausragend sind. Es ist erwähnenswert, dass die von der University of California durchgeführte Forschung die vorherrschende Meinung in Frage stellt, dass Open-Source-Modelle teure Modelle wie GPT vollständig ersetzen können.

Da sich das Feld der natürlichen Sprachverarbeitung weiterentwickelt, wird es interessant zu beobachten sein, wie Guanaco und andere Open-Source-Modelle im Vergleich zu etablierten Benchmarks wie ChatGPT abschneiden. Die hohe Innovationsrate und kontinuierliche Forschung werden zweifellos die Zukunft von Sprachmodellen beeinflussen und bestimmen, welche Modelle für bestimmte Anwendungen die erste Wahl sein werden.

  • Dolly 2.0, das erste kommerziell erhältliche Open-Source-12B-Chat-LLM, wurde von Databricks angekündigt. Dies ist ein bedeutender Fortschritt für die Branche des maschinellen Lernens, der es Unternehmen ermöglicht, effektive Sprachmodelle zu erstellen, ohne in teure GPU-Cluster investieren zu müssen. Databricks beschäftigte 5.000 Mitarbeiter mit der Erstellung seines Open-Source-Sprachmodells, das das Pythia-12B-Sprachmodell von EleutherAI unter einer MIT-Lizenz enthielt. Dolly 2.0 sowie der zugehörige Code sind unter einer MIT-Lizenz erhältlich. Dolly 2.0 hat das Potenzial, die Branche zu verändern, und ist ein bedeutender Fortschritt für das maschinelle Lernen.

Lesen Sie mehr zum Thema KI:

  • GPT-gestützte Chatbots und KI-Assistenten für Ärzte verändern das Gesundheitswesen

  • SoundStorm: Google stellt ein erschreckendes KI-Tool vor, das Stimmen in Echtzeit reproduzieren kann

  • Die Leistung von GPT-4 bei der US-Anwaltsprüfung widerspricht seinen Behauptungen

Der Beitrag „Guanaco entwickelt sich zu einem potenziellen Open-Source-Konkurrenten von ChatGPT“ erschien zuerst auf Metaverse Post.