Mit Bildern und Texten können Sie in drei Schritten schnell ein „Genshin Impact“-Manuskript erstellen! Das erste 7-Milliarden-Parameter-Grafik- und Text-Hybrid-Erstellungsmodell ist offiziell Open Source und erzeugt Meisterwerke mit einem Klick

Quelle des Nachdrucks des Artikels: Der Trend der KI
Originalquelle: Xinzhiyuan
Bildquelle: Erstellt von Unbounded AI
Die Ära der freien Hände und der Verwendung des Mundes zum Programmieren ist wirklich angebrochen.
Wenn Sie ein Werbedokument für „Genshin Impact“ schreiben möchten, müssen Sie nicht im Internet nach verschiedenen Materialien suchen. Sie müssen dem Modell lediglich die Anweisung geben, „mir beim Schreiben eines Artikels mit dem Titel „Genshin Impact“ zu helfen.“ ."
Wichtige Punkte wie der Hintergrund des Spiels, die Startzeit und der Einfluss wurden aufgeschrieben. Als nächstes können Sie LLM auch automatisch interessante und lebendige Bilder einfügen lassen.
Im Handumdrehen ist das individuelle Meisterwerk fertig.
Welches Modell hat also eine solche magische Kraft?
Es handelt sich um InternLM-XComposer (im Folgenden „Puyu Lingbi“ genannt). Dies ist das erste große Modell der Hybriderstellung aus Grafik und Text, das vom Shanghai Artificial Intelligence Laboratory (Shanghai AI Laboratory) eingeführt wurde.
Dank der leistungsstarken multimodalen Leistung können Sie mit einem Klick gemischte Grafik- und Textartikel erstellen und so mehr Möglichkeiten für die Anwendung großer Modelle bieten.
Derzeit hat Puyu Lingbi die Versionen „Intelligente Erstellung und Dialog“ (InternLM-XComposer-7B) und „Multitasking-Vortraining“ (InternLM-XComposer-VL-7B) als Open Source bereitgestellt und zur kostenlosen kommerziellen Nutzung bereitgestellt.
Open-Source-Link: https://github.com/InternLM/InternLM-XComposer
Technischer Bericht: https://arxiv.org/abs/2309.15112
Seit Juli dieses Jahres hat das Shanghai AI Laboratory sukzessive die Versionen 7B (InterLM-7B) und 20B (InternLM-20B) des großen Sprachmodells Shusheng Puyu als Open-Source-Version bereitgestellt und stellt der Branche eine vollständige F&E- und Anwendungsbasis für große Modelle zur Verfügung Kettenwerkzeugsystem.
Basierend auf dem Scholar·Puyu Large Language Model (InternLM) akzeptiert Puyu Lingbi visuelle und sprachliche modale Eingaben. Es funktioniert nicht nur gut im Bild- und Textdialog, sondern bietet auch die Möglichkeit, Artikel mit Bildern und Texten mit einem Klick zu generieren Texte.
Genaues Bild- und Textverständnis, Bilder und Text mit einem Klick
Puyu Lingbi kann fließend Bild- und Textgespräche auf Chinesisch und Englisch führen und den Bildinhalt genau verstehen. Dank der Vorteile der hochwertigen mehrsprachigen Vorschulung von Shusheng·PuYu hat PuYu Lingbi seine profunden Kenntnisse der chinesischen Kultur unter Beweis gestellt.
Als beispielsweise relevante Gemälde in Puyu Lingbi eingegeben wurden, erkannte und reagierte es schnell, dass das Thema des Gemäldes eine Anspielung auf die „Schlacht am Roten Kliff“ war. Es konnte auch die Schlüsselfaktoren für Erfolg oder Misserfolg genau darstellen und so seine Exzellenz demonstrieren Leistung beim Verstehen von Bildinhalten und beim Speichern von Wissen.
Puyu Lingbi identifiziert chinesische kulturelle Anspielungen
Zusätzlich zu den „Grundkenntnissen“ des multimodalen Bild-Text-Dialogs hat Puyu Lingbi eine neue Fähigkeit freigeschaltet, Artikel mit Bildern und Texten zu erstellen.
Große Sprachmodelle (LLM) verfügen über die Fähigkeit, Text zu schreiben, aber hochwertige Artikel erfordern oft genaue und interessante Illustrationen, um „lebendiger“ zu sein.
Das Puyu Lingbi-Team hat die leistungsstarken Sprachfähigkeiten von Puyu auf Multimodalität ausgeweitet und ermöglicht so die Erstellung multimodaler Artikel. Benutzer müssen nur ein Thema angeben und können mit einem Klick Artikel mit Bildern und Texten generieren und ein neues Paradigma der visuellen und Texterstellung erleben.
Xiang Puyu Lingbi schlug beispielsweise vor, einen Reiseführer zu erstellen. Das Modell kann schnell einen langen Artikel über die historische Entwicklung und Einführung wichtiger Sehenswürdigkeiten und kultureller Relikte erstellen und automatisch Bilder einfügen, die den Textinformationen an den entsprechenden Stellen entsprechen.
Neben der Möglichkeit, Bilder automatisch abzugleichen, bietet Puyu Lingbi auch Bildempfehlungs- und Ersetzungsfunktionen, um Grafik- und Textinhalte an die tatsächlichen Bedürfnisse der Benutzer anzupassen.
Puyu Lingbi erstellt einen chinesischen Reiseführer
Derzeit unterstützt Puyu Lingbi die Erstellung von Bildern und Texten für populärwissenschaftliche Manuskripte, Marketinganzeigen, Pressemitteilungen, Film- und Fernsehrezensionen, Lebensratgeber und andere Arten von Artikeln und wird nach und nach weitere Möglichkeiten zur Anpassung an vielfältigere Aufgaben eröffnen Bedürfnisse.
Puyu Lingbi generiert englische Filmkritiken
„Drei Schritte“ zum Erstellen grafischer Artikel
Puyu Lingbi hat einen „dreistufigen“ Algorithmusprozess für die Erstellung grafischer Artikel entwickelt.
Prozess der Erstellung grafischer Artikel von Puyu Lingbi
Verstehen Sie Benutzeranweisungen und erstellen Sie lange Artikel, die den Themenanforderungen entsprechen: Puyu Lingbi verfügt über leistungsstarke Schreibfähigkeiten und kann Artikel mit herausragendem literarischen Talent basierend auf den vom Benutzer eingegebenen Themen erstellen.
Durch die intelligente Analyse des Artikels plant das Modell automatisch den idealen Ort der Illustration und generiert die Inhaltsanforderungen des erforderlichen Bildes: Puyu Lingbi analysiert automatisch den Artikelinhalt und das Absatzlayout und plant den Ort des erforderlichen Illustrationsbilds. Für jedes Modell wird ermittelt, wo eine Illustration erforderlich ist, und eine Beschreibung der Anforderungen an den Bildinhalt erstellt.
Das mehrstufige intelligente Screening nutzt die Bildverständnisfähigkeit multimodaler großer Modelle, um die perfektesten Bilder aus der Galerie einzuschließen: Mithilfe einer Bildanpassungsstrategie vom groben Screening bis zur Auswahl entsprechend den Anforderungen der Generierung von Bildinhalten wird Puyu Lingbi dies tun Bei der ersten Verwendung von Bildern wählt die Text-Image-Retrieval-Methode eine Reihe von Kandidatenbildern aus einer riesigen Bibliothek aus. Anschließend wird die leistungsstarke Bildverständnisfähigkeit des multimodalen Großmodells genutzt und die Kandidatenbilder als Eingabeinhalte verwendet, sodass das Modell automatisch die Bilder auswählen kann, die am besten zum kontextuellen Inhalt und zum Gesamtbildstil des Artikels passen Vervollständigen Sie die automatische Illustration des Artikels.
Fähigkeitsbewertung: Umfassendes führendes multimodales Open-Source-Großmodell
Die hervorragenden Grafik- und Texterstellungseffekte von Puyu Lingbi profitieren von den leistungsstarken multimodalen Verständnisfähigkeiten seines Multitasking-Vortrainingsmodells (InternLM-XComposer-VL-7B).
Die Forscher führten einen detaillierten Test der Fähigkeiten von InternLM-XComposer-VL-7B unter Verwendung von fünf gängigen multimodalen großen Modellbewertungen durch, darunter:
- MME-Benchmark: Eine umfassende Bewertung multimodaler Modelle mit 14 Teilaufgaben, die sich auf die Wahrnehmungs- (Perception) und Kognitionsfähigkeiten (Recognition) des Modells konzentrieren;
- MMBench: umfasst 20 Fähigkeitsdimensionen und eine multimodale Bewertung mithilfe der ChatGPT-Zyklusbewertungsstrategie;
- MMBench-CN: MMBench-Überprüfung der vereinfachten chinesischen Version von Fragen und Antworten;
- Seed-Bench: Bietet eine multimodale Bewertung, einschließlich 19.000 manuell markierter multimodaler Multiple-Choice-Fragen;
- CCBench: Chinesische multimodale Bewertung zum Verständnis der chinesischen Kultur.
Die Bewertungsergebnisse zeigen, dass Puyu Lingpen in den oben genannten fünf multimodalen Bewertungen auf Chinesisch und Englisch hervorragende Leistungen erbracht hat.
Leistungsvergleich zwischen Puyu Lingbi und anderen Open-Source-Modellen
MME Benchmark konzentriert sich auf die Wahrnehmungs- und Erkennungsfähigkeiten des Modells, und Puyu Lingbi ist führend bei der umfassenden Leistung.
MMBench umfasst 20 Fähigkeitsgegenstände und Puyu Lingbi erzielte die besten Ergebnisse.
MMBench-CN ist die chinesische Version der MMBench-Bewertung, die sich auf die multimodale Verständnisfähigkeit des chinesischen Modells konzentriert. Puyu Lingbi erzielte ebenfalls die besten Ergebnisse, was seine starken chinesischen Fähigkeiten widerspiegelt.
SEED-Bench bietet 19.000 multimodale Multiple-Choice-Fragen einschließlich manueller Anmerkungen und deckt 12 Bewertungsdimensionen ab. Puyu Lingbi verfügt über eine hervorragende Genauigkeit beim Verständnis von Bildinhalten.
Im CCBench, einer multimodalen Bewertung zum Verständnis der chinesischen Kultur, lagen die Bewertungsergebnisse von Puyu Lingbi deutlich vorn, was seinen umfassenden Wissensaufbau in der chinesischen Kultur deutlich widerspiegelt.
Puyu Lingbi ist jetzt Open Source und auf GitHub, Hugging Face und ModelScope verfügbar. Entwickler können es gerne herunterladen und ausprobieren.