Avec des images et des textes, vous pouvez produire rapidement un manuscrit « Genshin Impact » en trois étapes ! Le premier modèle de création hybride graphique et textuel de 7 milliards de paramètres est officiellement open source, générant des chefs-d'œuvre en un seul clic

Source de la réimpression de l'article : La tendance de l'IA
Source originale : Xinzhiyuan
Source de l'image : générée par Unbounded AI
L’ère de la liberté des mains et de l’utilisation de la bouche pour coder est vraiment arrivée.
Lorsque vous souhaitez rédiger un document promotionnel pour « Genshin Impact », vous n'avez pas besoin de rechercher sur Internet pour collecter divers documents. Il vous suffit de donner au modèle une instruction pour « m'aider à écrire un article avec le titre de Genshin Impact ». ".
Des points clés tels que l'arrière-plan du jeu, l'heure de lancement et l'influence ont été notés. Ensuite, vous pouvez également laisser LLM insérer automatiquement des images intéressantes et vives.
En un clin d’œil, le chef-d’œuvre personnalisé est terminé.
Alors, quel modèle a un tel pouvoir magique ?
Il s'agit d'InternLM-XComposer (ci-après dénommé « Puyu Lingbi »). Il s’agit du premier grand modèle de création hybride graphique et textuelle lancé par le Laboratoire d’Intelligence Artificielle de Shanghai (Shanghai AI Laboratory).
En vous appuyant sur de puissantes performances multimodales, vous pouvez débloquer la possibilité de créer des articles mixtes graphiques et textuels en un seul clic, offrant ainsi plus de possibilités pour l'application de grands modèles.
À l'heure actuelle, Puyu Lingbi a open source les versions de création et de dialogue intelligents (InternLM-XComposer-7B) et de pré-formation multitâche (InternLM-XComposer-VL-7B) et les a fournies pour une utilisation commerciale gratuite.
Lien open source : https://github.com/InternLM/InternLM-XComposer
Rapport technique : https://arxiv.org/abs/2309.15112
Depuis juillet de cette année, le Shanghai AI Laboratory a successivement ouvert les versions 7B (InterLM-7B) et 20B (InternLM-20B) du grand modèle de langage Shusheng Puyu, fournissant à l'industrie une base complète de R&D et d'applications sur les grands modèles, et système d'outil de chaîne.
Basé sur le Scholar·Puyu Large Language Model (InternLM), Puyu Lingbi accepte les entrées modales visuelles et linguistiques. Il fonctionne non seulement bien dans les dialogues d'images et de texte, mais a également la capacité de « générer en un clic » des articles avec des images et des textes. textes.
Compréhension précise des images et des textes, illustration et texte en un clic
Puyu Lingbi peut mener des conversations fluides sous forme d'images et de textes en chinois et en anglais et comprendre avec précision le contenu de l'image. Grâce aux avantages de la pré-formation multilingue de haute qualité de Shusheng·PuYu, PuYu Lingbi a démontré sa profonde connaissance de la culture chinoise.
Par exemple, lors de la saisie de peintures pertinentes dans Puyu Lingbi, il reconnaît et répond rapidement que le thème de la peinture est une allusion à la bataille de Red Cliff. Il peut également introduire avec précision les facteurs clés qui affectent le succès ou l'échec, reflétant son excellente performance. dans la compréhension du contenu des images et le stockage des connaissances.
Puyu Lingbi identifie des allusions culturelles chinoises
En plus des « compétences de base » du dialogue multimodal image-texte, Puyu Lingbi a débloqué une nouvelle capacité à créer des articles avec des images et des textes.
Les grands modèles linguistiques (LLM) ont la capacité d'écrire du texte, mais les articles de haute qualité nécessitent souvent des illustrations précises et intéressantes pour être « plus vivantes ».
L'équipe Puyu Lingbi a étendu la puissante capacité linguistique de Puyu à la multimodalité, lui permettant ainsi de réaliser la création d'articles multimodaux. Les utilisateurs n'ont qu'à fournir un sujet, et ils peuvent générer des articles avec des images et des textes en un seul clic, et découvrir un nouveau paradigme de création visuelle et textuelle.
Par exemple, Xiang Puyu Lingbi a proposé de créer un guide de voyage. Le modèle peut générer rapidement un long article couvrant l'évolution historique et l'introduction des principaux sites touristiques et reliques culturelles, et insérer automatiquement des images correspondant aux informations textuelles aux endroits appropriés.
En plus de la possibilité de faire correspondre automatiquement les images, Puyu Lingbi fournit également des fonctions de recommandation et de remplacement d'images pour personnaliser le contenu graphique et textuel en fonction des besoins réels des utilisateurs.
Puyu Lingbi génère un guide de voyage chinois
À l'heure actuelle, Puyu Lingbi a soutenu la génération d'images et de textes pour des manuscrits scientifiques populaires, des publicités marketing, des communiqués de presse, des critiques de films et de télévision, des guides de vie et d'autres types d'articles, et ouvrira progressivement davantage de capacités pour s'adapter à des tâches plus diverses. besoins.
Puyu Lingbi génère des critiques de films en anglais
"Trois étapes" pour créer des articles graphiques
Puyu Lingbi a conçu un processus algorithmique « en trois étapes » pour la création d'articles graphiques.
Processus de création d'articles graphiques Puyu Lingbi
Comprendre les instructions d'utilisation et créer de longs articles qui répondent aux exigences du sujet : Puyu Lingbi possède de puissantes capacités d'écriture et peut créer des articles compétents basés sur les sujets saisis par l'utilisateur.
Analyse intelligente de l'article, le modèle planifie automatiquement la position idéale de l'illustration et génère les exigences de contenu de l'image requise : Puyu Lingbi analyse automatiquement le contenu de l'article et la disposition des paragraphes, et planifie l'emplacement de l'image d'illustration requise. Pour chaque modèle, il détermine où une illustration est nécessaire et génère une description des exigences en matière de contenu de l'image.
Le filtrage intelligent à plusieurs niveaux utilise la capacité de compréhension d'image des grands modèles multimodaux pour verrouiller les images les plus parfaites de la galerie : en utilisant une stratégie de correspondance d'images depuis le filtrage grossier jusqu'à la sélection, en fonction des besoins de génération de contenu d'image, Puyu Lingbi le fera. Utilisez d'abord des images. La méthode de récupération d'images texte sélectionne un ensemble d'images candidates dans une bibliothèque massive. Par la suite, la puissante capacité de compréhension d'images du grand modèle multimodal est utilisée et les images candidates sont utilisées comme contenu d'entrée, permettant au modèle de sélectionner automatiquement les images qui correspondent le mieux au contenu contextuel et au style d'image global de l'article, et compléter l’illustration automatique de l’article.
Évaluation des capacités : grand modèle multimodal open source complet et de premier plan
Les excellents effets de création graphique et textuelle de Puyu Lingbi bénéficient des puissantes capacités de compréhension multimodale de son modèle de pré-formation multitâche (InternLM-XComposer-VL-7B).
Les chercheurs ont mené un test détaillé sur les capacités d'InternLM-XComposer-VL-7B à l'aide de 5 évaluations de grands modèles multimodaux grand public, notamment :
- MME Benchmark : une évaluation complète des modèles multimodaux comprenant 14 sous-tâches, axées sur les capacités de perception (Perception) et de cognition (Recognition) du modèle ;
- MMBench : comprend 20 dimensions de capacité et une évaluation multimodale utilisant la stratégie d'évaluation du cycle ChatGPT ;
- MMBench-CN : révision par MMBench de la version chinoise simplifiée des questions et réponses ;
- Seed-Bench : fournit une évaluation multimodale comprenant 19 000 questions multimodales à choix multiples marquées manuellement ;
- CCBench : évaluation multimodale chinoise pour comprendre la culture chinoise.
Les résultats de l'évaluation montrent que dans les cinq évaluations multimodales en chinois et en anglais ci-dessus, Puyu Lingpen a démontré d'excellentes performances.
Comparaison des performances entre Puyu Lingbi et d'autres modèles open source
MME Benchmark se concentre sur les capacités de perception et de reconnaissance du modèle, et Puyu Lingbi ouvre la voie en matière de performances globales.
MMBench comprend 20 éléments de capacité et Puyu Lingbi a obtenu les meilleurs résultats.
MMBench-CN est la version chinoise de l'évaluation MMBench, qui se concentre sur la capacité de compréhension multimodale chinoise du modèle. Puyu Lingbi a également obtenu les meilleurs résultats, reflétant sa forte capacité chinoise.
SEED-Bench propose 19 000 questions multimodales à choix multiples, y compris des annotations manuelles, couvrant 12 dimensions d'évaluation. Puyu Lingbi possède une excellente précision dans la compréhension du contenu des images.
Dans CCBench, une évaluation multimodale conçue pour comprendre la culture chinoise, les scores d'évaluation de Puyu Lingbi étaient nettement supérieurs, ce qui reflète clairement sa profonde accumulation de connaissances dans la culture chinoise.
Puyu Lingbi est désormais open source et est disponible sur GitHub, Hugging Face et ModelScope. Les développeurs sont invités à le télécharger et à l'essayer.