OpenFlamingo: Meta AI と LAION による新しいオープンソースの画像からテキストへのフレームワーク

DeepMind の Flamingo モデルのオープンソース版である OpenFlamingo がリリースされました。OpenFlamingo は基本的に、大規模なマルチモーダル モデル (LMM) のトレーニングと評価を可能にするフレームワークです。OpenFlamingo は、Meta AI が開発した LLaMA 大規模言語モデルの上に構築されています。
 続きを読む: Midjourney を永久に無料で使用する方法: 5 つの簡単なステップ
この最初のリリースに対する開発者の貢献は次のとおりです。
テキストとビジュアル シーケンスを組み合わせた大規模なマルチモーダル データセット。
視覚や言語を含む活動の状況に応じた学習評価のベンチマーク。
LLaMA ベースの OpenFlamingo-9B モデルの予備バージョン。
開発者は OpenFlamingo を通じて、さまざまな視覚言語の課題に対応できるマルチモーダル システムを作成したいと考えています。最終的な目標は、視覚およびテキスト入力の処理において GPT-4 の強みと適応性に匹敵することです。開発者は、この目標を達成するために、画像、ビデオ、テキストの処理と推論が可能な LMM である DeepMind の Flamingo モデルのオープン ソース バージョンを開発しています。開発者は、透明性が協力を促進し、開発を加速し、最先端の LMM へのアクセスを民主化するために不可欠であると考えているため、完全にオープン ソースのモデルの開発に専念しています。
彼らは、OpenFlamingo-9B モデルの初期チェックポイントを提供しています。モデルはまだ完全に最適化されていませんが、プロジェクトの将来性を示しています。開発者は、協力してコミュニティからのフィードバックを得ることで、より優れた LMM をトレーニングできます。彼らは、開発プロセスに参加するために、一般の人々に意見を出し、リポジトリに追加するよう呼びかけています。
実装は Flamingo のものとよく似ています。Flamingo モデルは、コンテキスト内の少数ショット学習スキルを身に付けるために、テキストとグラフィックがインターリーブされた大規模な Web データセットでトレーニングする必要があります。OpenFlamingo では、元の Flamingo 研究で提案されたのと同じアーキテクチャ (Perceiver リサンプラー、クロスアテンション レイヤー) が実装されています。ただし、Flamingo のトレーニング データは一般に公開されていないため、開発者はオープン ソース データセットを使用してモデルをトレーニングします。新しく公開された OpenFlamingo-9B チェックポイントは、LAION-2B の 1,000 万サンプルと新しいマルチモーダル C4 データセットの 500 万サンプルで特別にトレーニングされました。
開発者は、LLaMA 7B と CLIP ViT/L-14 をベースにした未完成の LMM OpenFlamingo-9B のチェックポイントもリリースに含めています。このコンセプトはまだ開発中ですが、コミュニティはすでに大きな恩恵を受けているかもしれません。
始めるには、GitHub のソースとデモをご覧ください。
AI について詳しく読む:
AI モデルのトレーニングコストは 2030 年までに 1 億ドルから 5 億ドルに増加すると予想されています
DeepMind の新しい適応型 AI エージェント Ada は人間とほぼ同等の知能を持つ
ディープマインドは、映画やテレビ番組の脚本の本格的な草稿を生成するAIツール「ドラマトロン」をリリースした。
OpenFlamingo: Meta AI と LAION による新しいオープンソースの画像テキスト変換フレームワークの投稿が最初に Metaverse Post に掲載されました。