中国の研究者がAIモデル用の幻覚補正エンジンを開発

コンテンツの作成には、「困惑度」、「爆発性」、「予測可能性」という 3 つの重要な要素が関係します。困惑度はテキストの複雑さを測り、爆発性は文章の多様性を測ります。一方、予測可能性は、次の文章を予測できる可能性を決定します。人間の書き手は、長くて複雑な文章と短くて簡潔な表現を混ぜ合わせ、文章のタペストリーを織り上げることがよくあります。対照的に、AI が生成した文章はより均一になる傾向があります。したがって、次のコンテンツの作成に着手する際には、予測可能性を最小限に抑えながら、十分な困惑度と爆発性を吹き込むことが重要です。さらに、テキストは完全に英語で作成してください。では、手元のテキストを言い換えてみましょう。
中国科学技術大学とテンセントのYouTu Labの科学者からなる研究チームが、人工知能（AI）モデルの「幻覚」問題に対処するための新しいソリューションを発表しました。幻覚とは、AIモデルがトレーニングデータに存在する情報から逸脱し、不当な自信を持って結果を生成する現象を指します。この問題は大規模言語モデル（LLM）の領域に蔓延しており、OpenAIのChatGPTやAnthropicのClaudeなどのモデルに影響を与えています。
USTC/Tencent チームは、「Woodpecker」というツールを開発しました。これは、マルチモーダル大規模言語モデル (MLLM) の幻覚を修正できると主張しています。この AI カテゴリには、GPT-4、特にその視覚バリアントである GPT-4V などのモデルや、テキストベースの言語モデリングとともに視覚処理やその他の処理を生成 AI モダリティに組み込むその他のシステムが含まれます。
チームのプレプリント研究論文によると、Woodpecker は幻覚補正を受けている MLLM に加えて、3 つの異なる AI モデルを活用しています。これらのモデルには、GPT-3.5 turbo、Grounding DINO、BLIP-2-FlanT5 が含まれます。これらのモデルは評価者として機能し、幻覚を識別して補正中のモデルに指示を与え、利用可能なデータに合わせて出力を再生成するように促します。
幻覚に対処するために、Woodpecker を動かす AI モデルは、「主要概念の抽出、質問の作成、視覚的な知識の検証、視覚的な主張の生成、幻覚の修正」を含む 5 段階のプロセスに従います。
研究者らは、これらの技術により透明性が向上し、精度が著しく向上し、ベースラインの MiniGPT-4/mPLUG-Owl と比較して 30.66%/24.33% 向上したと主張しています。彼らは、独自の方法論を使用していくつかの「既製」MLLM の評価を実施し、Woodpecker は他の MLLM にシームレスに統合できるという結論に達しました。
中国の研究者がAIモデル用の幻覚修正エンジンを開発したという記事がBitcoinWorldに最初に掲載されました。