ワシントン大学の研究者らは、ChatGPT のパフォーマンスに匹敵しながらも、トレーニングに必要な時間とリソースを大幅に削減することを目指したオープンソース チャットボット、Guanaco を発表しました。南米のラマの親戚にちなんで名付けられた Guanaco は、LLaMA 言語モデルに基づいて構築され、QLoRA と呼ばれる新しい微調整手法を取り入れています。
メタバースポスト (mpost.io)
Guanaco の開発者は、ChatGPT と同等のパフォーマンスを実現しながらも、たった 1 日でトレーニングできると主張しています。この驚くべき成果は、トレーニングに必要な GPU メモリの量を大幅に削減する言語モデルの微調整技術である QLoRA によって実現されました。ChatGPT は 650 億のパラメータを持つモデルに 780 GB もの GPU メモリを必要としますが、Guanaco の最もシンプルなバージョンでは 5 GB しか必要としません。
これらの目覚ましい効率性の向上により、Guanaco や同様のオープンソース モデルは、最先端の言語モデルには高価なトレーニングが必要であるという概念に異議を唱えています。Guanaco、Alpaca、およびわずかなコストでトレーニングするその他のモデルの出現により、GPT のような高価なモデルの将来についての憶測が広まっています。
しかし、オープンソース モデルに対するこの楽観的な見方に誰もが同意するわけではありません。カリフォルニア大学が最近実施した調査では、アルパカなどのモデルの能力に疑問が投げかけられ、その真の可能性について疑問が提起されました。当初、研究者は Guanaco の作成者と同様の結論に達しました。適切にトレーニングすれば、オープンソース モデルは GPT に匹敵する能力を持つというものです。さらにテストを進めると、重大な限界が明らかになりました。これらの「ドリー」モデルと呼ばれることもあるモデルは、トレーニング中に遭遇した問題の解決策を模倣することに長けています。しかし、明示的に触れていないタスクではうまく機能せず、より高度なモデルに遅れをとっています。
この発見は、GPT や類似モデルのトレーニングに投資された数百万ドルが無駄ではなかったかもしれないことを示唆しています。Guanaco やその類似モデルは有望な結果を示していますが、より洗練されたモデルが優れている分野はまだあります。カリフォルニア大学が実施した調査は、オープンソース モデルが GPT のような高価なモデルを完全に置き換えることができるという一般的な考えに異議を唱えている点は注目に値します。
自然言語処理の分野が進化するにつれ、Guanaco やその他のオープンソース モデルが ChatGPT などの確立されたベンチマークと比べてどうなのかを見るのは興味深いでしょう。高いイノベーション率と継続的な研究は、間違いなく言語モデルの将来に影響を与え、特定のアプリケーションでどのモデルが主流になるかを決定します。
Databricks は、初の商用オープンソース 12B Chat-LLM である Dolly 2.0 を発表しました。これは機械学習業界にとって大きな進歩であり、企業は高価な GPU クラスターに投資することなく効果的な言語モデルを作成できます。Databricks は 5,000 人の従業員を雇用してオープンソース言語モデルを作成しました。これには MIT ライセンスの EleutherAI の Pythia-12B 言語モデルが含まれています。Dolly 2.0 と関連コードは MIT ライセンスで利用できます。Dolly 2.0 は業界を変える可能性を秘めており、機械学習にとって大きな前進です。
AI について詳しく読む:
GPT 搭載のチャットボットと医師向け AI アシスタントが医療を変革
SoundStorm: Google がリアルタイム音声複製が可能な恐ろしい AI ツールを発表
GPT-4の米国司法試験での成績は主張と矛盾している
この記事「Guanaco がオープンソース ChatGPT の潜在的な競合相手として登場」は、Metaverse Post に最初に掲載されました。


