ハイライト
GPT-4 は画像とテキストの入力をサポートしますが、GPT-3.5 はテキストのみを受け入れます。
GPT-4 は、さまざまな専門的テストや学習テストで人間に匹敵する成績を収めています。たとえば、司法試験に合格し、受験者の上位 10% に入りました。
OpenAI は 6 か月かけて GPT-4 のテストと構成を行いました。単純なチャットでは GPT-3.5 と GPT-4 の違いはそれほど目立ちませんが、より複雑なタスクでは違いが明らかになります。GPT-4 は GPT-3.5 よりも堅牢でクリエイティブであり、より複雑で入り組んだリクエストや複雑な画像も処理できます。ただし、OpenAI は GPT-4 が完璧ではなく、事実確認、推論、過信にまだ問題があることを認めています。
GPT-4 の新バージョンを使用するには、ChatGPT Plus (20 ドル) の有効なサブスクリプションが必要です。OpenAI は、システムを大量に使用するユーザー向けに最終的には有料サブスクリプションを導入する予定ですが、一般ユーザー向けに無料のクエリをいくつか残したいと考えています。
新モデルの特長と使用例
過去 2 年間、チームはディープラーニング スタック全体を再設計し、Azure と提携してスーパーコンピューターをゼロから構築しました。1 年前、OpenAI はシステム全体の最初の「テスト実行」として GPT-3.5 をトレーニングし、いくつかのバグの発見と修正、以前のベースの改善を行いました。その結果、安定して実行され、トレーニングの有効性を事前に正確に予測できる最初の主要モデルである GPT-4 が誕生しました。
GPT-3.5 と GPT-4 は、単純なクエリではわずかに異なります。違いは、創造性、信頼性、最大限の応答詳細を必要とする複雑なタスクで見られます。たとえば、テストの解決やオリンピックのタスクなどです。グラフ上の緑色のバーは、新しいモデルのパフォーマンスがどれだけ優れているかを示しています。

下の表は、GPT-4 がさまざまなアメリカのテストで獲得したポイントを示しています。小さな文字は、上位パーセンタイルのスコアを示しています。特に興味深いのは、SAT 数学試験の数学セクションで、代数と幾何学の問題が含まれており、集合関数と数係数の理論的知識、および根号、次数、関数を含む方程式の知識を必要とする問題が含まれています。GPT-4 は 800 点満点中 700 点を獲得し、このテストを受けた人の上位 11% に入りました。また、この AI は SAT テストを受けるために特別にトレーニングされたわけではありません。

開発者らは、AI がさまざまな言語をどのように処理するかについてもテストしました。テストした言語は 26 種類です。ChatGPT にとって最も理解しやすい言語は明らかに英語で、スコアは 85.5% でした。イタリア語は 84.1% で 2 位、ロシア語は相対評価が 82.7%、タイ語は 71.8%、テルグ語 (インドの言語の 1 つ) は 62% で、テストした言語の中では最低でした。

視覚入力
GPT-4 は、テキストだけでなく、テキストと写真を含むドキュメント、図、スクリーンショットなどの画像も理解できるようになりました。
この写真では、AI は iPhone の充電ケーブルが古い VGA コネクタのように「様式化」されており、すべてが「古いもののための仕掛け」のように見えることを正しく認識しました。

この写真から、AI は冷静にデータを抽出し、ジョージアと西アジアの肉の消費量を合計しました。

AI はフランス語で書かれた物理学の問題も解き、詳細に説明しました。

複雑なマニュアルを圧縮しました:

リスクと緩和策
チームは、トレーニング前にデータをスクリーニングおよびフィルタリングすることで、GPT-4 のセキュリティを強化しています。リスクの高いクエリをテストするために専門家が雇われました。これらの分野の専門家からのフィードバックとデータは、モデルの改善に使用されました。たとえば、チームは GPT-4 が「危険な化学物質の合成」などのクエリを拒否するように取り組みました。
OpenAIのポリシーによると、開発者はGPT-3.5と比較して、GPT-4が違法コンテンツのリクエストに応答する傾向を82%削減し、機密リクエスト(医療アドバイスや自傷行為など)への応答率を29%向上させたという。
全体的に、チームの介入により危険なリクエストは減少しましたが、ユーザーがアルゴリズムを破って危険なコンテンツにアクセスする状況はまだあります。人工知能に関連するリスクは常に増加しているため、このような状況では高い信頼性を実現する必要があります。
GPT-4 とその後のモデルは、社会にプラスとマイナスの両方の影響を与える可能性があります。チームは、現段階および将来における潜在的な影響を評価するために、外部の研究者と協力しています。