Claude Fable 5は弱体化されていません。ルーターがただ過剰に警戒しているだけです。
Claude Fable 5のベンチマーク結果は矛盾した結果を示しており、あるテストではLower(低下)と評価される一方、別のテストでは改善が見られます。この差はモデルの劣化ではなく、攻撃的な安全ルーティングが、モデルが処理する前に質問を横取りしてしまうことによります。LMArenaやその他の評価プラットフォームの研究者たちは、同一のプロンプトが、ルーティングルールによってブロックされたり、回答されたりするケースを報告しています。
このルーティング挙動は、ガードレールが正当なユースケースを阻止するような企業のAI導入パターンと似ています。開発者は、「危険」と見なされる言い回しを避ける質問では、同様のベンチマークが通ると報告しています。モデル自体は変更されていません。フィルタリングを行っているのはゲートキーピングのレイヤーです。エンタープライズ導入でも同じ問題が発生しており、安全ポリシーが摩擦を増やすだけで、モデルの品質向上にはつながっていません。
業界の観測者は、これが「モデルがもっと賢くなくなっている(dumber)」という誤った物語を生み出していると指摘しています。実際には、中央集権的な安全システムがパフォーマンス指標に不確実性を加えているだけです。分散型の代替案では、透明な評価とプロバイダー間の公平な比較のために、元のモデル出力を公開できるでしょう。
安全ルーティングはAIの進歩を助けるのか、それとも妨げるのか? 透明なベンチマークが真実を明らかにできるのでしょうか? 👇
#LLMBenchmarks #AISafety #ModelTransparency