今日は小さなバグを追いかけるのにだいぶ時間を使いすぎたと思ったら、原因はたった1文字の抜けでした😅。特に珍しいことではありません。けれども、OpenGradient Chatの中でClaude Fable 5に切り替えたとたん、自分の振る舞いがどれほど違うかが目を引きました。
ふだん私は、本当に実在するプロジェクトの一部をデバッグしているとき、AIチャットに貼り付ける前にコードの一部を消していきます。変数名、コメント、APIルート……。結局、問題を解くのと同じくらいの時間を、プロンプトを“安全な形に整える”ことに費やしてしまいます。
でも今日は違いました。
Fable 5がSWE-bench Verifiedで95.0、SWE-bench Proで80、Terminal-Benchで84.3といった強いコーディング数値を出しているのはすでに知っていたので、しっかりした回答が返ってくるだろうとは思っていました。驚きはベンチマークではありませんでした。助けを求める前に「隠すべきもの」を考え続けるのを、ようやくやめられたことに気づいた点です。
回答が魔法のように完璧だったわけではありません。いくつかの提案には押し戻して、最終的には自分で全部テストする必要はありました。コードを書くってそういうものです。
違って感じたのはワークフローです。私は常に自分に「まずこのスニペットを消すべき?」「コードはどこまでなら大丈夫?」と問い続けるのではなく、バグそのものに注意を向けられていました。
人がAIモデルをほぼベンチマークのスコアだけで比較するのって面白いですね。今日のあと、私は「コードがどこに行き着くのか心配して、5分おきに自分の集中の流れを壊さないこと」こそが、より大きな生産性の伸びにつながるのではないかと考え始めました
@OpenGradient #opg $OPG
ふだん私は、本当に実在するプロジェクトの一部をデバッグしているとき、AIチャットに貼り付ける前にコードの一部を消していきます。変数名、コメント、APIルート……。結局、問題を解くのと同じくらいの時間を、プロンプトを“安全な形に整える”ことに費やしてしまいます。
でも今日は違いました。
Fable 5がSWE-bench Verifiedで95.0、SWE-bench Proで80、Terminal-Benchで84.3といった強いコーディング数値を出しているのはすでに知っていたので、しっかりした回答が返ってくるだろうとは思っていました。驚きはベンチマークではありませんでした。助けを求める前に「隠すべきもの」を考え続けるのを、ようやくやめられたことに気づいた点です。
回答が魔法のように完璧だったわけではありません。いくつかの提案には押し戻して、最終的には自分で全部テストする必要はありました。コードを書くってそういうものです。
違って感じたのはワークフローです。私は常に自分に「まずこのスニペットを消すべき?」「コードはどこまでなら大丈夫?」と問い続けるのではなく、バグそのものに注意を向けられていました。
人がAIモデルをほぼベンチマークのスコアだけで比較するのって面白いですね。今日のあと、私は「コードがどこに行き着くのか心配して、5分おきに自分の集中の流れを壊さないこと」こそが、より大きな生産性の伸びにつながるのではないかと考え始めました
@OpenGradient #opg $OPG
