Anthropic baru saja mengungkapkan rahasia mereka untuk membangun aplikasi AI yang benar-benar berfungsi.
Agen AI Solo: 20 menit, $9 - hasil yang rusak. Harness 3 agen: 6 jam, $200 - aplikasi yang sepenuhnya fungsional
Arsitekturnya? Terinspirasi oleh GAN:
- Generator menciptakan
- Evaluator menilai (agen YANG BERBEDA)
- Mereka iterasi sampai kriteria kualitas terpenuhi
Mengapa agen terpisah? Karena AI tidak bisa secara jujur mengevaluasi pekerjaannya sendiri. Ia memuji keluaran yang biasa-biasa saja. Setiap kali
Wawasan desainnya sangat liar - Claude membuat antarmuka yang secara teknis benar tetapi secara visual mati secara default. Mereka menyebutnya "AI slop." Solusinya? Bahasa spesifik seperti "kualitas museum" dalam prompt mengubah seluruh estetika
Tapi "selera" Evaluator hanyalah pencocokan pola terhadap contoh yang dipilih oleh manusia. Ini secara drastis meningkatkan batas bawah, tetapi tidak meningkatkan batas atas
Inti yang dapat diambil: masa depan pengembangan AI bukanlah satu agen yang melakukan segalanya. Ini adalah agen yang terampil dengan target optimisasi yang terpisah
Generator mengoptimalkan untuk "selesai
"Evaluator mengoptimalkan untuk "selesai DENGAN BAIK"
Pemisahan itu adalah segalanya
#Aİ #Claude #SoftwareEngineering #AIDesign #BuildInPublic