Berita, Opini, dan Feed #aievaluation Terbaru Hari Ini

Anthropic telah memperkenalkan Bloom, sebuah kerangka kerja sumber terbuka yang dirancang untuk mengotomatiskan evaluasi pola perilaku AI. Alat inovatif ini menghasilkan skenario evaluasi baru pada setiap jalannya, mengukur perilaku mendasar yang sama sambil memberikan metrik keselamatan yang terukur

Fitur Utama Bloom

Evaluasi Otomatis*: Bloom mengotomatiskan pembuatan evaluasi perilaku untuk model AI canggih, mengurangi kebutuhan untuk pengujian manual.

Dapat Disesuaikan*: Peneliti dapat mendefinisikan perilaku spesifik dan menyesuaikan sistem agar sesuai dengan kebutuhan mereka.

Reproduksibilitas*: Bloom mempertahankan reproduksibilitas melalui file benih yang mendefinisikan parameter evaluasi.

Skalabilitas*: Kerangka kerja ini mendukung eksperimen berskala besar dan terintegrasi dengan Weights & Biases.

*Bagaimana Bloom Bekerja:*

1. *Memahami*: Menganalisis deskripsi perilaku dan transkrip contoh untuk menetapkan kriteria pengukuran.
2. *Ideasi*: Menghasilkan skenario yang disesuaikan untuk mendorong perilaku target.
3. *Peluncuran*: Menjalankan skenario secara paralel, mensimulasikan tindakan pengguna dan respons alat.
4. *Penilaian*: Menilai interaksi untuk keberadaan perilaku dan atribut tambahan.

Bloom telah menunjukkan akurasi yang kuat dalam membedakan pola perilaku AI dan sangat sejalan dengan evaluasi manusia. Ini tersedia di GitHub di bawah lisensi MIT, menjadikannya dapat diakses untuk peneliti dan pengembang

#BloomFramework
#AIEvaluation
#OpenSourceAI
#ArtificialIntelligence
#MachineLearning
$BNB
$SOL
$BTC

aievaluation

Topik Sedang Tren