Kesimpulan Utama
Binance menggunakan model pembelajaran mesin untuk memantau aktivitas mencurigakan di platform.
Masalah yang dikenal sebagai fitur usang dapat berdampak negatif pada performa model tersebut, menyebabkan model tersebut membuat prediksi atau klasifikasi yang tidak akurat.
Saluran streaming kami – atau proses pemberian data real-time secara terus-menerus ke model – terdiri dari dua bagian: pemrosesan data dan penyajian data.
Pemrosesan data dibagi lagi menjadi tiga kategori: Komputasi aliran, penyerapan, dan penenggelaman.
Pelajari bagaimana kami menggunakan pembelajaran mesin untuk menjaga ekosistem Binance.
Tim AI risiko kami, yang terdiri dari insinyur pembelajaran mesin dan ilmuwan data, bekerja sepanjang waktu untuk memerangi penipuan dan melindungi pengguna Binance. Untuk mencapai hal ini, mereka menggunakan solusi berbasis AI yang dapat mengidentifikasi dan merespons potensi ancaman, seperti penipuan peer-to-peer (P2P), pencurian rincian pembayaran, dan serangan pengambilalihan akun (ATO), dan masih banyak lagi.
Dalam artikel ini, kami akan menjelaskan bagaimana tim AI risiko kami menggunakan saluran streaming untuk memastikan respons real-time selain apa yang terjadi di balik layar.
Jika Anda belum terbiasa dengan pembelajaran mesin, sebaiknya baca bagian berikut untuk mendapatkan gambaran dasar tentang beberapa istilah yang akan kami gunakan di seluruh artikel ini.
Batch dan Streaming
Insinyur pembelajaran mesin biasanya menggunakan dua jenis saluran pipa: batch dan streaming. Keduanya memiliki pro dan kontra, tergantung pada situasi yang dibutuhkan.
Pipeline batch, sesuai dengan namanya, memproses data dalam batch. Insinyur biasanya menggunakannya untuk memproses data dalam jumlah besar.
Di sisi lain, saluran pipa streaming memproses data secara real-time saat data dikumpulkan. Hal ini menjadikannya ideal untuk situasi yang memerlukan respons instan; misalnya, mendeteksi peretas sebelum mereka dapat menarik dana dari akun yang dicuri.
Perhatikan bahwa kedua jalur pipa sama pentingnya. Pipeline streaming sangat baik dalam memberikan respons real-time, sedangkan pipeline batch lebih baik dalam menangani data dalam jumlah besar.
Dalam hal pencegahan penipuan, kita perlu memprioritaskan data real-time untuk menghindari situasi yang disebut “model staleness”, yang mengacu pada model pembelajaran mesin yang menjadi ketinggalan jaman atau tidak akurat.
Pentingnya Kekekalan
Sama seperti bagaimana orang menjadi kurang efektif dalam suatu tugas jika mereka tidak selalu mendapatkan informasi atau teknik terbaru, model pembelajaran mesin juga bisa menjadi kurang akurat jika tidak diperbarui secara berkala sesuai dengan situasi.
Satu hal yang tidak Anda inginkan adalah model yang dirancang untuk mencegah penipuan menjadi basi. Konsekuensinya berkisar dari model yang salah memberi label pada transaksi sah sebagai penipuan atau gagal mengidentifikasi akun yang disusupi. Oleh karena itu, kami menggunakan saluran streaming untuk memastikan model pencegahan penipuan berfungsi dengan data waktu nyata.
Menghitung model Pengambilalihan Akun (ATO).
Mari kita ambil contoh model ATO, yang kami latih untuk mengidentifikasi akun yang dibajak oleh penjahat dengan niat jahat. Salah satu fitur yang diukur model ini adalah jumlah transaksi yang dilakukan pelanggan tertentu dalam satu menit terakhir.
Peretas cenderung mengikuti pola berurutan, melakukan sejumlah besar operasi, seperti penarikan, dalam waktu singkat. Sistem kami harus menghitung fitur ini sesegera mungkin jika ada potensi ancaman. Ini berarti meminimalkan penundaan antara saat pengguna mengambil tindakan dan saat data aktivitas pengguna tersebut diproses oleh model kami. Hanya beberapa detik saja dapat menjadi perbedaan antara menghentikan peretas dan pengguna kehilangan seluruh uangnya.
Untuk informasi selengkapnya tentang bagaimana fitur tertunda memengaruhi kinerja model, Anda dapat merujuk ke artikel oleh LinkedIn Engineering: Fitur hampir real-time untuk personalisasi hampir real-time.
Peran komputasi batch
Perhatikan bahwa pentingnya staleness fitur dapat bergantung pada model atau fitur yang digunakan. Beberapa fitur, misalnya, relatif stabil. Dalam kasus ATO yang disebutkan di atas, kami juga perlu mengambil data penarikan pengguna dalam 30 hari terakhir untuk menghitung rasio berdasarkan transaksi terbaru mereka.
Dalam hal ini, komputasi batch dalam periode waktu yang lebih lama, seperti interval harian atau per jam, dapat diterima meskipun terdapat staleness yang lebih tinggi akibat menunggu data tiba di gudang data dan agar pekerjaan batch dijalankan secara berkala.
Menyeimbangkan Kesegaran dan Latensi
Pada akhirnya, pilihan antara pipeline batch dan streaming harus dibuat berdasarkan persyaratan spesifik kasus penggunaan dan fitur yang dimaksud. Mempertimbangkan faktor-faktor ini dengan cermat memungkinkan kami membangun sistem pencegahan penipuan yang efektif yang melindungi pengguna kami.

Menggunakan saluran streaming memungkinkan kami memprioritaskan kesegaran dibandingkan latensi untuk fitur-fitur yang sensitif terhadap waktu. Diagram di atas mengilustrasikan kebutuhan ini, karena jumlah operasi untuk mengambil fitur harusnya tiga, bukan dua.
Inilah sebabnya mengapa alur pembelajaran mesin real-time sangat penting bagi operasi tim risiko kami sehari-hari.
Menghancurkan Saluran Streaming
Pembelajaran mesin real-time untuk tim AI risiko Binance terutama terdiri dari dua bagian:
Pemrosesan data (bagian atas diagram)
Penyajian data (bagian bawah diagram)

Pengolahan data
Mengenai pemrosesan data, kami dapat membagi saluran streaming kami (Pekerjaan Flink) menjadi tiga kategori berdasarkan tanggung jawabnya:
Komputasi aliran: rekayasa fitur
Penyerapan aliran: penyerapan fitur
Tenggelamnya aliran: pengayaan data
Komputasi aliran
Komponen komputasi aliran pada pipeline bertanggung jawab atas rekayasa fitur hampir real-time, yaitu proses mengekstraksi fitur dari data mentah.
Ini melakukan pra-komputasi fitur yang akan digunakan model pembelajaran mesin kami untuk prediksi online. Ada dua jenis metode komputasi untuk pipeline komputasi streaming: berbasis waktu dan berbasis peristiwa.
Berdasarkan waktu. Menghitung jumlah transaksi setiap 10 menit. Hal ini menyebabkan staleness tetapi menurunkan latensi.
Berbasis acara. Menghitung fitur berdasarkan acara yang datang. Ini menurunkan staleness tetapi sedikit meningkatkan latensi.
Preferensi kami adalah untuk tidak menggunakan komputasi real-time sebanyak mungkin, dan inilah alasannya:
Ada trade-off antara latensi dan staleness. Fitur komputasi saat permintaan online tiba membatasi logika komputasi pada pendekatan yang ringan. Meskipun metode ini menurunkan staleness, komputasi fitur meningkatkan latensi prediksi.
Penskalaan secara mandiri merupakan suatu tantangan karena layanan prediksi dan komputasi bergantung satu sama lain.
Komputasi sesuai permintaan berdasarkan lalu lintas permintaan menciptakan tekanan penskalaan yang tidak dapat diprediksi.
Komputasi waktu nyata tidak dapat disesuaikan dengan pemantauan model kami (kemiringan penyajian pelatihan) dan solusi pemantauan fitur karena fitur tidak disimpan dalam database pusat, yaitu penyimpanan fitur.
Aliran penyerapan
Komponen penyerapan aliran bertanggung jawab atas penyerapan fitur hampir secara real-time ke dalam penyimpanan fitur kami dari platform pembelajaran mesin Kafka. Penyimpanan fitur adalah database terpusat yang menampung fitur-fitur yang umum digunakan. Mereka memainkan peran penting dalam alur pembelajaran mesin. Anda dapat mempelajarinya lebih lanjut di artikel berikut: Melihat Lebih Dekat Toko Fitur Machine Learning Kami dan Menggunakan MLOps untuk Membangun Pipeline Machine Learning End-to-End Secara Real-time.
Aliran tenggelam
Komponen stream sink terutama bertanggung jawab untuk memasukkan kejadian real-time ke tujuan tertentu — seperti sistem file terdistribusi tinggi (HDFS) seperti S3 atau database eksternal lainnya seperti ElasticSearch — bergantung pada kebutuhan proyek.
Untuk tim AI risiko kami, secara umum ada dua pola pengayaan data yang dapat diterapkan pada data real-time di Kafka bergantung pada kasus penggunaannya:
Data statis. Misalnya, mengambil daftar pembuat populer yang duduk di S3 untuk proyek bisnis terkait P2P di pekerjaan Flink. Data referensi bersifat statis dan hanya memerlukan pembaruan kurang dari sebulan sekali.
Data dinamis. Nilai tukar real-time (BTC ke USD), misalnya, diperoleh dari database eksternal seperti Redis. Pencarian per rekaman memastikan latensi rendah dan akurasi tinggi jika data referensi berubah.
Penyajian Data
Komponen penyajian data pada pipeline bertanggung jawab atas prediksi online dan komputasi batch.
Prediksi daring. Hal ini terjadi ketika permintaan datang melalui Decision Hub (mesin aturan internal tim risiko kami). Layanan yang relevan kemudian akan memanggil penyimpanan fitur untuk mengambil fitur dan mengirimkannya ke model pembelajaran mesin untuk dinilai. Tim Risk AI kami memiliki lebih dari 20 model pembelajaran mesin yang dirancang untuk menangani berbagai kebutuhan bisnis.
Komputasi batch. Meskipun dapat menimbulkan penundaan hingga beberapa hari, hal ini memainkan peran penting di sini karena melengkapi fitur yang dihitung secara real time.
Menutup Pikiran
Penting untuk diingat bahwa pasar kripto beroperasi 24/7, tidak seperti pasar keuangan tradisional yang memiliki waktu buka dan tutup. Setiap detik, ada aliran data baru yang terus-menerus (penarikan, penyetoran, perdagangan, dll.) yang mengharuskan kita mewaspadai pelaku jahat yang mencoba mencuri dana atau informasi pribadi pengguna.
Tim AI risiko kami telah bekerja tanpa kenal lelah untuk mengembangkan dan memelihara sistem AI canggih yang dapat secara efektif menandai aktivitas mencurigakan. Berkat upaya mereka, kami dapat bekerja dengan cepat untuk melindungi akun Binance yang disusupi dari potensi kerugian atau memitigasi kerusakan sebanyak mungkin.
Nantikan wawasan lebih lanjut tentang upaya pembelajaran mesin kami, atau lihat beberapa artikel kami sebelumnya di bawah. Tertarik dengan karir pembelajaran mesin di Binance? Lihat Binance Engineering di halaman karir kami untuk lowongan pekerjaan terbuka.
Bacaan lebih lanjut
Melihat Lebih Dekat Toko Fitur Machine Learning Kami
Menggunakan MLOps untuk Membangun Pipeline Machine Learning End-to-End Secara Real-time
Studi Kasus Rekayasa Fitur dalam Konsistensi dan Deteksi Penipuan



