Antes de entendermos isso, saberíamos poucas palavras sobre algoritmos de aprendizado de máquina. Algoritmos de aprendizado de máquina podem ser usados ​​em vários algoritmos de aprendizado, como aprendizado supervisionado, aprendizado não supervisionado ou ambos. Algoritmos de aprendizagem supervisionada usam dados rotulados para aprender padrões e fazer previsões, enquanto algoritmos de aprendizagem não supervisionada identificam anomalias ou clusters com os dados sem rótulos pré-existentes. Vários modelos podem ser treinados simultaneamente para capturar diferentes aspectos de atividades suspeitas.

Os engenheiros de aprendizado de máquina da Binance normalmente usam dois tipos de pipelines. Eles são lote e streaming.

Lote: é usado para grandes volumes de dados

Streaming: dados médios em tempo real à medida que são coletados. Isso cria situações que exigem uma resposta quase instantânea, como detectar um hacker antes de retirar fundos de qualquer conta.

Acima de ambos os pipelines é muito importante. O lote é melhor para lidar com grandes quantidades de dados, enquanto o streaming é melhor para fornecer resposta em tempo real.

Supondo a prevenção de fraudes, é necessário priorizar dados em tempo real para evitar uma situação chamada “desatualização do modelo”.

Impacto da desatualização

Se as pessoas não se mantiverem atualizadas com as informações ou técnicas mais recentes, os modelos de aprendizado de máquina também poderão se tornar menos precisos. De acordo com esta situação prefiro que todos se mantenham sempre atualizados com informações ou técnicas.

Modelo de controle de conta (ATO).

Treinamento do modelo ATO para identificar contas que usuários ilegítimos sequestraram com objetivos maliciosos. Então, este modelo mede o número de transações feitas no último minuto.

Os hackers seguem estas etapas.

1.     Padrão Sequencial

2.     Alto número de operações (Saques em curto espaço de tempo)

Nesta condição, o Binance System calcula esse recurso o mais rápido possível em caso de ameaças potenciais. Isso significa minimizar atrasos entre a ação do usuário e os dados da atividade do usuário processados ​​por meio deste modelo.

Para mais informações visite

https://engineering.linkedin.com/blog/2022/near-real-time-features-for-near-real-time-personalization

Função de computação em lote:

A importância da desatualização do recurso pode depender do modelo. Alguns recursos, por exemplo, são relativamente estáveis. No caso ATO mencionado acima, também seria necessário recuperar dados sobre os saques do usuário nos últimos 30 dias para calcular uma proporção com base nas suas transações mais recentes.

Nessa situação, a computação em lote durante períodos de tempo mais longos, como intervalos diários ou de hora em hora, é aceitável, apesar da maior desatualização resultante da espera pela chegada dos dados nos data warehouses e pela execução periódica dos trabalhos em lote.

Neste artigo alguns dados obtidos do Binance Blog, portanto se quiser saber mais detalhes basta visitar o Binance Blog. #azuki #pepe #crypto2023 #DYOR