leyendo los documentos técnicos sobre protocolos de entrenamiento de IA descentralizada / estilo enjambre esta semana y estoy asombrado por lo que no contienen: determinismo.
la inferencia en GPU es notoriamente inestable: pequeñas reordenaciones de fp32, atómicos en convoluciones, conversiones a tensor-core, carreras de múltiples flujos, todo suma diferentes logits en el mismo paso hacia adelante "mismo". la literatura está llena de soluciones alternativas (modos deterministas de cuDNN, núcleos de bloqueo de ticket, compilaciones de motor congeladas), sin embargo, nada de eso aparece en los documentos dtrain brillantes.
¿por qué preocuparse? si cada par en una malla emite gradientes ligeramente diferentes, buena suerte alcanzando consenso en cadena o probando una contribución honesta. los costos de verificación explotan, las lógicas de recorte se rompen, y todo el eslogan de "entrenamiento minimizado en confianza" comienza a sentirse más como un ideal que como una implementación.
entonces, twitter de crypto-ml: ¿quién está realmente abordando la no determinación en un entorno distribuido y adversarial? ¿hay documentos / blogs que debería leer? ¿analogías con otras capas de consenso? deja enlaces abajo