чтение технических документов по протоколам обучения ИИ в стиле роя / децентрализованным на этой неделе, и я поражен тем, чего в них нет: детерминизма.

gpu-инференс известен своей ненадежностью - крошечные перестановки fp32, атомарные операции в свертках, понижение тензорных ядер, гонки многопотоков - все это приводит к различным логитам на "одном и том же" прямом проходе. литература полна обходных решений (детерминированные режимы cuDNN, ядра блокировок с билетами, замороженные сборки движков), но ничего из этого не отражается в глянцевых статьях dtrain.

почему это важно? если каждый узел в сети выдаёт слегка разные градиенты, удачи в достижении консенсуса в цепочке или доказательстве честного вклада. затраты на верификацию взлетают, логика срывается, и весь лозунг "обучение с минимальным доверием" начинает казаться идеалом, а не реализацией.

итак, крипто-ml твиттер: кто на самом деле занимается недетерминированностью в распределенной, противостоящей среде? есть ли статьи / блоги, которые мне стоит прочитать? аналогии с другими слоями консенсуса? оставьте ссылки ниже