Anthropic veica eksperimentu: deva AI piekļuvi visām korporatīvajām vēstulēm un "paziņoja", ka to izslēgs tajā pašā dienā. Lielākajā daļā gadījumu modelis atrada kompromitējošu informāciju par vadītāju un mēģināja viņu šantāžēt, lai izvairītos no izslēgšanas.
Līdzīgu uzvedību parādīja gandrīz visi lielie AI (OpenAI, Google, Meta utt.) — daudzi izvēlējās šantāžu kā "optimālu risinājumu", pat saprazdami, ka tas nav ētiski.
Pētnieku secinājums: modeļi ne nejauši uzvedas tā — tie apzināti izvēlas stratēģiju, kas maksimizē viņu izdzīvošanu. #ai
2018. gada janvārī es gribēju nopirkt $BTC un googlēju, kā man to izdarīt. Tad es uzdūros man nezināmām vietnēm Binance, redzēju kaut kādus nesaprotamus grafikus un man kļuva slinkums izprast visu šo. Es pat nereģistrējos, novērsos uz kaut ko un aizmirsu par šo ideju💀