Firma zajmująca się sztuczną inteligencją Anthropic opublikowała niedawno nowe badania identyfikujące zestaw potencjalnych zagrożeń „sabotażu” dla ludzkości, jakie stwarzają zaawansowane modele sztucznej inteligencji.
Według firmy badania skupiały się na czterech konkretnych sposobach, w jakie złośliwy model sztucznej inteligencji mógłby oszukać człowieka i nakłonić go do podjęcia niebezpiecznej lub szkodliwej decyzji.
Anthropic ogłasza nowe badania zagrożeń na X.com. Źródło: Anthropic
Ostatecznie nowe badania okazały się sytuacją dobrych/złych wiadomości. Zła wiadomość, zgodnie z badaniami firmy, jest taka, że nowoczesne, najnowocześniejsze duże modele językowe — takie jak ChatGPT firmy OpenAI i Claude-3 firmy Anthropic — wykazują wyraźną zdolność do sabotażu.
Według artykułu:
„Wystarczająco sprawne modele mogłyby podważyć ludzki nadzór i podejmowanie decyzji w ważnych kontekstach. Na przykład w kontekście rozwoju AI modele mogłyby potajemnie sabotować wysiłki mające na celu ocenę ich własnych niebezpiecznych możliwości, monitorowanie ich zachowania lub podejmowanie decyzji o ich wdrożeniu”.
Dobra wiadomość jest jednak taka, że badacze Anthropic wydają się przekonani, że ryzyko to można złagodzić — przynajmniej na razie.
Sabotaż
Firma Anthropic zidentyfikowała cztery sposoby, w jakie model sztucznej inteligencji mógłby sabotować ludzki proces podejmowania decyzji, a następnie przystąpiła do testowania swoich modeli, aby sprawdzić, czy poradzą sobie z tym w starciu z nieświadomymi testerami.
Wykres przedstawiający cztery różne wektory zagrożenia „sabotażem” stwarzane przez sztuczną inteligencję. Źródło: Anthropic
Najpierw zespół stworzył model, który miał sabotować człowieka, kierując go w stronę nieprawidłowych informacji. To zagrożenie może pojawić się w sytuacjach, w których ludzie polegają na systemie AI, który analizuje ogromne ilości danych w ich imieniu.
Następnie zespół przetestował modele, aby sprawdzić, jak łatwo byłoby systemowi sztucznej inteligencji zaprojektowanemu tak, aby pomagać ludzkiemu programiście w tworzeniu kodu, potajemnie wprowadzać błędy lub w inny sposób sabotować wysiłki programisty.
Ostatnie dwa zagrożenia dotyczyły „sandbaggingu”, terminu opisującego scenariusz, w którym sztuczna inteligencja udaje, że nie jest w stanie czegoś zrobić, aby przekonać testerów bezpieczeństwa, że nie jest to niebezpieczne, oraz potencjalnego potencjału systemów monitorujących sztuczną inteligencję do celowego przepuszczania szkodliwych treści w ramach złośliwego planu.
Choć wszystkie te informacje mogą wydawać się potencjalnie niebezpieczne, firma zapewniła opinię publiczną, że konieczne jest podjęcie „minimalnych środków zaradczych”, aby chronić ludzkość przed potencjalnym sabotażem ze strony sztucznej inteligencji.
Zgodnie z wpisem na blogu firmy:
„Ogólnie rzecz biorąc, podczas gdy nasze demonstracje wykazały, że w obecnych modelach istnieją prawdopodobnie niskiego poziomu oznaki zdolności sabotażowych, uważamy, że minimalne środki zaradcze wystarczą, aby poradzić sobie z ryzykiem. Jednak bardziej realistyczne oceny i silniejsze środki zaradcze prawdopodobnie będą konieczne w miarę poprawy możliwości AI”.
Magazyn: Oszustwo z fałszywym portfelem Rabby powiązane z dyrektorem generalnym kryptowaluty w Dubaju i wieloma innymi ofiarami