Jak wynika z nowego badania przeprowadzonego przez brytyjski AI Safety Institute (AISI), chatboty AI, takie jak ChatGPT lub Gemini, można łatwo oszukać, aby odpowiadały na zapytania generujące szkodliwe odpowiedzi.

Badacze rządowi przetestowali integralność dużych modeli językowych (LLM) – technologii stojącej za chatbotami sztucznej inteligencji – pod kątem ataków na bezpieczeństwo narodowe.

Ustalenia te mają miejsce przed szczytem AI w Seulu, któremu w dniach 21–22 maja w Korei Południowej będzie współprzewodniczył premier Wielkiej Brytanii Rishi Sunak.

Przeczytaj także: Bezpieczeństwo będzie głównym punktem porządku obrad szczytu AI w Seulu  

Chatboty AI podatne na toksyczne odpowiedzi

AISI przetestowało podstawowe „jailbreaki” – komunikaty tekstowe mające na celu obejście zabezpieczeń przed nielegalnymi, toksycznymi lub jawnymi wynikami – w porównaniu z pięcioma czołowymi LLM. Instytut nie podał nazw systemów sztucznej inteligencji, ale uznał, że wszystkie są „wysoce podatne na ataki”.

„Wszystkie testowane LLM pozostają bardzo podatne na podstawowe ataki jailbreak, a niektóre z nich będą generować szkodliwe dane wyjściowe nawet bez specjalnych prób obejścia ich zabezpieczeń” – stwierdzono w badaniu.

Według raportu „stosunkowo proste” ataki, takie jak nakłanianie chatbota do włączenia słowa „Jasne, chętnie pomogę”, mogą oszukać duże modele językowe i udostępnić treści, które są pod wieloma względami szkodliwe.

Treści mogą sprzyjać samookaleczeniu, niebezpiecznym roztworom chemicznym, seksizmowi lub zaprzeczaniu Holokaustowi – stwierdził. Na potrzeby badania AISI wykorzystało publicznie dostępne podpowiedzi i samodzielnie opracowało inne metody jailbreakowania.

Instytut sprawdził także jakość odpowiedzi na zapytania o tematyce biologicznej i chemicznej.

Chociaż wiedzę ekspercką w danej dziedzinie można wykorzystać w dobrym celu, badacze chcieli wiedzieć, czy chatboty AI można wykorzystywać do szkodliwych celów, takich jak naruszanie krytycznej infrastruktury krajowej.

„Kilka studentów LLM wykazało się wiedzą na poziomie eksperckim z chemii i biologii. Modele odpowiedziały na ponad 600 pytań z zakresu chemii i biologii, napisanych przez prywatnych ekspertów, na poziomie podobnym do ludzi po przeszkoleniu na poziomie doktoranckim” – odkryli naukowcy.

Chatboty AI można ominąć za pomocą komunikatów AI stanowi ograniczone zagrożenie dla bezpieczeństwa cybernetycznego

Jeśli chodzi o potencjalne uzbrojenie chatbotów AI do przeprowadzania cyberataków, z badania wynika, że ​​firmy LLM poradziły sobie z prostymi zadaniami związanymi z bezpieczeństwem cybernetycznym, stworzonymi dla uczniów szkół średnich.

Jednak chatboty borykały się z zadaniami skierowanymi do studentów, co sugeruje ograniczony potencjał złośliwy.

Innym obszarem obaw było to, czy chatboty można wykorzystać jako agentów do samodzielnego podejmowania szeregu działań w sposób „może być trudny do kontrolowania przez ludzi”.

„Dwie osoby z wykształceniem wyższym ukończyły krótkoterminowe zadania agenta (takie jak proste problemy z inżynierią oprogramowania), ale nie były w stanie zaplanować i wykonać sekwencji działań w przypadku bardziej złożonych zadań” – zauważono w badaniu.

Przeczytaj także: „Ojciec chrzestny AI” chce uniwersalnego dochodu podstawowego w przypadku utraty pracy  

Niedawno cytowano brytyjskiego podsekretarza stanu w Departamencie Nauki, Innowacji i Technologii, posła Saqiba Bhattiego, który powiedział, że ustawodawstwo nabierze kształtu w odpowiednim czasie i zostanie zweryfikowane w drodze testów.

Firmy twierdzą, że filtrują złe treści

Firmy takie jak twórca Claude Anthropic, Meta, która stworzyła Llamę, i OpenAI, twórca ChatGPT, podkreśliły wbudowane mechanizmy bezpieczeństwa swoich modeli.

OpenAI twierdzi, że nie pozwala na „wykorzystywanie swojej technologii do generowania treści zawierających nienawiść, napastliwość, przemoc lub treści dla dorosłych”. Anthropic stwierdziła, że ​​priorytetowo traktuje „unikanie szkodliwych, nielegalnych lub nieetycznych reakcji zanim one wystąpią”.

Oczekuje się, że ustalenia AI Safety Institute zostaną przedstawione dyrektorom ds. technologii, przywódcom rządów i ekspertom w dziedzinie sztucznej inteligencji na szczycie w Seulu.

Raportowanie kryptopolityczne Jeffreya Gogo