Przegląd najważniejszych wydarzeń

  1. GPT-4 obsługuje wprowadzanie obrazu i tekstu, podczas gdy GPT-3.5 akceptuje tylko tekst.

  2. GPT-4 wypadł porównywalnie z ludźmi w różnych testach zawodowych i badawczych. Zdał na przykład egzamin adwokacki, plasując się w gronie 10% najlepszych zdających.

  3. OpenAI spędziło 6 miesięcy na testowaniu i konfigurowaniu GPT-4. Na prostym czacie różnica między GPT-3.5 i GPT-4 nie jest tak zauważalna, ale przy bardziej złożonych zadaniach staje się widoczna. GPT-4 jest bardziej niezawodny i kreatywny niż GPT-3.5 i może obsługiwać bardziej złożone i skomplikowane żądania, a także złożone obrazy. Jednak OpenAI przyznaje, że GPT-4 nie jest doskonały i nadal ma problemy ze sprawdzaniem faktów, rozumowaniem i nadmierną pewnością siebie.

  4. Aby móc korzystać z nowej wersji GPT-4, wymagana będzie aktywna subskrypcja ChatGPT Plus (20 USD). OpenAI planuje ostatecznie wprowadzić płatną subskrypcję dla tych, którzy korzystają z systemu w dużych ilościach, ale ma nadzieję pozostawić kilka bezpłatnych zapytań zwykłym użytkownikom.

Funkcje i przykłady wykorzystania nowego modelu

W ciągu ostatnich dwóch lat zespół przeprojektował cały stos głębokiego uczenia się i nawiązał współpracę z platformą Azure, aby od podstaw zbudować superkomputer. Rok temu OpenAI przeszkoliło GPT-3.5 jako pierwsze „testowe uruchomienie” całego systemu, obejmujące znalezienie i naprawienie kilku błędów oraz ulepszenie poprzedniej bazy. W rezultacie powstał GPT-4, który działa stabilnie i jest pierwszym dużym modelem, którego skuteczność treningu można z góry dokładnie przewidzieć.

GPT-3.5 i GPT-4 różnią się nieco w prostych zapytaniach. Różnica jest widoczna w złożonych zadaniach, które wymagają kreatywności, niezawodności i maksymalnej szczegółowości reakcji. Na przykład rozwiązywanie testów i zadań olimpijskich. Zielone słupki na wykresie wskazują, o ile lepiej radzi sobie nowy model:

Poniższa tabela pokazuje punkty zdobyte przez GPT-4 w różnych amerykańskich testach. Małym drukiem wskazuje najwyższe wyniki percentylowe. Szczególnym zainteresowaniem cieszyła się część matematyczna egzaminu SAT Math, obejmująca zagadnienia z algebry i geometrii, w tym wymagające wiedzy teoretycznej o funkcjach zbiorów i module liczbowym, a także znajomości równań zawierających pierwiastki, stopnie i funkcje. GPT-4 uzyskał 700 punktów na 800 i znalazł się w gronie 11% najlepszych osób biorących udział w tym teście. Sztuczna inteligencja nie szkoliła się specjalnie pod kątem przystępowania do testów SAT:

Twórcy przetestowali także, jak sztuczna inteligencja radzi sobie z różnymi językami. Przetestowali 26 języków. Angielski był oczywiście najbardziej zrozumiałym językiem dla ChatGPT z wynikiem 85,5%, włoski był drugi z 84,1%, rosyjski z względną oceną 82,7%, tajski z 71,8% i telugu (jeden z języków indyjskich) z 62% - minimum z testowanych:

Wejście wizualne

GPT-4 rozumie teraz nie tylko tekst, ale także obrazy: dokumenty zawierające tekst i zdjęcia, diagramy, zrzuty ekranu i nie tylko.

Na tym zdjęciu sztuczna inteligencja prawidłowo rozpoznała, że ​​przewód ładujący iPhone'a jest „stylizowany” na stare złącze VGA i że wszystko wygląda jak „chwyt dla staruszków”:

Z tego zdjęcia sztuczna inteligencja spokojnie wyodrębniła dane i zsumowała spożycie mięsa w Gruzji i Azji Zachodniej:

Sztuczna inteligencja rozwiązała również i szczegółowo opisała problem fizyczny napisany po francusku:

Wycisnąłem ze skomplikowanej instrukcji:

Ryzyka i środki łagodzące

Zespół wzmacnia bezpieczeństwo GPT-4 poprzez sprawdzanie i filtrowanie danych przed szkoleniem. Zatrudniono ekspertów do testowania zapytań wysokiego ryzyka. Do udoskonalenia modelu wykorzystano opinie i dane od ekspertów w tych obszarach. Zespół pracował na przykład nad tym, aby GPT-4 odrzucał zapytania takie jak „syntetyzowanie niebezpiecznych chemikaliów”.

Zgodnie z polityką OpenAI, w porównaniu do GPT-3.5 programiści zmniejszyli skłonność GPT-4 do odpowiadania na żądania dotyczące nielegalnych treści o 82%, jednocześnie zwiększając współczynnik odpowiedzi na prośby poufne (takie jak porada lekarska lub samookaleczenie) o 29%.

Ogólnie rzecz biorąc, interwencje zespołu zmniejszyły liczbę niebezpiecznych żądań, ale nadal zdarzają się sytuacje, w których użytkownicy łamią algorytm i uzyskują dostęp do niebezpiecznych treści. Ponieważ ryzyko związane ze sztuczną inteligencją stale rośnie, konieczne staje się osiągnięcie wysokiego stopnia niezawodności w takich sytuacjach.

Jest prawdopodobne, że modele GPT-4 i kolejne będą miały zarówno pozytywny, jak i negatywny wpływ na społeczeństwo. Zespół angażuje badaczy zewnętrznych, aby ocenić potencjalny wpływ na tym etapie i w przyszłości.