Nowe funkcje ChatGPT-4

Przegląd najważniejszych wydarzeń  GPT-4 obsługuje wprowadzanie obrazu i tekstu, podczas gdy GPT-3.5 akceptuje tylko tekst. 
GPT-4 wypadł porównywalnie z ludźmi w różnych testach zawodowych i badawczych. Zdał na przykład egzamin adwokacki, plasując się w gronie 10% najlepszych zdających. 
OpenAI spędziło 6 miesięcy na testowaniu i konfigurowaniu GPT-4. Na prostym czacie różnica między GPT-3.5 i GPT-4 nie jest tak zauważalna, ale przy bardziej złożonych zadaniach staje się widoczna. GPT-4 jest bardziej niezawodny i kreatywny niż GPT-3.5 i może obsługiwać bardziej złożone i skomplikowane żądania, a także złożone obrazy. Jednak OpenAI przyznaje, że GPT-4 nie jest doskonały i nadal ma problemy ze sprawdzaniem faktów, rozumowaniem i nadmierną pewnością siebie. 
Aby móc korzystać z nowej wersji GPT-4, wymagana będzie aktywna subskrypcja ChatGPT Plus (20 USD). OpenAI planuje ostatecznie wprowadzić płatną subskrypcję dla tych, którzy korzystają z systemu w dużych ilościach, ale ma nadzieję pozostawić kilka bezpłatnych zapytań zwykłym użytkownikom.
Funkcje i przykłady wykorzystania nowego modelu  W ciągu ostatnich dwóch lat zespół przeprojektował cały stos głębokiego uczenia się i nawiązał współpracę z platformą Azure, aby od podstaw zbudować superkomputer. Rok temu OpenAI przeszkoliło GPT-3.5 jako pierwsze „testowe uruchomienie” całego systemu, obejmujące znalezienie i naprawienie kilku błędów oraz ulepszenie poprzedniej bazy. W rezultacie powstał GPT-4, który działa stabilnie i jest pierwszym dużym modelem, którego skuteczność treningu można z góry dokładnie przewidzieć. 
  GPT-3.5 i GPT-4 różnią się nieco w prostych zapytaniach. Różnica jest widoczna w złożonych zadaniach, które wymagają kreatywności, niezawodności i maksymalnej szczegółowości reakcji. Na przykład rozwiązywanie testów i zadań olimpijskich. Zielone słupki na wykresie wskazują, o ile lepiej radzi sobie nowy model:
Poniższa tabela pokazuje punkty zdobyte przez GPT-4 w różnych amerykańskich testach. Małym drukiem wskazuje najwyższe wyniki percentylowe. Szczególnym zainteresowaniem cieszyła się część matematyczna egzaminu SAT Math, obejmująca zagadnienia z algebry i geometrii, w tym wymagające wiedzy teoretycznej o funkcjach zbiorów i module liczbowym, a także znajomości równań zawierających pierwiastki, stopnie i funkcje. GPT-4 uzyskał 700 punktów na 800 i znalazł się w gronie 11% najlepszych osób biorących udział w tym teście. Sztuczna inteligencja nie szkoliła się specjalnie pod kątem przystępowania do testów SAT:
Twórcy przetestowali także, jak sztuczna inteligencja radzi sobie z różnymi językami. Przetestowali 26 języków. Angielski był oczywiście najbardziej zrozumiałym językiem dla ChatGPT z wynikiem 85,5%, włoski był drugi z 84,1%, rosyjski z względną oceną 82,7%, tajski z 71,8% i telugu (jeden z języków indyjskich) z 62% - minimum z testowanych:
Wejście wizualne  GPT-4 rozumie teraz nie tylko tekst, ale także obrazy: dokumenty zawierające tekst i zdjęcia, diagramy, zrzuty ekranu i nie tylko.   
Na tym zdjęciu sztuczna inteligencja prawidłowo rozpoznała, że ​​przewód ładujący iPhone'a jest „stylizowany” na stare złącze VGA i że wszystko wygląda jak „chwyt dla staruszków”:
Z tego zdjęcia sztuczna inteligencja spokojnie wyodrębniła dane i zsumowała spożycie mięsa w Gruzji i Azji Zachodniej:
Sztuczna inteligencja rozwiązała również i szczegółowo opisała problem fizyczny napisany po francusku:
Wycisnąłem ze skomplikowanej instrukcji:
Ryzyka i środki łagodzące  Zespół wzmacnia bezpieczeństwo GPT-4 poprzez sprawdzanie i filtrowanie danych przed szkoleniem. Zatrudniono ekspertów do testowania zapytań wysokiego ryzyka. Do udoskonalenia modelu wykorzystano opinie i dane od ekspertów w tych obszarach. Zespół pracował na przykład nad tym, aby GPT-4 odrzucał zapytania takie jak „syntetyzowanie niebezpiecznych chemikaliów”.  
Zgodnie z polityką OpenAI, w porównaniu do GPT-3.5 programiści zmniejszyli skłonność GPT-4 do odpowiadania na żądania dotyczące nielegalnych treści o 82%, jednocześnie zwiększając współczynnik odpowiedzi na prośby poufne (takie jak porada lekarska lub samookaleczenie) o 29%.  
Ogólnie rzecz biorąc, interwencje zespołu zmniejszyły liczbę niebezpiecznych żądań, ale nadal zdarzają się sytuacje, w których użytkownicy łamią algorytm i uzyskują dostęp do niebezpiecznych treści. Ponieważ ryzyko związane ze sztuczną inteligencją stale rośnie, konieczne staje się osiągnięcie wysokiego stopnia niezawodności w takich sytuacjach.   
Jest prawdopodobne, że modele GPT-4 i kolejne będą miały zarówno pozytywny, jak i negatywny wpływ na społeczeństwo. Zespół angażuje badaczy zewnętrznych, aby ocenić potencjalny wpływ na tym etapie i w przyszłości.
.css-1iqe90x{box-sizing:border-box;margin:0;min-width:0;color:#EAECEF;}Przegląd najważniejszych wydarzeń

Funkcje i przykłady wykorzystania nowego modelu

Wejście wizualne

Ryzyka i środki łagodzące

Przegląd najważniejszych wydarzeń