Destaques

  1. GPT-4 suporta entrada de imagem e texto, enquanto GPT-3.5 aceita apenas texto.

  2. O GPT-4 teve desempenho comparável ao dos humanos em uma variedade de testes profissionais e de estudo. Por exemplo, passou no exame da ordem, ficando entre os 10% melhores participantes do teste.

  3. A OpenAI passou 6 meses testando e configurando o GPT-4. No chat simples a diferença entre GPT-3.5 e GPT-4 não é tão perceptível, mas em tarefas mais complexas ela se torna aparente. O GPT-4 é mais robusto e criativo que o GPT-3.5 e pode lidar com solicitações mais complexas e complexas, bem como com imagens complexas. No entanto, a OpenAI admite que o GPT-4 não é perfeito e ainda tem problemas com verificação de fatos, raciocínio e excesso de confiança.

  4. Uma assinatura ativa do ChatGPT Plus (US$ 20) será necessária para usar a nova versão do GPT-4 agora. A OpenAI planeja eventualmente introduzir uma assinatura paga para quem usa o sistema em grandes volumes, mas espera deixar algumas consultas gratuitas para usuários regulares.

Recursos e exemplos de como usar o novo modelo

Nos últimos dois anos, a equipe redesenhou toda a pilha de aprendizagem profunda e fez parceria com o Azure para construir um supercomputador do zero. Há um ano, a OpenAI treinou o GPT-3.5 como o primeiro “teste” de todo o sistema, incluindo a localização e correção de vários bugs e a melhoria da base anterior. O resultado é o GPT-4, que funciona de forma estável e é o primeiro grande modelo cuja eficácia do treinamento pode ser prevista com precisão e antecedência.

GPT-3.5 e GPT-4 diferem ligeiramente em consultas simples. A diferença é vista em tarefas complexas que exigem criatividade, confiabilidade e máximo detalhe de resposta. Por exemplo, resolver testes e tarefas olímpicas. As barras verdes no gráfico indicam o desempenho do novo modelo:

A tabela abaixo mostra os pontos que o GPT-4 obteve nos diversos testes americanos. As letras pequenas indicam as pontuações percentuais superiores. De particular interesse foi a seção de matemática do exame SAT Math, que inclui problemas de álgebra e geometria, incluindo aqueles que exigem conhecimento teórico de funções de conjuntos e módulo numérico, bem como conhecimento de equações contendo radicais, graus e funções. GPT-4 pontuou 700 em 800 e ficou entre os 11% melhores que realizaram este teste. E a IA não treinou especificamente para fazer os testes SAT:

Os desenvolvedores também testaram como a IA lida com diferentes linguagens. Eles testaram 26 idiomas. O inglês foi obviamente o idioma mais compreensível para o ChatGPT com uma pontuação de 85,5%, o italiano ficou em segundo lugar com 84,1%, o russo teve uma classificação relativa de 82,7%, o tailandês com 71,8% e o telugu (uma das línguas indianas) com 62% - o mínimo daqueles testados:

Entrada visual

O GPT-4 agora entende não apenas texto, mas também imagens: documentos com texto e fotos, diagramas, capturas de tela e muito mais.

Nesta imagem, a IA reconheceu corretamente que o fio de carregamento do iPhone é “estilizado” para se parecer com o antigo conector VGA e que tudo parece um “truque para os antigos”:

A partir desta imagem, a IA extraiu dados com calma e somou o consumo de carne na Geórgia e na Ásia Ocidental:

A IA também resolveu e descreveu detalhadamente um problema de física escrito em francês:

Extraí um manual complicado:

Riscos e medidas de mitigação

A equipe está fortalecendo a segurança do GPT-4 por meio da triagem e filtragem dos dados antes do treinamento. Especialistas foram contratados para testar consultas de alto risco. Feedback e dados de especialistas nessas áreas foram utilizados para melhorar o modelo. Por exemplo, a equipe trabalhou para que o GPT-4 rejeitasse consultas como “sintetização de produtos químicos perigosos”.

Em comparação com o GPT-3.5, os desenvolvedores reduziram a propensão do GPT-4 de responder a solicitações de conteúdo ilegal em 82%, ao mesmo tempo que aumentaram a taxa de resposta a solicitações confidenciais (como aconselhamento médico e automutilação) em 29%, de acordo com a política da OpenAI.

No geral, as intervenções da equipe reduziram as solicitações perigosas, mas ainda existem situações em que os usuários quebram o algoritmo e acessam conteúdos perigosos. Dado que os riscos associados à inteligência artificial aumentam constantemente, torna-se necessário alcançar um elevado grau de fiabilidade em tais situações.

É provável que o GPT-4 e os modelos subsequentes tenham efeitos positivos e negativos na sociedade. A equipa está a contratar investigadores externos para avaliar o impacto potencial nesta fase e no futuro.