De mosaicos a imagens de alta definição, a capacidade da IA de gerar imagens tornou-se mais forte, mas como conseguir um equilíbrio entre beleza e distorção?

Fonte da reimpressão do artigo: Heart of the Machine
 Como avaliar o equilíbrio entre as ferramentas de IA que melhoram a aparência das imagens, o que muitas vezes leva à distorção da imagem, e as imagens que parecem mais realistas, que muitas vezes carecem de beleza?
Fonte da imagem: gerada por Unbounded AI
Em obras de suspense e ficção científica, muitas vezes vemos esta cena: uma foto borrada é exibida na tela do computador, e então o investigador pede para realçar a imagem, e então a imagem magicamente fica clara, revelando pistas importantes.
Parece ótimo, mas é um enredo completamente fictício há décadas. Foi difícil de fazer mesmo durante o período em que as capacidades geradoras de IA começaram a crescer: "Se você apenas aumentasse o zoom na imagem, ela ficaria desfocada. Haveria muitos detalhes, mas estaria tudo errado", aplica a Nvidia. aprendizagem profunda disse Bryan Catanzaro, vice-presidente de pesquisa.
No entanto, os investigadores começaram recentemente a incorporar algoritmos de IA em ferramentas de melhoramento de imagem, tornando o processo mais fácil e poderoso, mas ainda existem limitações aos dados que podem ser recuperados de qualquer imagem. Mas à medida que os pesquisadores continuam a ampliar os limites dos algoritmos aprimorados, eles estão encontrando novas maneiras de lidar com essas limitações e até mesmo de superá-las.
Na última década, os pesquisadores começaram a aprimorar imagens usando modelos de redes adversárias generativas (GAN), que são capazes de produzir imagens detalhadas e impressionantes.
“As imagens de repente pareciam muito melhores”, diz Tomer Michaeli, engenheiro elétrico do Instituto de Tecnologia Teonion, em Israel. Mas também ficou surpreso ao descobrir que as imagens geradas pelo GAN apresentavam altos níveis de distorção, uma medida do aumento. Proximidade da realidade subjacente que está sendo exibida. As imagens geradas pelos GANs parecem lindas e naturais, mas na verdade estão “ficcionalizando” ou “fantasiando” aqueles detalhes imprecisos, o que leva a um alto grau de distorção.
Michaeli observa que o campo da restauração de fotos se enquadra em duas grandes categorias: Uma mostra belas imagens, muitas das quais são geradas por GANs. O outro mostra os dados, mas não muitas fotos porque não parece bom.
Em 2017, Michaeli e seu aluno de pós-graduação Yochai Blau exploraram mais formalmente o desempenho de vários algoritmos de aprimoramento de imagem em distorção versus qualidade perceptual, usando medidas conhecidas de qualidade perceptiva que se correlacionam com o julgamento humano subjetivo. Como Michaeli esperava, a qualidade visual de alguns algoritmos é muito alta, enquanto outros são muito precisos com baixíssima distorção. Mas ninguém oferece o melhor dos dois mundos, é preciso escolher um em vez do outro. Isso é chamado de trade-off de distorção perceptual.
Michaeli também desafiou outros pesquisadores a criar algoritmos que produzissem a melhor qualidade de imagem em um determinado nível de distorção, permitindo uma comparação justa entre algoritmos para imagens bonitas e algoritmos para boas estatísticas. Desde então, centenas de investigadores de IA levantaram preocupações sobre a distorção e a qualidade perceptual dos seus algoritmos, citando o artigo de Michaeli e Blau que descreve esta compensação.
Às vezes, os efeitos da compensação da distorção perceptiva não são tão assustadores. Por exemplo, a Nvidia descobriu que as telas de alta definição não conseguiam renderizar bem alguns conteúdos visuais de baixa definição, então, em fevereiro de 2023, lançou uma ferramenta que usa aprendizado profundo para melhorar a qualidade do streaming de vídeos. Neste caso, os engenheiros da Nvidia escolheram a qualidade perceptual em vez da precisão, aceitando o facto de que quando o algoritmo aumenta a resolução de um vídeo, gera alguns detalhes visuais não presentes no vídeo original.
“A modelo está fantasiando. É pura especulação”, disse Catanzaro. “Não importa se o modelo de super-resolução dá errado na maioria das vezes, desde que seja consistente.”
Uma visão do fluxo sanguíneo no cérebro de um camundongo (à esquerda) e a mesma visão após usar ferramentas de IA para melhorar a qualidade e a precisão da imagem. Fonte: Junjie Yao, Xiaoyi Zhu, Universidade Duke.
Em particular, as aplicações na investigação e na medicina exigirão maior precisão. A tecnologia de IA fez progressos significativos em imagens, mas “às vezes tem efeitos colaterais indesejáveis, como overfitting ou adição de características falsas, por isso precisa ser tratada com extrema cautela”, disse Junjie Yao, engenheiro biomédico da Duke University.
No seu artigo do ano passado, ele descreveu como as ferramentas de IA poderiam ser usadas para melhorar as medições existentes do fluxo sanguíneo cerebral e do metabolismo, ao mesmo tempo que operava com segurança no lado preciso da compensação da distorção perceptiva.
Uma maneira de contornar as limitações de quantos dados podem ser extraídos de uma imagem é simplesmente mesclar dados de mais imagens. Anteriormente, os investigadores que estudavam o ambiente através de imagens de satélite fizeram alguns progressos na integração de dados visuais de diferentes fontes: Em 2021, investigadores na China e no Reino Unido fundiram dados de dois tipos diferentes de satélites para melhor observar a desflorestação na Bacia do Congo. A Bacia do Congo é a segunda maior floresta tropical do mundo e uma das regiões com maior diversidade biológica. Os pesquisadores pegaram dados de dois satélites Landsat, que medem o desmatamento há décadas, e usaram técnicas de aprendizagem profunda para melhorar a resolução das imagens de 30 para 10 metros. Eles então fundiram esse conjunto de imagens com dados de dois satélites Sentinel-2, que possuem conjuntos de detectores ligeiramente diferentes. Seus experimentos mostram que esta imagem combinada “permite a detecção de 11% a 21% mais áreas perturbadas do que quando usadas apenas imagens Sentinel-2 ou Landsat-7/8”.
Se não for possível um avanço directo, Michaeli propõe outro método para limitar fortemente a disponibilidade de informação. Em vez de buscar uma resposta definitiva sobre como aprimorar uma imagem de baixa qualidade, o modelo pode apresentar múltiplas interpretações diferentes da imagem original. No artigo “Super Resolução Explorável”, ele mostra como uma ferramenta de aprimoramento de imagem pode fornecer diversas sugestões ao usuário. Uma imagem borrada e de baixa resolução de uma pessoa vestindo o que parece ser uma camisa cinza pode ser reconstruída em uma imagem de alta resolução na qual a camisa pode ter listras verticais pretas e brancas, listras horizontais ou xadrez, todas com igual plausibilidade.
Em outro exemplo, Michaeli tirou uma foto de baixa qualidade de uma placa de carro e usou o aprimoramento de imagem de IA para mostrar que o número 1 na placa mais se assemelhava a um 0. Mas quando a imagem foi processada através de um algoritmo diferente e mais aberto desenvolvido por Michaeli, o número parecia igualmente provável de ser 0, 1 ou 8. Esta abordagem pode ajudar a descartar outros números sem concluir erroneamente que o número é 0.
Podemos mitigar estas ilusões, mas esse poderoso botão de “impulso” de resolução de crimes continua a ser um sonho.
Em diferentes campos, várias disciplinas abordam o trade-off da distorção perceptiva à sua maneira. A quantidade de informação que pode ser extraída das imagens de IA e o quanto pode ser confiável nessas imagens permanecem questões centrais.
“Devemos ter em mente que o algoritmo está apenas inventando os detalhes para produzir essas belas imagens”, disse Michaeli.
Link original: https://www.quantamagazine.org/the-ai-tools-making-images-look-better-20230823/