Od mozaik po obrazy w wysokiej rozdzielczości – zdolność sztucznej inteligencji do generowania obrazów stała się silniejsza, ale jak osiągnąć równowagę między pięknem a zniekształceniem?

Źródło przedruku artykułu: Heart of the Machine
 Jak wyważyć kompromis między narzędziami sztucznej inteligencji, które poprawiają wygląd obrazów, co często prowadzi do zniekształceń obrazu, a obrazami, które wyglądają bardziej realistycznie, a którym często brakuje piękna?
Źródło obrazu: wygenerowane przez Unbounded AI
W powieściach sensacyjnych i science fiction często widzimy taką scenę: na ekranie komputera wyświetla się rozmazane zdjęcie, a następnie badacz prosi o poprawienie obrazu, po czym obraz w magiczny sposób staje się wyraźny, odsłaniając ważne wskazówki.
Wygląda to świetnie, ale przez dziesięciolecia była to całkowicie fikcyjna fabuła. Było to trudne nawet w okresie, gdy zaczęły rosnąć możliwości generowania sztucznej inteligencji: „Gdyby tylko powiększyć obraz, stałby się on rozmyty. Byłoby dużo szczegółów, ale wszystko byłoby nie tak” – twierdzi Nvidia głębokiego uczenia się, powiedział Bryan Catanzaro, wiceprezes ds. badań.
Jednak badacze zaczęli niedawno włączać algorytmy sztucznej inteligencji do narzędzi do ulepszania obrazu, dzięki czemu proces jest łatwiejszy i wydajniejszy, ale nadal istnieją ograniczenia w zakresie danych, które można odzyskać z dowolnego obrazu. Jednak w miarę jak badacze w dalszym ciągu przesuwają granice ulepszonych algorytmów, znajdują nowe sposoby radzenia sobie z tymi ograniczeniami, a nawet znajdują sposoby na ich pokonanie.
W ciągu ostatniej dekady badacze zaczęli udoskonalać obrazy, korzystając z modeli generatywnej sieci kontradyktoryjnej (GAN), które są w stanie generować szczegółowe i imponujące obrazy.
„Obrazy nagle wyglądały znacznie lepiej” – mówi Tomer Michaeli, inżynier elektryk w Teonion Institute of Technology w Izraelu, ale z zaskoczeniem odkrył, że obrazy wygenerowane przez GAN wykazywały wysoki poziom zniekształceń, co jest miarą wzmocnienia wyświetlany obraz bliskości podstawowej rzeczywistości. Obrazy generowane przez sieci GAN wyglądają pięknie i naturalnie, ale w rzeczywistości „fikcjonują” lub „fantazjują” niedokładne szczegóły, co prowadzi do wysokiego stopnia zniekształceń.
Michaeli zauważa, że ​​dziedzina renowacji zdjęć dzieli się na dwie szerokie kategorie: jedna prezentuje piękne obrazy, z których wiele jest generowanych przez sieci GAN. Drugi pokazuje dane, ale niewiele zdjęć, ponieważ nie wygląda dobrze.
W 2017 roku Michaeli i jego student Yochai Blau w bardziej formalny sposób zbadali działanie różnych algorytmów ulepszania obrazu pod względem zniekształceń w porównaniu z jakością percepcyjną, używając znanych miar jakości percepcyjnej, które korelują z subiektywną oceną człowieka. Zgodnie z oczekiwaniami Michaeli jakość wizualna niektórych algorytmów jest bardzo wysoka, podczas gdy inne są bardzo dokładne i charakteryzują się bardzo niskimi zniekształceniami. Ale nikt nie oferuje tego, co najlepsze z obu światów, musisz wybrać jeden zamiast drugiego. Nazywa się to kompromisem w zakresie zniekształceń percepcji.
Michaeli rzucił także wyzwanie innym badaczom, aby opracowali algorytmy, które zapewnią najlepszą jakość obrazu przy danym poziomie zniekształceń, umożliwiając uczciwe porównanie algorytmów zapewniających ładne zdjęcia z algorytmami zapewniającymi dobre statystyki. Od tego czasu setki badaczy sztucznej inteligencji wyraziły obawy dotyczące zniekształceń i jakości percepcyjnej ich algorytmów, cytując artykuł Michaeli i Blau opisujący ten kompromis.
Czasami skutki kompromisu w zakresie zniekształceń percepcji nie są aż tak przerażające. Na przykład Nvidia stwierdziła, że ​​ekrany o wysokiej rozdzielczości nie są w stanie dobrze renderować niektórych treści wizualnych w niskiej rozdzielczości, dlatego w lutym 2023 r. uruchomiła narzędzie wykorzystujące głębokie uczenie się do poprawy jakości strumieniowego przesyłania wideo. W tym przypadku inżynierowie Nvidii przedłożyli jakość percepcyjną nad dokładność, akceptując fakt, że gdy algorytm zwiększa rozdzielczość wideo, generuje pewne szczegóły wizualne, których nie ma w oryginalnym filmie.
„Modelka fantazjuje. To czysta spekulacja” – powiedział Catanzaro. „Nie ma znaczenia, czy model o super rozdzielczości przez większość czasu zgaduje źle, pod warunkiem, że jest spójny”.
Widok przepływu krwi w mózgu myszy (po lewej) i ten sam widok po użyciu narzędzi AI w celu poprawy jakości i dokładności obrazu. Źródło: Junjie Yao, Xiaoyi Zhu, Uniwersytet Duke.
W szczególności zastosowania w badaniach i medycynie będą wymagały większej dokładności. Technologia sztucznej inteligencji poczyniła znaczne postępy w obrazowaniu, ale „czasami powoduje niepożądane skutki uboczne, takie jak nadmierne dopasowanie lub dodawanie fałszywych funkcji, dlatego należy ją traktować ze szczególną ostrożnością” – stwierdziła Junjie Yao, inżynier biomedyczny na Duke University.
W swoim zeszłorocznym artykule opisał, w jaki sposób można wykorzystać narzędzia sztucznej inteligencji do ulepszenia istniejących pomiarów przepływu krwi w mózgu i metabolizmu, przy jednoczesnym bezpiecznym działaniu po dokładnej stronie kompromisu w zakresie zniekształceń percepcji.
Jednym ze sposobów obejścia ograniczeń ilości danych, które można wyodrębnić z obrazu, jest po prostu scalanie danych z większej liczby obrazów. Wcześniej badacze badający środowisko za pomocą zdjęć satelitarnych poczynili pewne postępy w integracji danych wizualnych z różnych źródeł: w 2021 r. badacze z Chin i Wielkiej Brytanii połączyli dane z dwóch różnych typów satelitów, aby lepiej obserwować wylesianie w dorzeczu Konga. Dorzecze Konga to drugi co do wielkości tropikalny las deszczowy na świecie i jeden z najbardziej zróżnicowanych biologicznie regionów. Naukowcy zebrali dane z dwóch satelitów Landsat, które od dziesięcioleci mierzą wylesianie, i wykorzystali techniki głębokiego uczenia się, aby poprawić rozdzielczość zdjęć z 30 metrów do 10 metrów. Następnie połączyli ten zestaw zdjęć z danymi z dwóch satelitów Sentinel-2, które mają nieco inne układy detektorów. Ich eksperymenty pokazują, że ten połączony obraz „umożliwia wykrycie od 11% do 21% więcej obszarów zaburzonych niż w przypadku wykorzystania samych obrazów Sentinel-2 lub Landsat-7/8”.
Jeżeli bezpośredni przełom nie jest możliwy, Michaeli proponuje inną metodę twardego ograniczenia dostępności informacji. Zamiast szukać ostatecznej odpowiedzi na pytanie, jak poprawić obraz o niskiej jakości, modelowi można pokazać wiele różnych interpretacji oryginalnego obrazu. W artykule „Explorable Super Definition” pokazuje, w jaki sposób narzędzie do ulepszania obrazu może dostarczać użytkownikowi wielu sugestii. Rozmazany obraz osoby ubranej w coś, co wygląda na szarą koszulę, o niskiej rozdzielczości, można zrekonstruować w obraz o wyższej rozdzielczości, na którym koszula może mieć czarno-białe pionowe paski, poziome paski lub kratkę, a wszystko to z równą wiarygodnością.
W innym przykładzie Michaeli zrobił niskiej jakości zdjęcie tablicy rejestracyjnej i użył ulepszania obrazu AI, aby pokazać, że cyfra 1 na tablicy rejestracyjnej najbardziej przypomina 0. Kiedy jednak obraz został przetworzony przy użyciu innego, bardziej otwartego algorytmu opracowanego przez Michaeli, liczba wydawała się równie prawdopodobna: 0, 1 lub 8. Takie podejście może pomóc wykluczyć inne liczby bez błędnego wniosku, że liczba ta wynosi 0.
Możemy złagodzić te złudzenia, ale ten potężny, rozwiązujący przestępstwa przycisk „wzmocnienia” pozostaje marzeniem.
W różnych dziedzinach różne dyscypliny na swój własny sposób zajmują się kompromisem w zakresie zniekształceń percepcji, a także tym, ile informacji można wydobyć z obrazów AI i w jakim stopniu można ufać tym obrazom, pozostaje kluczowymi pytaniami.
„Powinniśmy pamiętać, że algorytm po prostu wymyśla szczegóły, aby uzyskać te piękne obrazy” – powiedział Michaeli.
Oryginalny link: https://www.quantamagazine.org/the-ai-tools-making-images-look-better-20230823/