Von Mosaiken bis hin zu hochauflösenden Bildern ist die Fähigkeit der KI, Bilder zu erzeugen, stärker geworden, aber wie erreicht man ein Gleichgewicht zwischen Schönheit und Verzerrung?

Quelle des Nachdrucks des Artikels: Heart of the Machine
 Wie lässt sich der Kompromiss zwischen KI-Tools abwägen, die Bilder besser aussehen lassen, was oft zu Bildverzerrungen führt, und Bildern, die realistischer aussehen, denen es oft an Schönheit mangelt?
Bildquelle: Erstellt von Unbounded AI
In Suspense- und Science-Fiction-Werken sehen wir oft diese Szene: Ein verschwommenes Foto wird auf dem Computerbildschirm angezeigt, und dann bittet der Ermittler darum, das Bild zu verbessern, und dann wird das Bild auf magische Weise klar und enthüllt wichtige Hinweise.
Das sieht großartig aus, aber es ist seit Jahrzehnten eine völlig fiktive Handlung. Dies war selbst in der Zeit, in der die Fähigkeiten zur KI-Generierung zu wachsen begannen, schwierig: „Wenn man einfach nur in das Bild hineinzoomt, wird es unscharf. Es gibt viele Details, aber es wäre alles falsch“, so Nvidia wendet Deep Learning an, sagte Bryan Catanzaro, Vizepräsident für Forschung.
Allerdings haben Forscher vor kurzem damit begonnen, KI-Algorithmen in Bildverbesserungstools zu integrieren, was den Prozess einfacher und leistungsfähiger macht. Es gibt jedoch immer noch Einschränkungen hinsichtlich der Daten, die aus jedem Bild abgerufen werden können. Doch während Forscher die Grenzen verbesserter Algorithmen immer weiter ausdehnen, finden sie neue Wege, mit diesen Einschränkungen umzugehen und sogar Wege zu finden, sie zu überwinden.
Im letzten Jahrzehnt haben Forscher damit begonnen, Bilder mithilfe von GAN-Modellen (Generative Adversarial Network) zu verbessern, die in der Lage sind, detaillierte und beeindruckende Bilder zu erzeugen.
„Die Bilder sahen plötzlich viel besser aus“, sagt Tomer Michaeli, Elektroingenieur am Teonion Institute of Technology in Israel. Er war jedoch auch überrascht, dass die vom GAN erzeugten Bilder ein hohes Maß an Verzerrung aufwiesen, ein Maß für die Verbesserung Nähe zur zugrunde liegenden Realität, die dargestellt wird. Die von GANs erzeugten Bilder sehen schön und natürlich aus, aber in Wirklichkeit „fiktionalisieren“ oder „phantasieren“ sie diese ungenauen Details, was zu einem hohen Grad an Verzerrung führt.
Michaeli stellt fest, dass der Bereich der Fotorestaurierung in zwei große Kategorien unterteilt werden kann: Die eine zeigt wunderschöne Bilder, von denen viele von GANs generiert werden. Das andere zeigt die Daten, aber nicht viele Bilder, weil es nicht gut aussieht.
Im Jahr 2017 untersuchten Michaeli und sein Doktorand Yochai Blau die Leistung verschiedener Bildverbesserungsalgorithmen in Bezug auf Verzerrung im Vergleich zur Wahrnehmungsqualität, indem sie bekannte Maße der Wahrnehmungsqualität verwendeten, die mit dem subjektiven menschlichen Urteilsvermögen korrelieren. Wie von Michaeli erwartet, ist die visuelle Qualität einiger Algorithmen sehr hoch, während andere sehr genau und mit sehr geringer Verzerrung sind. Aber niemand bietet das Beste aus beiden Welten, man muss sich für das eine entscheiden. Dies wird als Wahrnehmungsverzerrungs-Kompromiss bezeichnet.
Michaeli forderte auch andere Forscher auf, Algorithmen zu entwickeln, die bei einem bestimmten Grad der Verzerrung die beste Bildqualität erzeugen und so einen fairen Vergleich zwischen Algorithmen für schöne Bilder und Algorithmen für gute Statistiken ermöglichen. Seitdem haben Hunderte von KI-Forschern Bedenken hinsichtlich der Verzerrung und Wahrnehmungsqualität ihrer Algorithmen geäußert und sich dabei auf Michaelis und Blaus Arbeit berufen, in der dieser Kompromiss beschrieben wird.
Manchmal sind die Auswirkungen des Kompromisses der Wahrnehmungsverzerrung gar nicht so beängstigend. Nvidia stellte beispielsweise fest, dass hochauflösende Bildschirme einige visuelle Inhalte mit niedriger Auflösung nicht gut wiedergeben konnten, und brachte daher im Februar 2023 ein Tool auf den Markt, das Deep Learning nutzt, um die Qualität von Streaming-Videos zu verbessern. In diesem Fall haben die Nvidia-Ingenieure die Wahrnehmungsqualität der Genauigkeit vorgezogen und dabei die Tatsache akzeptiert, dass der Algorithmus beim Hochskalieren der Videoauflösung einige visuelle Details erzeugt, die im Originalvideo nicht vorhanden waren.
„Das Modell ist Fantasie. Es ist reine Spekulation“, sagte Catanzaro. „Es spielt keine Rolle, ob das hochauflösende Modell die meiste Zeit falsch rät, solange es konsistent ist.“
Eine Ansicht des Blutflusses im Gehirn einer Maus (links) und dieselbe Ansicht nach Verwendung von KI-Tools zur Verbesserung der Bildqualität und -genauigkeit. Quelle: Junjie Yao, Xiaoyi Zhu, Duke University.
Insbesondere Anwendungen in Forschung und Medizin erfordern eine höhere Genauigkeit. Die KI-Technologie hat in der Bildgebung erhebliche Fortschritte gemacht, aber „manchmal hat sie unerwünschte Nebenwirkungen wie Überanpassung oder das Hinzufügen falscher Merkmale und muss daher mit äußerster Vorsicht behandelt werden“, sagte Junjie Yao, ein biomedizinischer Ingenieur an der Duke University.
In seiner letztjährigen Arbeit beschrieb er, wie KI-Tools eingesetzt werden könnten, um bestehende Messungen der Hirndurchblutung und des Stoffwechsels zu verbessern und gleichzeitig sicher auf der genauen Seite des Kompromisses zwischen Wahrnehmungsverzerrung zu arbeiten.
Eine Möglichkeit, die Beschränkungen zu umgehen, wie viele Daten aus einem Bild extrahiert werden können, besteht darin, einfach Daten aus mehreren Bildern zusammenzuführen. Bisher haben Forscher, die die Umwelt mithilfe von Satellitenbildern untersuchen, einige Fortschritte bei der Integration visueller Daten aus verschiedenen Quellen gemacht: Im Jahr 2021 haben Forscher in China und dem Vereinigten Königreich Daten von zwei verschiedenen Arten von Satelliten zusammengeführt, um die Entwaldung im Kongobecken besser beobachten zu können. Das Kongobecken ist der zweitgrößte tropische Regenwald der Welt und eine der artenreichsten Regionen. Die Forscher nutzten Daten von zwei Landsat-Satelliten, die seit Jahrzehnten die Entwaldung messen, und nutzten Deep-Learning-Techniken, um die Auflösung der Bilder von 30 Metern auf 10 Meter zu verbessern. Anschließend fusionierten sie diesen Bildsatz mit Daten von zwei Sentinel-2-Satelliten, die über leicht unterschiedliche Detektoranordnungen verfügen. Ihre Experimente zeigen, dass dieses kombinierte Bild „die Erkennung von 11 bis 21 % mehr gestörten Bereichen ermöglicht als bei alleiniger Verwendung von Sentinel-2- oder Landsat-7/8-Bildern.“
Wenn ein direkter Durchbruch nicht möglich ist, schlägt Michaeli eine andere Methode vor, um die Zugänglichkeit von Informationen stark einzuschränken. Anstatt nach einer endgültigen Antwort zu suchen, wie ein Bild mit geringer Qualität verbessert werden kann, können dem Modell mehrere unterschiedliche Interpretationen des Originalbilds angezeigt werden. In dem Artikel „Explorable Super Resolution“ zeigt er, wie ein Bildverbesserungstool dem Benutzer mehrere Vorschläge liefern kann. Ein verschwommenes Bild mit niedriger Auflösung einer Person, die scheinbar ein graues Hemd trägt, kann in ein Bild mit höherer Auflösung rekonstruiert werden, in dem das Hemd schwarz-weiße vertikale Streifen, horizontale Streifen oder Karomuster aufweisen kann, alle mit gleicher Plausibilität.
In einem anderen Beispiel machte Michaeli ein Foto eines Nummernschilds in geringer Qualität und nutzte die KI-Bildverbesserung, um zu zeigen, dass die Nummer 1 auf dem Nummernschild am ehesten einer 0 ähnelte. Als das Bild jedoch mit einem anderen, von Michaeli entwickelten, offeneren Algorithmus verarbeitet wurde, schien die Zahl gleich wahrscheinlich 0, 1 oder 8 zu sein. Dieser Ansatz kann dabei helfen, andere Zahlen auszuschließen, ohne fälschlicherweise den Schluss zu ziehen, dass die Zahl 0 ist.
Wir können diese Illusionen mildern, aber dieser leistungsstarke „Boost“-Knopf zur Verbrechensaufklärung bleibt ein Traum.
In verschiedenen Bereichen befassen sich verschiedene Disziplinen auf ihre eigene Weise mit dem Kompromiss zwischen Wahrnehmungsverzerrungen, und wie viele Informationen aus KI-Bildern extrahiert werden können und wie sehr man diesen Bildern vertrauen kann, bleiben Kernfragen.
„Wir sollten bedenken, dass der Algorithmus nur die Details erfindet, um diese schönen Bilder auszugeben“, sagte Michaeli.
Ursprünglicher Link: https://www.quantamagazine.org/the-ai-tools-making-images-look-better-20230823/