In meinem Test der in DxO Photolab 8 enthaltenen neuen KI-basierten Entrauschung DeepPrime XDS2 habe ich mich anhand der unglaublich detailreichen Ergebnisse gefragt, wie viele der so herausgearbeiteten Details im Motiv wirklich vorhanden und wieviele nur hinzugedichtet werden. Das möchte ich hier etwas genauer untersuchen.
KI-Entrauschung
Die „künstliche Intelligenz“ - KI hat auch die Bildbearbeitung revolutioniert (übrigens habe ich auch das Aufmacher-Bild dieses Artikels mit ChatGPT erstellt 😉). Besonders eindrucksvoll für uns Fotografen sind die Ergebnisse von KI-basierten Entrauschungsverfahren, die es ermöglichen, auch mit vorher unvorstellbar hohen ISO-Werten noch sehr gut brauchbare Bilder machen zu können.
Seit der Verfügbarkeit von KI-basierten Entrauschungsverfahren habe ich keinerlei Probleme mehr damit, auch mit 5stelligen ISO-Werten zu arbeiten. Die so erzielbaren Ergebnisse verblüffen mich aber doch noch immer. Unten zeige ich wieder ein Bild unseres Katers Tom in direkter Gegenüberstellung der Original- mit der entrauschten Version. Da es damals trotz ISO 12.800 noch zu dunkel war, musste ich das Bild in Lightroom um eine weitere Blendenstufe aufhellen. Eigentlich entspricht es somit sogar einer Aufnahme mit ISO 25.600!
Links ist das Original und rechts die mit DxOs DeepPRIME XD2s, dem meiner Ansicht nach derzeit besten verfügbaren KI-Verfahren, bearbeitete Version zu sehen (Ausschnitt in 200% Vergrößerung):
Das ist doch wirklich sehr eindrucksvoll, oder?
Weitere Vergleiche - auch mit anderen KI-Entrauschungsverfahren - finden sich in meinem Artikel DeepPRIME XD2s in DxO PhotoLab 8. Grundsätzlich gilt vieles des folgenden auch für die anderen KI-basierten Verfahren.
Wie geht das?
Im Gegensatz zu den bisher algorithmisch arbeitenden Entrauschungsmechanismen in den üblichen Boildbearbeitungsprogrammen ist die Funktionsweise der KI völlig anders. Dabei wird ein komplexes neuronales Netzwerk mit einer Unzahl von Bildern trainiert.
Prinzipiell kann man dabei dasselbe Motiv jeweils mit niedrigem und hohen ISO-Wert aufnehmen und die KI mit den Bildpaaren so trainieren, dass sie lernt, dass das entrauschte High-ISO der Version mit dem niedrigen ISO Wert am nächsten kommt. Das funktioniert, wie man ja sehen kann, auch sehr gut. Je mehr unterschiedliche Bilder zum Training zur Verfügung stehen, je mehr Rechenleistung für das Training genutzt wird, desto besser werden die Verfahren.
Es werden inzwischen mit der KI-Entrauschung Details enthüllt, die im Original beim besten Willen mit dem bloßen Auge nicht auszumachen sind. Es stellt sich daher die Frage, ob die im bearbeiteten Bild sichtbaren Details wirklich da sind, oder ob die KI dort nur Strukturen generiert, die sie für passend hält.
So in dem Sinne:
Das ist eine Katze, die hat viele Haare. Einige kann ich auch sehen. Also ersetze ich das Rauschen dazwischen durch weitere parallel verlaufende Haare. Im Auge darf ich das aber nicht machen.…
Wie auch immer - das scheint meist sehr gut zu funktionieren. Aber ist das Ergebnis
Fakt oder Fake?
Bei aktuellen textbasierten KI-Systemen ist bekannt, dass sie bei Unsicherheiten halluzinieren können. Wenn sie etwas nicht wissen, erfinden sie dann eine plausibel klingende Antwort - das ist schon fast menschlich 😉. Es gibt in der Wikipedia zu diesem Thema einen interessanten ausführlichen Artikel.
Auch in der Bildbearbeitung kann man zeigen, dass die KI manchmal eben nur halluziniert. Besonders sichtbar wird das bei uns gut bekannten kleinen geometrischen Formen: Buchstaben. Mir ist bereits mehrfach aufgefallen, dass die KI-Entrauschungsmechanismen mit kleinen Buchstaben besondere Schwierigkeiten haben.
Ich habe dazu einen echten „Härtetest“ ersonnen. Dazu habe ich einen Text mit unterschiedlichen Font-Größen ausgedruckt und mit meiner Canon EOS R5 mit den ISO-Werten 100 und 51200 aus einer Entfernung von ca. 3m aufgenommen (den sinnfreien Text hat übrigens ChatGPT für mich erstellt 😉).
Hier in der Adobe Lightroom Gegenüberstellung ein auf 400% vergrößerter Ausschnitt - links aufgenommen mit ISO 100, rechts mit ISO 51200 - beide ohne Entrauschung:
Während ich den Text links bis zum dritten Absatz problemlos lesen kann, gelingt mir das rechts nur mit Mühe beim ersten.
Spannend ist nun aber, was DeepPRIME XD2s daraus macht. Hier dazu ein weiterer Vergleich des ISO 100 Bildes (links) mit dem mit DeepPRIME XD2s bearbeiteten Bild bei ISO 51.200 (rechts):
Hier sieht man - wie ich meine - sehr gut, wie die KI vorgeht. Sie erzeugt ihr plausibel erscheinende Konturen um die ursprünglichen Buchstaben, die aber mit der Realität nur wenig zu tun haben. Das rechte Bild erscheint nun zwar deutlich schärfer und rauschärmer als zuvor, enthält aber deutlich weniger echte Informationen als das Original links.
Noch beser sieht man den Informationsverlust auch im direkten Vergleich der entrauschten (rechts) mit der nicht entrauschten Version (links) bei ISO 51200:
Mir persönlich gelingt es fast besser, den Text in der unbearbeiten stark rauschenden Version links zu entziffern. Somit erreicht in diesem Beispiel die KI-Entrauschung nur die Illusion einer Bildverbesserung - zugegebenermaßen ist das mit ISO 51200 aber auch ein sehr extremes Beispiel.
Also liefert KI-Entrauschnung keine echten Details sondern halluziniert nur?
Nein, es gibt doch einen Bereich, wo zumindest DxO DeepPrime wirklich mehr echte Informationen aus einer RAW-Datei herausholen kann:
Niedrige ISO Werte
Bei niedrigen ISO-Werten kann DxO DeepPRIME XD2s tatsächlich noch mehr aus einem Bild herausholen, als der in Lightroom integrierte RAW-Entwickler. Das zeigt sich, wenn man auch das ISO 100 Bild (links) mit DeepPRIME XD2s (rechts) bearbeitet:
In diesem Vergleich gewinnt DeepPRIME XD2s tatsächlich mehr sinnvolle Informationen aus der RAW-Datei als Lightroom. In der bearbeiteten Version rechts wirkt der Text deutlich schärfer konturiert und ich kann nun auch den Text im vierten Absatz noch gut lesen. Es gibt um die Buchstaben herum auch deutlich weniger Farbsäume.
Offenbar kann DxO mit der Bayer Matrix des Sensors tatsächlich besser umgehen als Adobe in Lightroom. Vermutlich hilft dabei der Ansatz von DxO, den KI-Algorithmus direkt an den Sensor-Rohdaten bereits vor dem De-Bayer Algorithmus ansetzen zu lassen. Da nicht für jedes Sensorpixel alle Farbinformationen vorliegen, werden beim sog. debayern die Farbwerte benachbarter Sensorpixel gemittelt, um die Farbe jedes einzelnen Pixels zu bestimmen. Das scheint die DxO KI tatsächlich besser zu machen als der in Lightroom integrierte Algorithmus.
Somit lohnt sich die Anwendung von DxO DeepPRIME unter Umständen sogar bei nicht rauschenden RAW-Dateien um das letzte Quentchen an Qualität herauszuholen..
Und nun?
Bei dem ganzen KI-Hype stelle ich mir inzwischen schon manchmal die Frage, ob das noch Fotografie ist. Der Begriff Fotografie ist zusammengesetzt aus altgriechisch φῶς phōs, („Licht“) und altgriechisch γράφειν gráphein („zeichnen“) und bedeutet somit sinngemäß „Mit Licht zeichnen“. Ein Fotografen-Mantra ist auch „It’s just the light - Das Licht macht das Bild“. Das Licht scheint aber immer unwichtiger zu werden.
Selbstverständlich haben Kameras schon immer die Realität verzerrt dargestellt. Dreidimensionales wird zweidimensional. Pixelfarben werden in Digitalkameras durch die Farbfilter der benachbarten Pixel in der Bayer Matrix interpoliert. Viele Algorithmen bearbeiten automatisch die Rohdaten des Sensors, das Bildbearbeitungsprogramm macht sein übriges. Aber diese Algorithmen sind nachvollziehbar definiert und reproduzierbar. Mit KI ist das anders, KI ist eine „black box“.
Ich bin da selbst durchaus zwiegespalten. Das Thema geht ja inzwischen auch weit über die Entrauschung hinaus. So können Bildbereiche mit KI-Routinen ersetzt, ungewünschte Bildteile entfernt, Himmel ausgetauscht oder sogar beliebige fotorealistische Bilder nur aufgrund von Texteingaben erstellt werden.
Alles dies habe ich selbst schon neugierig ausprobiert und gebe zu - ich bin davon schwer beeindruckt. Aber mir geht dabei auch der Zauber und die Freude am „Foto-Handwerk“ etwas verloren. Wenn ich noch an das aufgeregte Gefühl denke, wenn im Rotlicht des Fotolabors sich auf dem weißem Fotopapier im Entwicklerbad langsam ein Bild materialisierte…
Was halten andere von dieser Entwicklung? Ich bin auf Kommentare sehr gespannt…