KI-Entrauschung - Fakt oder Fake?

Du betrachtest gerade KI-Entrauschung - Fakt oder Fake?

In mei­nem Test der in DxO Pho­to­lab 8 ent­hal­te­nen neu­en KI-basier­ten Ent­rau­schung Deep­P­rime XDS2 habe ich mich anhand der unglaub­lich detail­rei­chen Ergeb­nis­se gefragt, wie vie­le der so her­aus­ge­ar­bei­te­ten Details im Motiv wirk­lich vor­han­den und wie­vie­le nur hin­zu­ge­dich­tet wer­den. Das möch­te ich hier etwas genau­er untersuchen.

KI-Entrauschung

Die „künst­li­che Intel­li­genz“ - KI hat auch die Bild­be­ar­bei­tung revo­lu­tio­niert (übri­gens habe ich auch das Auf­ma­cher-Bild die­ses Arti­kels mit ChatGPT erstellt 😉). Beson­ders ein­drucks­voll für uns Foto­gra­fen sind die Ergeb­nis­se von KI-basier­ten Ent­rau­schungs­ver­fah­ren, die es ermög­li­chen, auch mit vor­her unvor­stell­bar hohen ISO-Wer­ten noch sehr gut brauch­ba­re Bil­der machen zu können. 

Seit der Ver­füg­bar­keit von KI-basier­ten Ent­rau­schungs­ver­fah­ren habe ich kei­ner­lei Pro­ble­me mehr damit, auch mit 5stelligen ISO-Wer­ten zu arbei­ten. Die so erziel­ba­ren Ergeb­nis­se ver­blüf­fen mich aber doch noch immer. Unten zei­ge ich wie­der ein Bild unse­res Katers Tom in direk­ter Gegen­über­stel­lung der Ori­gi­nal- mit der ent­rausch­ten Ver­si­on. Da es damals trotz ISO 12.800 noch zu dun­kel war, muss­te ich das Bild in Ligh­t­room um eine wei­te­re Blen­den­stu­fe auf­hel­len. Eigent­lich ent­spricht es somit sogar einer Auf­nah­me mit ISO 25.600!

Links ist das Ori­gi­nal und rechts die mit DxOs Deep­P­RIME XD2s, dem mei­ner Ansicht nach der­zeit bes­ten ver­füg­ba­ren KI-Ver­fah­ren, bear­bei­te­te Ver­si­on zu sehen (Aus­schnitt in 200% Vergrößerung):

Das ist doch wirk­lich sehr ein­drucks­voll, oder?

Wei­te­re Ver­glei­che - auch mit ande­ren KI-Ent­rau­schungs­ver­fah­ren - fin­den sich in mei­nem Arti­kel Deep­P­RIME XD2s in DxO Pho­to­Lab 8. Grund­sätz­lich gilt vie­les des fol­gen­den auch für die ande­ren KI-basier­ten Verfahren.

Wie geht das?

Im Gegen­satz zu den bis­her algo­rith­misch arbei­ten­den Ent­rau­schungs­me­cha­nis­men in den übli­chen Boild­be­ar­bei­tungs­pro­gram­men ist die Funk­ti­ons­wei­se der KI völ­lig anders. Dabei wird ein kom­ple­xes neu­ro­na­les Netz­werk mit einer Unzahl von Bil­dern trainiert. 

Prin­zi­pi­ell kann man dabei das­sel­be Motiv jeweils mit nied­ri­gem und hohen ISO-Wert auf­neh­men und die KI mit den Bild­paa­ren so trai­nie­ren, dass sie lernt, dass das ent­rausch­te High-ISO der Ver­si­on mit dem nied­ri­gen ISO Wert am nächs­ten kommt. Das funk­tio­niert, wie man ja sehen kann, auch sehr gut. Je mehr unter­schied­li­che Bil­der zum Trai­ning zur Ver­fü­gung ste­hen, je mehr Rechen­leis­tung für das Trai­ning genutzt wird, des­to bes­ser wer­den die Verfahren.

Es wer­den inzwi­schen mit der KI-Ent­rau­schung Details ent­hüllt, die im Ori­gi­nal beim bes­ten Wil­len mit dem blo­ßen Auge nicht aus­zu­ma­chen sind. Es stellt sich daher die Fra­ge, ob die im bear­bei­te­ten Bild sicht­ba­ren Details wirk­lich da sind, oder ob die KI dort nur Struk­tu­ren gene­riert, die sie für pas­send hält.

So in dem Sinne: 

Das ist eine Kat­ze, die hat vie­le Haa­re. Eini­ge kann ich auch sehen. Also erset­ze ich das Rau­schen dazwi­schen durch wei­te­re par­al­lel ver­lau­fen­de Haa­re. Im Auge darf ich das aber nicht machen.… 

Wie auch immer - das scheint meist sehr gut zu funk­tio­nie­ren. Aber ist das Ergebnis

Fakt oder Fake?

Bei aktu­el­len text­ba­sier­ten KI-Sys­te­men ist bekannt, dass sie bei Unsi­cher­hei­ten hal­lu­zi­nie­ren kön­nen. Wenn sie etwas nicht wis­sen, erfin­den sie dann eine plau­si­bel klin­gen­de Ant­wort - das ist schon fast mensch­lich 😉. Es gibt in der Wiki­pe­dia zu die­sem The­ma einen inter­es­san­ten aus­führ­li­chen Arti­kel.

Auch in der Bild­be­ar­bei­tung kann man zei­gen, dass die KI manch­mal eben nur hal­lu­zi­niert. Beson­ders sicht­bar wird das bei uns gut bekann­ten klei­nen geo­me­tri­schen For­men: Buch­sta­ben. Mir ist bereits mehr­fach auf­ge­fal­len, dass die KI-Ent­rau­schungs­me­cha­nis­men mit klei­nen Buch­sta­ben beson­de­re Schwie­rig­kei­ten haben.

Ich habe dazu einen ech­ten „Här­te­test“ erson­nen. Dazu habe ich einen Text mit unter­schied­li­chen Font-Grö­ßen aus­ge­druckt und mit mei­ner Canon EOS R5 mit den ISO-Wer­ten 100 und 51200 aus einer Ent­fer­nung von ca. 3m auf­ge­nom­men (den sinn­frei­en Text hat übri­gens ChatGPT für mich erstellt 😉).

Hier in der Ado­be Ligh­t­room Gegen­über­stel­lung ein auf 400% ver­grö­ßer­ter Aus­schnitt - links auf­ge­nom­men mit ISO 100, rechts mit ISO 51200 - bei­de ohne Entrauschung:

Wäh­rend ich den Text links bis zum drit­ten Absatz pro­blem­los lesen kann, gelingt mir das rechts nur mit Mühe beim ersten. 

Span­nend ist nun aber, was Deep­P­RIME XD2s dar­aus macht. Hier dazu ein wei­te­rer Ver­gleich des ISO 100 Bil­des (links) mit dem mit Deep­P­RIME XD2s bear­bei­te­ten Bild bei ISO 51.200 (rechts):

Hier sieht man - wie ich mei­ne - sehr gut, wie die KI vor­geht. Sie erzeugt ihr plau­si­bel erschei­nen­de Kon­tu­ren um die ursprüng­li­chen Buch­sta­ben, die aber mit der Rea­li­tät nur wenig zu tun haben. Das rech­te Bild erscheint nun zwar deut­lich schär­fer und rausch­är­mer als zuvor, ent­hält aber deut­lich weni­ger ech­te Infor­ma­tio­nen als das Ori­gi­nal links.

Noch bes­er sieht man den Infor­ma­ti­ons­ver­lust auch im direk­ten Ver­gleich der ent­rausch­ten (rechts) mit der nicht ent­rausch­ten Ver­si­on (links) bei ISO 51200:

Mir per­sön­lich gelingt es fast bes­ser, den Text in der unbe­ar­bei­ten stark rau­schen­den Ver­si­on links zu ent­zif­fern. Somit erreicht in die­sem Bei­spiel die KI-Ent­rau­schung nur die Illu­si­on einer Bild­ver­bes­se­rung - zuge­ge­be­ner­ma­ßen ist das mit ISO 51200 aber auch ein sehr extre­mes Beispiel.

Also lie­fert KI-Ent­rausch­nung kei­ne ech­ten Details son­dern hal­lu­zi­niert nur? 

Nein, es gibt doch einen Bereich, wo zumin­dest DxO Deep­P­rime wirk­lich mehr ech­te Infor­ma­tio­nen aus einer RAW-Datei her­aus­ho­len kann:

Niedrige ISO Werte

Bei nied­ri­gen ISO-Wer­ten kann DxO Deep­P­RIME XD2s tat­säch­lich noch mehr aus einem Bild her­aus­ho­len, als der in Ligh­t­room inte­grier­te RAW-Ent­wick­ler. Das zeigt sich, wenn man auch das ISO 100 Bild (links) mit Deep­P­RIME XD2s (rechts) bearbeitet:

In die­sem Ver­gleich gewinnt Deep­P­RIME XD2s tat­säch­lich mehr sinn­vol­le Infor­ma­tio­nen aus der RAW-Datei als Ligh­t­room. In der bear­bei­te­ten Ver­si­on rechts wirkt der Text deut­lich schär­fer kon­tu­riert und ich kann nun auch den Text im vier­ten Absatz noch gut lesen. Es gibt um die Buch­sta­ben her­um auch deut­lich weni­ger Farbsäume.

Offen­bar kann DxO mit der Bay­er Matrix des Sen­sors tat­säch­lich bes­ser umge­hen als Ado­be in Ligh­t­room. Ver­mut­lich hilft dabei der Ansatz von DxO, den KI-Algo­rith­mus direkt an den Sen­sor-Roh­da­ten bereits vor dem De-Bay­er Algo­rith­mus anset­zen zu las­sen. Da nicht für jedes Sen­sor­pi­xel alle Farb­infor­ma­tio­nen vor­lie­gen, wer­den beim sog. debay­ern die Farb­wer­te benach­bar­ter Sen­sor­pi­xel gemit­telt, um die Far­be jedes ein­zel­nen Pixels zu bestim­men. Das scheint die DxO KI tat­säch­lich bes­ser zu machen als der in Ligh­t­room inte­grier­te Algorithmus.

Somit lohnt sich die Anwen­dung von DxO Deep­P­RIME unter Umstän­den sogar bei nicht rau­schen­den RAW-Datei­en um das letz­te Quent­chen an Qua­li­tät herauszuholen..

Und nun?

Bei dem gan­zen KI-Hype stel­le ich mir inzwi­schen schon manch­mal die Fra­ge, ob das noch Foto­gra­fie ist. Der Begriff Foto­gra­fie ist zusam­men­ge­setzt aus alt­grie­chisch φῶς phōs, („Licht“) und alt­grie­chisch γράφειν gráphein („zeich­nen“) und bedeu­tet somit sinn­ge­mäß „Mit Licht zeich­nen“. Ein Foto­gra­fen-Man­tra ist auch „It’s just the light - Das Licht macht das Bild“. Das Licht scheint aber immer unwich­ti­ger zu werden.

Selbst­ver­ständ­lich haben Kame­ras schon immer die Rea­li­tät ver­zerrt dar­ge­stellt. Drei­di­men­sio­na­les wird zwei­di­men­sio­nal. Pixel­far­ben wer­den in Digi­tal­ka­me­ras durch die Farb­fil­ter der benach­bar­ten Pixel in der Bay­er Matrix inter­po­liert. Vie­le Algo­rith­men bear­bei­ten auto­ma­tisch die Roh­da­ten des Sen­sors, das Bild­be­ar­bei­tungs­pro­gramm macht sein übri­ges. Aber die­se Algo­rith­men sind nach­voll­zieh­bar defi­niert und repro­du­zier­bar. Mit KI ist das anders, KI ist eine „black box“.

Ich bin da selbst durch­aus zwie­ge­spal­ten. Das The­ma geht ja inzwi­schen auch weit über die Ent­rau­schung hin­aus. So kön­nen Bild­be­rei­che mit KI-Rou­ti­nen ersetzt, unge­wünsch­te Bild­tei­le ent­fernt, Him­mel aus­ge­tauscht oder sogar belie­bi­ge foto­rea­lis­ti­sche Bil­der nur auf­grund von Text­ein­ga­ben erstellt werden.

Alles dies habe ich selbst schon neu­gie­rig aus­pro­biert und gebe zu - ich bin davon schwer beein­druckt. Aber mir geht dabei auch der Zau­ber und die Freu­de am „Foto-Hand­werk“ etwas ver­lo­ren. Wenn ich noch an das auf­ge­reg­te Gefühl den­ke, wenn im Rot­licht des Foto­la­bors sich auf dem wei­ßem Foto­pa­pier im Ent­wick­ler­bad lang­sam ein Bild materialisierte…

Was hal­ten ande­re von die­ser Ent­wick­lung? Ich bin auf Kom­men­ta­re sehr gespannt…

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.