Aktuelle Themen:
TRIGGER  |  ALTERSVERIFIKATION  |  KI  |  SOCIAL MEDIA

 

Neuer Anstrich für alte Filme

Thomas Brandstetter

Thomas Brandstetter ist promovierter Physiker und schreibt als freier Wissenschaftsjournalist für eine Vielzahl verschiedener Medien. Die rasante Entwicklung der künstlichen Intelligenz verfolgt er seit Jahren voller Staunen. In seinen Artikeln beleuchtet er die faszinierenden neuen Beziehungen zwischen Menschen und Maschinen sowie die gesellschaftlichen Auswirkungen der neuen Technologien.

Mithilfe künstlicher Intelligenz lässt sich historisches Filmmaterial an moderne Sehgewohnheiten anpassen. Aber woher kommen die dafür nötigen Informationen? Und wie viel hat das noch mit der Realität von damals zu tun?

Printausgabe mediendiskurs: 29. Jg., 1/2025 (Ausgabe 111), S. 24-27

Vollständiger Beitrag als:

In einer Zeit, in der „Deepfakes“ und manipulierte Medien allgegenwärtig sind, stehen wir vor einer faszinierenden Frage: Wie viel digitale Nachbearbeitung verträgt die Geschichte, bevor sie zur Fiktion wird? Historische Originalaufnahmen prägen wie kein anderes Medium unsere Vorstellung von vergangenen Zeiten. Dazu trägt neben dem Inhalt auch die Qualität des Materials bei. Das Fehlen von Farbe, die ruckeligen Bewegungen der Menschen aufgrund der niedrigen Bildfrequenz und selbst Bildstörungen oder grobkörniges Filmmaterial geben den Aufnahmen zwar einerseits ihren speziellen Charme. In Zeiten von automatischer Bildbearbeitung mittels künstlicher Intelligenz ist allerdings auch die Versuchung groß, diese „Mängel“ zu beheben. Dank KI-gestützter Technologien können wir die Schützengräben des Ersten Weltkrieges in gestochen scharfem 4K-Format betreten oder die Straßen im viktorianischen London in lebendigen Farben durchwandern.
 


Bereits in der Stummfilmzeit wurden Filme per Hand oder Schablone koloriert – damals allerdings noch von den Urhebern der Werke selbst und aus ihrem eigenen künstlerischen Anspruch heraus. Ein paar Jahre später ging man daran, Zeichentrickfilme aus den 1910er- oder 1920er-Jahren einzufärben und neu herauszubringen. In den 1980er-Jahren, also lange vor den großen Durchbrüchen des maschinellen Lernens, entstanden dann bereits erste elektronische Verfahren, um Hollywoodfilme für den Video- und Fernsehmarkt zu kolorieren. Filmemacher wie Orson Welles waren entsetzt über das aus ihrer Sicht rücksichtslose Vorgehen. Besonders in Erinnerung geblieben ist diesbezüglich eine Aussage von Woody Allen bei einem Senate Hearing im Jahr 1987: „Die neue Technologie im Dienste des Künstlers ist wunderbar, aber im Dienste von Menschen, die nicht die Urheber des Films sind, ist sie eine Waffe.“

Eines der ersten Projekte, das auf maschinelles Lernen setzte, um historische Aufnahmen zu bearbeiten, und damit ein breites Publikum fand, war Peter Jacksons Dokumentarfilm They Shall Not Grow Old aus dem Jahr 2018. Er zeigt den Ersten Weltkrieg aus der Perspektive britischer Soldaten. Jackson nutzte damals modernste Technologie, um über hundert Jahre altes Archivmaterial zu restaurieren und zu kolorieren. Der Film basiert auf Archivaufnahmen des Imperial War Museums und Tonaufnahmen der BBC. Die ersten 20 Minuten zeigen Schwarz-Weiß-Bilder, die allmählich in farbige, detailreiche Szenen übergehen. Der Film wurde für seine beeindruckende Darstellung des Krieges gelobt, die sowohl das Grauen als auch die kleinen Momente der Menschlichkeit einfängt. Kritiker schwärmten davon, wie lebendig die Vergangenheit durch die Neubearbeitung des Materials wirke.
 


Spätestens bei kolorierten Dokumentaraufnahmen von Auschwitz, wie sie das britische Fernsehen einst gezeigt hat, ist bei vielen aber wohl auch die Grenze zur Pietätlosigkeit überschritten.“



Es dauerte jedoch nicht lange, bis die Technik so weit fortgeschritten und vor allem so einfach zu bedienen war, dass selbst Laien schon beachtliche Resultate erzielen konnten. Bald begeisterten YouTuber wie Denis Shiryaev oder Kanäle wie „Nineteenth century videos. Back to life.“ mit ihren auf Hochglanz polierten historischen Aufnahmen Millionen von Zusehern. Diese digitalen Künstler nutzen neuronale Netzwerke, um beeindruckende Transformationen zu erreichen: Sie generieren zusätzliche Zwischenbilder für flüssigere Bewegungen, kolorieren Schwarz-Weiß-Aufnahmen und erhöhen die Auflösung dramatisch, um die Filme an die Sehgewohnheiten unserer von Hightech verwöhnten Augen anzupassen. Das lässt die Szenen zwar realer wirken und vermittelt eine völlig neue Verbundenheit mit den Protagonisten. Ihren Wert als historische Dokumente haben sie damit jedoch weitgehend verloren.

KI-gestützte Techniken wie die von Shiryaev bieten zwar faszinierende neue Perspektiven auf historisches Material, sie sollten aber eher als kreative Interpretationen und nicht als historisch akkurate Darstellungen betrachtet werden. Sie können das Interesse an der Geschichte wecken und neue Sichtweisen ermöglichen, sollten aber immer im Kontext ihrer technologischen Entstehung und künstlerischen Freiheit verstanden werden. Spätestens bei kolorierten Dokumentaraufnahmen von Auschwitz, wie sie das britische Fernsehen einst gezeigt hat, ist bei vielen aber wohl auch die Grenze zur Pietätlosigkeit überschritten.
 

Eine Frage der Geschwindigkeit

„Einen Film, der mit 15 Bildern pro Sekunde aufgenommen wurde, per KI auf 60 Bilder pro Sekunde aufzublasen, bedeutet überspitzt formuliert, dass ich zu 75 % moderne Computergrafik sehe und nicht Filmmaterial von 1910“, sagt dazu Dr. Ulrich Rüdel, Professor für Konservierung und Restaurierung an der Hochschule für Technik und Wirtschaft Berlin. In der Stummfilmära des frühen 20. Jahrhunderts variierten Aufnahme- und Wiedergabegeschwindigkeiten erheblich. Während in den 1910er-Jahren typischerweise 14 bis 18 Bilder pro Sekunde verwendet wurden, etablierte sich der heute bekannte 24-Bilder-Standard erst mit dem Aufkommen des Tonfilms. Für jeden Stummfilm muss daher die angemessene Geschwindigkeit individuell ermittelt werden und diese muss auch nicht zwangsläufig der ursprünglichen Aufnahmegeschwindigkeit entsprechen. Ein prägnantes Beispiel hierfür sind die Slapstickszenen von Charlie Chaplin. Diese wurden oft absichtlich schneller abgespielt, um den charakteristischen „Zappeleffekt“ zu erzeugen, der bis heute mit Komik assoziiert wird. Dem darauf folgenden, kaum wahrnehmbaren Stottern bei 24 Bildern pro Sekunde wird dagegen oft nachgesagt, das Traumhafte des Kinos zu transportieren. Eine Sichtweise, die u. a. durch die Ablehnung von Der Hobbit mit seinen 48 Bildern pro Sekunde gestützt wird.

„Bei Wochenschauen und anderen Dokumentaraufnahmen versucht man den natürlichen Bewegungsrhythmus zu finden“, sagt Rüdel. „Das lässt sich mit ein bisschen Übung an der Bewegung der Menschen oder etwa an Rauch erkennen, der durch das Bild zieht.“ Das erklärte Ziel des Restaurators ist es, von einer historischen Filmaufnahme genau das zu retten bzw. wiederherzustellen, was auch seinerzeit schon auf der Leinwand gesehen wurde. Dabei kommt oft die Methode des Bildverdoppelns zur Anwendung, um altes Material an moderne Abspielgeschwindigkeiten anzupassen. Diese Technik hat den Vorteil, dass sie die Authentizität des Originalmaterials bewahrt, weil keine künstlichen Bilder hinzugefügt werden. Allerdings kann das auch zu einer etwas ruckeligen Wiedergabe führen.
 

Ohne Ruckeln

Die Erzeugung neuer Zwischenbilder in historischen Filmen basiert auf mittlerweile etablierten Techniken des maschinellen Lernens, insbesondere auf künstlichen neuronalen Netzen. Ziel ist es, Bewegungsabläufe flüssiger erscheinen zu lassen, indem bewegte Objekte an der korrekten Position im Zwischenbild platziert werden. In ihrem Aufbau weisen diese Netze durchaus Ähnlichkeiten zu biologischen Nervensystemen auf und lernen auch auf ähnliche Weise, indem sie auf umfangreichen Videodatensätzen trainiert werden. Ausgangspunkt für das Training kann beispielsweise ein mit 50 Bildern pro Sekunde aufgenommenes Video sein, aus dem nachträglich jedes zweite Bild entfernt wurde.

Nun kann das Netzwerk sein Training beginnen und versuchen, die fehlenden Zwischenbilder selbst zu generieren. Dabei hat es jedes Mal die Möglichkeit, seinen Vorschlag mit dem zuvor entfernten Originalbild zu vergleichen. Je weiter das Ergebnis vom Original entfernt ist, desto mehr muss es seine künstlichen Neuronen noch an die Aufgabe anpassen. Dieser Prozess wird so lange wiederholt, bis die gelieferten Ergebnisse nahe genug am jeweiligen tatsächlichen Zwischenbild liegen. Diese anhand der Trainingsvideos erlernte Fähigkeit zur Interpolation kann die künstliche Intelligenz nun auch auf Filme anwenden, die sie zuvor noch nie gesehen hat und die tatsächlich mit einer zu niedrigen Bildrate aufgenommen wurden.
 

Gestochen scharf

Um historisches Filmmaterial noch weiter an moderne Sehgewohnheiten anzupassen, wird neben der Bildrate oft auch die Auflösung der einzelnen Frames per KI erhöht. Filmexperte Rüdel stellt allerdings auch in diesem Fall die Sinnhaftigkeit infrage. „Die Bildqualität war auch bei den ersten Filmen der Brüder Lumière schon verflixt gut. Und eine gut digitalisierte 4K-Version des Originals ist meiner Meinung nach besser als eine per KI hochskalierte Version, der ein schlecht geripptes YouTube-Video zugrunde liegt.“ Allerdings handelt es sich beim Upscaling um eine Technologie, die etwa bei Videospielen standardmäßig zum Einsatz kommt und daher auch für Filme mit sehr geringem Aufwand eingesetzt werden kann. Auch Fernsehhersteller versehen ihre 8K-Geräte in der Regel mit KI-Chips, die die Auflösung von normalen Fernsehsignalen in Echtzeit an die Auflösung des Displays anpassen.

Bevor maschinelles Lernen Einzug in die Welt der Videobearbeitung hielt, musste man sich mit einfacheren Methoden begnügen. „Früher wurde versucht, das mit einfachen Interpolationen zwischen den Pixeln zu machen, indem man etwa zwischen einem schwarzen und einem weißen Pixel einfach ein graues eingefügt hat“, erklärt Prof. Dr. Robert Sablatnig, der Leiter des Computer Vision Labs der Technischen Universität Wien. Um die Qualität solcher Bearbeitungen zu verbessern, kommen auch hier neuronale Netze zum Einsatz, die zunächst ganz allgemein lernen, wie Bilder in einer höheren Auflösung aussehen könnten. Analog zum Erzeugen von Zwischenbildern wird dafür die Qualität von Millionen von Bildern zunächst absichtlich verringert, um Trainingsdaten zu schaffen. Dazu reicht es etwa, 4K-Bilder auf 2K nach unten zu skalieren. So lernt das Netzwerk, die zusätzlichen Pixel einzufügen, und hat auch wieder die Möglichkeit, jeden Versuch mit dem Original abzugleichen, um sich selbst zu optimieren. Es wird so in die Lage versetzt, auch Bilder hochzuskalieren, die es vorher noch nie gesehen hat. Um allerdings zuverlässige Ergebnisse für unterschiedliche Bildinhalte zu liefern, ist die Diversität der Trainingsdaten entscheidend. „Das Netzwerk muss auf alles vorbereitet sein, das im Fernsehen bzw. im Film auftauchen könnte“, sagt Sablatnig. „Denn wenn es mit irgendetwas konfrontiert wird, das es noch nie gesehen hat, wird auch das Ergebnis nicht schön sein.“
 


Der Bearbeitung von Filmmaterial mit KI sind heute also kaum noch Grenzen gesetzt. Und was früher den Special-Effects-Studios in Hollywood vorbehalten war und Millionen-Budgets verschlang, lässt sich inzwischen oft schon mit ein paar Mausklicks an einem PC verwirklichen.“


 

Schön bunt

Historisches Filmmaterial mag ruckeln und manchmal auch nicht die beste Auflösung haben. Der Hauptunterschied zu modernen Videos ist aber sicher das Fehlen der Farbe. Und natürlich können auch hier KI-Algorithmen helfen, diesen „Mangel“ nachträglich auszugleichen. Doch wie bei erfundenen Zwischenbildern und dem Einfügen neuer Pixel bleibt es auch bei der Farbgebung im Wesentlichen ein Raten. Schließlich war es Anfang des 20. Jahrhunderts in den meisten Fällen noch nicht einmal möglich, Farbabstufungen richtig in entsprechenden Grauwerten darzustellen. Die Emulsion eines orthochromatischen Films etwa war hauptsächlich für blaues Licht empfänglich, weshalb Blau sehr hell, Rot und Grün dagegen eher dunkel wiedergegeben wurden. Der gefilmte Himmel erschien so fast immer wolkenfrei, weil das Filmmaterial nicht zwischen weißer Wolke und blauem Himmel unterscheiden konnte. Und auch die blauen Augen von Stan Laurel sehen in Originalaufnahmen weiß aus. In nachträglich kolorierten Versionen wirken sie dann oft stechend.

„Solche Aufnahmen können eigentlich gar nicht vernünftig eingefärbt werden“, sagt Filmrestaurator Rüdel. Aber wenn sie auch nicht historisch korrekt sein mag, eine beeindruckende Wirkung haben per KI nachkolorierte Filme allemal. Der Trick, mit dem die KI arbeitet, ist auch hier wieder der alte: in Schwarz-Weiß umgewandelte Farbbilder dienen als Trainingsaufgaben, anhand derer der Algorithmus lernen kann, die Grautöne wieder in Farben zurückzuverwandeln. Allerdings ist diese Zuordnung höchst uneindeutig, weil es viele verschiedene Farben gibt, die den exakt gleichen Helligkeitswert haben. Ausschlaggebend für die Entscheidung ist deshalb der Inhalt der Bilder. Um etwa eine hundert Jahre alte Aufnahme einer Straßenszene mit Menschen, Gebäuden und Pferdefuhrwerken plausibel nachkolorieren zu können, müssen auch die Bilder, auf denen die KI trainiert wurde, möglichst genau auf solche Szenen abgestimmt sein. „So ein Netzwerk kann im Grunde immer nur das Trainingsset auswendig lernen“, erklärt Prof. Dr. Justus Thies, der die Forschungsgruppe Neural Capture and Synthesis am Max-Planck-Institut für Intelligente Systeme leitet. „Wenn im Trainingsset also beispielsweise nur rosa Barbie-Puppen vorkommen und das auf echte Menschen angewendet wird, dann werden auch die alle rosa.“

Um jedes beliebige Motiv eines Bildes mit plausiblen Farben zu versehen, bedarf es einer riesigen Diversität in den Trainingsdaten, gewaltigen Datenmengen und ebenso großen neuronalen Netzen. Der Schwerpunkt eines solchen Trainings liegt also oft auf einer bestimmten Art von Bildinhalt wie etwa Landschaftsaufnahmen oder eben Straßenszenen. In solchen spezialisierten Fällen reichen bereits einige Millionen Trainingsbilder aus, um beeindruckende Ergebnisse zu erzielen. Einen ganzen Film einzufärben, ist allerdings noch einmal deutlich aufwendiger als einzelne Bilder, weil die Farben in der Sequenz der Frames konsistent bleiben müssen, um störendes Flackern zu verhindern. Dafür lernen die Netze noch zusätzlich, aufeinander folgende Bilder aneinander anzupassen.

Der Bearbeitung von Filmmaterial mit KI sind heute also kaum noch Grenzen gesetzt. Und was früher den Special-Effects-Studios in Hollywood vorbehalten war und Millionen-Budgets verschlang, lässt sich inzwischen oft schon mit ein paar Mausklicks an einem PC verwirklichen. Zusätzlich zur Veränderung von Bildraten, Auflösungen und Farben lassen sich so auch nach Belieben Objekte in historische Filme einfügen oder daraus entfernen, Gesichter verändern oder Tonspuren dazuerfinden. Historisch korrekt ist nichts davon. Aber in Zeiten, in denen sich die neueste Generation von KI anschickt, gleich ganze Videos frei zu erfinden, ist es wohl ohnehin an der Zeit, dem Medium Film mit einer neuen Art von Skepsis zu begegnen.