Meerjungfrau, hilf!
Bei RTL Deutschland schalten sie in Sachen Künstliche Intelligenz in den nächsten Gang. Oder wie es CEO Stephan Schmitter Anfang Mai via Pressemitteilung formulierte: Die Phase von „Neugier und Testen“ wolle man in diesem Jahr hinter sich lassen, um die Technologie „hin zu echten Effekten auf unser Geschäft zu transformieren“. Nicht nur in der Inhalteproduktion sowie der Vermarktung und Distribution sollen demnach neue KI-Tools zum Einsatz kommen. Eines der „Leuchtturmprojekte“ ist eine eigene Video-KI zum Schutz junger Zuschauerinnen und Zuschauer. „Merm:ai:d“ hat der Privatsender aus Köln die Eigenentwicklung getauft, in Anlehnung an das Mischwesen aus Jungfrau und Fisch. Und er verspricht nichts weniger, als mit ihr „neue Maßstäbe im Jugendschutz“ zu setzen.

Die KI hilft bei der Entdeckung jugendschutzrelevanter Szenen. (Bild: © RTL)
Prüfdauer enorm reduziert
Ob die Software mit dem märchenhaften Titel tatsächlich zum Gamechanger für sichere Inhalte wird, muss sich noch abschließend beweisen. Bisherige Nutzungserfahrungen bei RTL Deutschland sprechen dafür. Dort befindet sich Merm:ai:d seit Anfang 2025 in der Livetestung im laufenden Betrieb, also noch im recht jungfräulichen Stadium. Ein Effekt ist aber schon jetzt eindeutig nachweisbar: Die KI spart enorm Prüfzeit. Und: Sie hilft, dass die Jugendschützer angesichts der explodierenden Vielfalt an Inhalten und multiplen Ausspielwegen überhaupt noch mit dem Prüfen hinterherkommen.
Denn auf ihre Arbeit und Erfahrung – sprich: auf den Faktor Mensch – kommt es weiterhin an. Das ist Manuel Ladas, VOX-Jugendschutzbeauftragter und Leiter des Projekts Merm:ai:d, wichtig zu betonen:
Das, was wir gebaut haben, ist kein elektronischer Jugendschutzbeauftragter, sondern ein Werkzeug für uns Jugendschutzbeauftragte aus Fleisch und Blut.“
Bei der Entscheidung darüber, was jugendschutzrelevant ist und wie eine Sendung bewertet wird, bleibe der Mensch weiterhin letzte Instanz. „Wir lassen nichts einfach nur durch die Maschine laufen.“ Das erlaubten allein schon die vom Mutterkonzern Bertelsmann festgelegten KI-Richtlinien nicht. Nur der Mensch kann schließlich potenzielle Verzerrungen aufgrund von Fehlinterpretationen der Technik erkennen und korrigieren.

Der Mensch bleibt immer noch die letzte Instanz, die darüber entscheidet, was jugendschutzrelevant ist. (Bild: © RTL)
Machtlos vor der Content-Flut
Mit der namengebenden Meerjungfrau hat Merm:ai:d gemein, dass es sich um ein ebenso hybrides Gebilde handelt: Es kombiniert algorithmisches Erkennen mit menschlicher Expertise. Letztere war an ihre natürliche Leistungsgrenze gekommen, sodass im Jahr 2023 das KI-Projekt aus der Erkenntnis von Machtlosigkeit gestartet wurde: Das siebenköpfige Jugendschutzteam musste sich eingestehen, dass die Zigtausend Stunden Videomaterial, die die Senderfamilie Tag für Tag auf diversen Kanälen ausspielt, nicht mehr flächendeckend mit menschlicher Arbeitskraft allein zu bewältigen waren. Auch „eine Horde von Studentinnen und Studentinnen“ hätte Manuel Ladas zufolge nicht ausreichende Unterstützung bringen können.
Man sah sich also vor einer „Mammutaufgabe“, vor der auch andere Medienhäuser stehen, und das in einer Zeit, wo Künstliche Intelligenz Berufsbilder massiv verändert. Statt sich von dieser Entwicklung überrollen zu lassen, habe man sich für das „aktive Mitgestalten“ entschieden, so Ladas, „was auch erheblich mehr Spaß macht.“
RTL Data entwickelte mit
In Zusammenarbeit mit dem hauseigenen Team RTL Data (Leitung: KI-Produktmanagerin Sandra Bystricky) machten sich die Jugendschützer daran, selbst eine Lösung aus Bordmitteln zu entwickeln, statt sie irgendwo einzukaufen. Der Tech-Gigant Amazon mit seinem Streamingangebot Prime Video zum Beispiel bietet das eigene Tool auch externen Kunden an. Doch amerikanische Jugendschutzkriterien sind mit deutschen nicht vergleichbar. Es hätte für die Ansprüche von RTL nicht gepasst. Abgesehen davon: Die RTL-Lösung ist laut Manuel Ladas „um ein Vielfaches günstiger“. Dass man als kleiner Player die Kosten im Vergleich zu Amazon, Microsoft & Co. deutlich unterbieten könne, darauf sei man durchaus stolz.
Entwicklungsmäßig kam dem Sender entgegen, dass der Gesetzgeber an einem Entwurf für einen neuen Jugendmedienschutz-Staatsvertrag arbeitet, der voraussichtlich im Dezember 2025 in Kraft tritt. Dieser sieht dann nicht nur die Einblendung der Altersfreigabe von Video-on-Demand-Diensten vor, sondern verlangt auch Inhaltsdeskriptoren, wie sie beispielsweise Prime Video seit Jahren freiwillig angibt. Für Zuschauerinnen und Zuschauer sollen die wesentlichen Gründe für die Alterseinstufung in Stichworten erkennbar sein, also z. B. mit welcher Art von Gewalt oder Furcht einflößenden Szenen sie in einem Video zu rechnen haben. Vorerst ist in der vorliegenden Vertragsfassung zwar nur von einer Soll-Bestimmung die Rede. Aber daraus könnte ein Muss werden. Hier unterstützt die KI, das erfüllen zu können.
Deskriptoren sind inklusive
Voraussichtlich bis zum vierten Quartal 2025 wird die Funktion „Automatische Deskriptor-Erstellung“ fertig programmiert sein. Mit dem gleichzeitigen großen Relaunch der konzerneigenen Mediathek RTL+ wird Merm:ai:d dann automatisch bis zu drei jugendschutzbezogene Inhaltsdeskriptoren im jeweiligen Playout anzeigen – und damit den Jugendschutzbeauftragten erhebliche Arbeit abnehmen. Offen ist zwar noch, ob der Gesetzgeber technische Systeme wie Merm:ai:d gesetzlich anerkennen wird, aber Ladas ist zuversichtlich, dass dies passieren wird – ähnlich wie schon beim Thema Altersverifikationssysteme geschehen. Angesichts der „irrsinnig wachsenden Mengen an Online-Content“ gebe es daran „kein Vorbeikommen“.
Nicht mehr Zukunftsmusik ist: Die vielen Stunden, die die Jugendschützer suchend und prüfend vor Bildschirmen verbringen, haben sich schon jetzt dank Merm:ai:d im Schnitt um 80 % pro Video reduziert, weil nicht mehr eine ganze Sendung gesichtet werden muss, sondern nur noch die jugendschutzkritischen Stellen. Die KI hat in wenigen Minuten alles in Bild und Ton „gesehen“ und „gehört“. Problematisches spuckt sie per Timecode-Liste quasi auf dem Silbertablett aus, sodass das menschliche Auge zielgenau begutachten und entscheiden kann: Gefährlich, ja oder nein?

Jugendschutzbezogene Inhaltedeskriptoren werden automatisch erstellt. (Bild: © RTL)
Einsatz bei „Brot-und-Butter-Ware“
Die durchschnittliche Prüfdauer variiert freilich von Sendung zu Sendung. Den neusten Film von Quentin Tarantino, der von der ersten bis zur letzten Minute eine Aneinanderreihung von Gewaltszenen ist, die teilweise humoristisch eingebettet sind, müssen sich die RTL-Gutachter weiterhin in voller Länge anschauen. 120 Treffer der KI wären wenig hilfreich. Merm:ai:d kommt deshalb nicht bei hammerharten Actionfilmen zum Einsatz, sondern bei der „Brot-und-Butter-Ware“, also bei nicht hochjugendschutzrelevanten Sendungen wie Dokumentationen, Kinderserien oder Krimis. Eine für die RTL-Reihe „Tödlicher Dienstag“ produzierte Komödie wie Miss Merkel – Ein Uckermark-Krimi mag aus Jugendschutzsicht auf den ersten Blick erst mal unverdächtig sein. Sollte sich darin aber eine besonders krasse Obduktionsszene finden, die Verletzungen und Blut zeigt, wäre das sehr wohl jugendschutzrelevant. Merm:ai:d schlägt bei so was an. Darauf wurde sie trainiert.
Acht verschiedene KI-Komponenten gingen in die Video-Pipeline ein, darunter ein in-house trainiertes und abgestimmtes neurales Netz, für das rund 100.000 Szenen aus zehn Jahren Jugendschutzarbeit beim Sender Trainingsgrundlage waren. Bei der aufwändigen händischen Annotation halfen Studentinnen und Studenten aus. Sie erstellten Tausende interne Subkategorien und Schlagworte zur Analyse des Materials.
Ein Tool ohne blinde Flecke
Die Herausforderung beim Bau der KI war, dass sie ausnahmslos jedes Thema erkennen kann, das für den Jugendmedienschutz relevant ist. Wenn sie nur einen blinden Fleck hätte, wäre sie nutzlos. Denn dann, erklärt Daniela Hansjosten, Leiterin Standards & Practices RTL Deutschland, „müssten wir ja doch wieder alles anschauen, um diesen Fleck zu finden.“ Das heißt: Hansjosten und ihr Team mussten alle Themen, mit denen sich Jugendmedienschützer beschäftigen und die für jüngere Zuschauer gefährlich sein könnten, auf konkrete Inhalte herunterbrechen. Mit einem Schlagwort wie „sozialethische Desorientierung“ allein kann die KI nichts anfangen, mit einer Szenenbeschreibung en détail aber schon.
Es bedurfte großer Feintuning-Arbeit, dass die KI einerseits nichts übersieht, aber andererseits auch nicht Lächerliches anzeigt, was für den Jugendmedienschutz von keiner Relevanz ist. Lächerlich wäre zum Beispiel, wenn Merm:ai:d aus einer Sendung einen harmlosen Fluch wie „Verdammt noch mal“ herausfischt und als Obszönität markiert. Das F‑Wort, also den etwa bei TV-Koch Tim Mälzer besonders beliebten Fluch aus der Küche, wollen die Jugendschützer in der Ergebnisliste hingegen sehr wohl sehen, um beurteilen zu können: Ist das „Fuck“ wirklich so schlimm, sodass wir piepsen oder umschneiden müssen, um die Kochsendung im Tagesprogramm zeigen zu können? Oder ist es Mälzer nur herausgerutscht, weil er sich am Herd die Finger verbrannt hat?

Problematische Szenen können anhand der Timecodeliste schnell gefunden werden. (Bild: © RTL)
Überempfindlich, aber nützlich
In die Entscheidung der Jugendschützer spielen immer noch andere Faktoren mit hinein, wie der Gesamtkontext, das Genre, die Sendezeit. Aber auch da ist die KI behilflich: Sie ist nicht nur in der Lage, zwischen Obszönität und verbaler Gewalt zu unterscheiden. Sie baut auch den Kontext um die annotierten Szenen herum. In all ihrem Tun ist sie Daniela Hansjosten zufolge „ein bisschen überempfindlich“, aber das soll sie sein: „Sie würde uns nichts nützen, wenn uns Dinge entgingen.“ In Anbetracht der Zeitersparnis, die das Werkzeug schaffe, seien ein paar übersteuerte Treffer egal. „Im Gegenteil: Das schafft Vertrauen, dass wirklich gar nichts übersehen wird.“
Und eine weitere Erfahrung machten die Jugendschutzbeauftragten, eine sehr ernüchternde sogar: „Die KI hat uns knallhart vor Augen geführt, wie schlecht die Wahrnehmung von uns Menschen ist“, sagt Projektleiter Ladas. „Man denkt, man passt genau auf und übersieht nichts. Aber dann findet die Maschine doch Dinge, die einem nicht aufgefallen sind, und zwar in einer Perfektion, die jede menschliche Wahrnehmung bei Weitem überschreitet.“
Treffsicher bei Extremismus
Als Beispiel nennt seine Kollegin Daniela Hansjosten eine Folge der Dokusoap Biete Rostlaube, suche Traumauto. Im linearen VOX-Programm wurde das Format, in dem Moderatorin Panagiota Petridou Besitzern von schrottreifen Autos zu ihrem Wunschfahrzeug verhilft, im Jahr 2021 nach 15 Staffeln zwar eingestellt, es ist aber auf der Streamingplattform RTL+ weiterhin jederzeit verfügbar und damit prüfungsrelevant. In besagter Episode kommt eine Protagonistin vor, auf deren Finger eine nicht gut erkennbare S-Rune tätowiert ist. Was das bloße Menschenauge übersah, blieb der Maschine nicht verborgen. Sie schlug an. Genau auf solche Fälle im Bereich Extremismus und Diskriminierung („unser Spezialthema“) ist sie trainiert und laut Hansjosten „unglaublich treffsicher“. Perfekt sei sie dennoch nicht, nur „eindeutig überlegen“.
Mehr Zeit für Problemfälle
Das verschafft den Jugendschützern mehr Luft für die eigentlichen Aufgaben. Statt eine vierstündige Doku zu sichten, die im Zweifel nichts Jugendschutzrelevantes enthält, können sie sich besser auf einen hochkritischen Krimi konzentrieren. In Manuel Ladas’ Worten:
Die KI nimmt uns nicht die Arbeit weg. Sie sorgt dafür, dass wir sie besser machen.“
Unberührt davon ist, dass die FSF (Freiwillige Selbstkontrolle Fernsehen) bei Problemfällen erste Anlaufstelle für RTL Deutschland bleibt. „Wann immer wir Rechtssicherheit brauchen, werden wir die Selbstkontrolleinrichtung weiterhin in Anspruch nehmen“, betont Ladas. Auf die „sehr wertvollen und nützlichen Diskussionen“ in den Prüfausschüssen wolle man nicht verzichten. Das schließe nicht aus, dass die FSF entsprechende Systeme einsetzt, um sich die Sichtarbeit zu erleichtern. Die Merm:ai:d-Erfinder stehen da „jeglicher Partnerschaft offen“.
Partner zum Weiterentwickeln gesucht
Darüber hinaus haben die RTL-Jugendschützer noch viele Ideen, wie man die Video-Pipeline zu einer Version 2.0 weiterentwickeln könnte. Der Datenschatz ist riesig. Da wäre es Manuel Ladas zufolge „kein allzu großer Schritt“, die KI auch Vorschläge für Altersfreigaben machen zu lassen. Doch in diese Richtung wollen die Kölner nicht allein gehen. Entwicklungspartner werden gesucht, sowohl im In- und Ausland. Bei RTL Deutschland ist man felsenfest davon überzeugt, dass das Tool auch anderen Firmen Nutzen bringen kann.
