
Living Captions: Emotionen in Untertiteln abbilden
Ob in Filmen, Games, Messenger-Apps oder Spotify-Lyrics: Untertitel sind visuell in der Regel nichtssagend. Mit Phont könnte sich das bald ändern, die Anwendung verbindet KI-gestützte Sprachanalyse mit Typografie und erweckt Untertitel so zum Leben
Zusammen mit seinem Freund, dem Philosophen und BWLer Paul Leo Langendörfer als Business Lead und dem Computerwissenschaftler mit Masterabschluss Artificial Intelligence Marcello Eiermann als KI-Experte startete Frederik Merkel im Juni 2023 das Phont-Projekt. Unterstützung bei der Schriftentwicklung erhalten sie von der Kommunikations- und Typedesignerin Katharina Gresch.

Zwei Dinge standen zunächst ganz oben auf der Tagesordnung: die Idee schützen und Geld sammeln. Das Team arbeitete zunächst nebenberuflich am Projekt. Verschiedene Start-up-Stipendien ermöglichten, in der zweiten Jahreshälfte intensiv in Vollzeit daran zu arbeiten. Und da das Team seit Kurzem auch ein zweites internationales Patent beantragt hat, geben sie jetzt richtig Gas.
Die Technologie und die Filme selbst haben sich in den letzten Jahrzehnten weiterentwickelt – Untertitel eher nicht. Höchste Zeit, dass sich das ändert
KI zur sprachlichen Emotionserkennung
KI ist ein wesentlicher Bestandteil hinter der Phont-Idee. Vor allem Tech Lead Marcello Eiermann kümmert sich um das Training der selbst entwickelten KI zur Speech Emotion Recognition. »Wir haben uns bei der Sprachanalyse erst mal auf Emotionen fokussiert, da hier die größte Nachfrage bestanden hatte.« Gekoppelt ist diese KI an die OpenAI-Transkriptionssoftware Whisper.
In der Phont-Engine analysiert die KI Audioinhalte wie Stimmen. Anfangs arbeitete das Team mit acht emotionalen Kategorien, abgeleitet vom Emotion Wheel des US-Psychologen Robert Plutchik. »Aber Kategorien sind eindimensionale Schubladen«, sagt Frederik Merkel. »Es gibt in unserer Sprache nicht die eine Wut, sondern sehr viele Nuancen und Kombinationen.«
Deshalb entwickeln sie jetzt einen parametrischen Ansatz. »Der ist mehrdimensional, da jeder Parameter eine sprachliche Facette wie zum Beispiel Lautstärke, Klanghärte oder Dominanz berücksichtigt und damit mehr Nuancen sowie Kombinationen abbilden kann – zum Beispiel leises, wütendes Französisch.«
»Kategorien sind eindimensionale Schubladen. Es gibt in unserer Sprache nicht die eine Wut, sondern sehr viele Nuancen und Kombinationen.«
Anfangs nutzte das Phont-Team emotionale Kategorien nach dem Rad des US-amerikanischen Psychologen Robert Plutchik. Die Regler beziehen sich auf gemessene Stimmeigenschaften. Inzwischen arbeiten sie mit einem parametrischen Ansatz, der mehr Nuancen und Kombinationen erlaubt.
Typografische Interpretation: Laut ist gleich fett
Der parametrische Ansatz stützt sich auf synästhetische Phänomene wie die physische Korrelation, die besagt, dass ein lauter Klangkörper tendenziell auch größer ist. Entsprechend assoziiert Phont Lautstärke mit Strichstärke. Wer laut redet, bekommt Untertitel in Bold.
Darüber hinaus imitiert Phont Gestik und Mimik. Ist jemand etwa aktiv, neigt sich der Buchstabe nach vorne, verhält sich jemand passiv zurückhaltend, neigt er sich nach hinten. Weitere Designparameter sind unter anderem die Assoziation der Schriftbreite mit Geschwindigkeit oder die von eckigen oder runden Buchstaben mit harter oder mit weicher Sprache. Dazu kommen Motion-Assets wie Zittern für Angst oder anmutiges Schrumpfen für Trauer.

Nach der Sprachanalyse spuckt die KI Werte aus, anhand derer das Phont-Team mit überarbeiteten Versionen der zehn Schriften, die Frederik Merkel in seiner Masterarbeit entwickelt hat, die lebendigen Untertitel als Variable Fonts erstellt. Bislang basiert lediglich die Sprachanalyse auf KI.
»Teil unserer Vision und des zweiten Patents ist aber die Nutzung von generativer KI zur Design-Erzeugung«, sagt Frederik Merkel. »Wir planen, mithilfe von generativen KI-Modellen die Atmosphäre des zugrundeliegenden Filmes in der Darstellung der Untertitel aufzugreifen.«
Die Demo zeigt, wie sich die Buchstaben auf Grundlage isolierter Sprachparameter verändern. Rate beispielsweise meint die Sprechgeschwindigkeit.
»Wir planen, mithilfe von generativen KI-Modellen die Atmosphäre des zugrundeliegenden Filmes in der Darstellung der Untertitel aufzugreifen.«
Designparameter für Untertitel: Testen, testen, testen
Einen festen visuellen Code zu etablieren, der leicht zu lernen ist – das ist dem Phont-Team wichtig. Deshalb testen sie ihre Designparameter regelmäßig mit verschiedensten Menschen: mit synästhetisch Begabten, gehörlosen Menschen oder Schulklassen ebenso wie mit Freund:innen, Bekannten, Instagram-Follower:innen oder potenziellen Kund:innen.
Eine offizielle Studie mit gut 160 Teilnehmer:innen gaben sie ebenfalls in Auftrag. Mit dem Ergebnis, dass die jetzigen Designparameter alle eine Erkennungsrate von über 70 Prozent haben. Besonders die Gen Z, für die Untertitel bereits the new normal sind – sei es, weil sie Videos nebenbei, in der Öffentlichkeit oder in einer fremden Sprache schauen –, war von Phont in Tests begeistert.
Inklusion fördern: Individuelle Einstellungen
Ein weiterer Aspekt, den das Team intensiv untersucht, ist die Frage, ob Phont einen inklusiven Nutzen hat, vor allem für die vielen Millionen Menschen mit Höreinschränkungen. Dafür suchen sie den Austausch mit der Tauben-Community, wie zuletzt mit der Deutschen Gehörlosen Handball-Nationalmannschaft, die sehr positiv auf PHONT reagierte. In beratender Rolle unterstützte Andreas Costrau das Team, ein Experte in eigener Sache, der sich auf die Bedürfnisse von Menschen mit Höreinschränkungen spezialisiert hat.

Im Hinblick auf Inklusion ist es aber nicht nur wichtig, dass der visuelle Code von allen verstanden wird, sondern auch, dass er Möglichkeiten zur individuellen Anpassung bietet. »In unseren Interviews haben wir festgestellt, dass Gehörlose andere Ansprüche an Lesbarkeit und Untertitel haben als Hörende, und auch im Bereich der Neurodiversität gibt es zahlreiche Facetten. Wir möchten diese vielfältigen Anforderungen berücksichtigen«, sagt Fredrik Merkel.
Dies soll durch individuelle Einstellungen am Endgerät geschehen. Dabei bleibt der Code immer gleich – Lautstärke ist fett und groß –, aber die Nutzer:innen können selbst über die Art der Änderung entscheiden. Etwa ob sich die Untertitel bewegen oder ob sie eher statisch sein sollen oder ob sie eine farbige Darstellung bevorzugen.
Unter dem Stichwort Phont kann man Emotion, Language (landessprachliche Aspekte) und Voice (charakterspezifische Stimmeigenschaften) an- oder abwählen. Beim Klick auf GTS:1 (Gerchow-Travers-Skala) bieten sich weitere Möglichkeiten der Anpassung wie etwa Farbe, Animationen, Schriftgröße oder Laufweite.
Die Zukunft: Von Streaming bis TikTok
Anwendungen von Phont sieht Frederik Merkel vor allem als integrierte API für Netflix und Co. oder Games. »Auf dem European Film Market im Rahmen der Berlinale konnten wir viele Kontakte knüpfen. Es gab Interesse von Streamingplattformen und Filmdistributoren. Nun wollen wir den nächsten Schritt gehen und die ersten Pilotprojekte starten.«
Aber natürlich sind auch andere Anwendungen möglich: Live-Events, Spotify-Lyrics oder Messenger-Apps zum Beispiel. »Wir haben auch viele Anfragen von Content Creators, weil diese mit der Nutzbarkeit von Videoeditoren wie CapCut und Co nicht wirklich zufrieden sind.« Auf Social Media ist Creative Captioning ja durchaus verbreitet. Vor allem auf TikTok sieht man häufiger ausgefallene Untertitel. Anders als Phont sind sie aber rein visuell und gehen nicht auf die Sprache ein.
»KI muss kreative Arbeit nicht abnehmen, wir können mit ihrer Hilfe auch neue kreative Ebenen schaffen.«
Noch zeigt das Phont-Team seine Betaversion nicht öffentlich, lange soll das aber nicht mehr dauern. Wer ihnen auf Instagram oder LinkedIn folgt, verpasst den Start auf keinen Fall. Auch die Hochschule RheinMain, an der Frederik Merkel seinen Bachelor machte, interessiert sich für das Thema. Auf seine Initiative bekamen Studierende im Bachelor-Studiengang Kommunikationsdesign im Typografie-Projekt im Wintersemester 2023/2024 die Aufgabe: Visualisiert sprachliche Aspekte durch Schrift. Die coolen Ergebnisse, die dabei herauskamen, zeigen wir demnächst hier auf der Website.


Dieser Beitrag ist erstmals am 4. April 2024 im Rahmen unseres Impuls-Newsletters erschienen.