PAGE online

Mit dem neuen ChatGPT Image 2 Update können nicht nur Bilder generiert, sondern auch Texte geschrieben werden

Das Modell kann komplexe visuelle Aufgaben lösen und deutlich präziser auf detaillierte Anweisungen reagieren. Und kann mittlerweile auch menschliche Handschrift generieren.

Für mich, Jana, war Handschrift immer etwas zutiefst Menschliches. Sie ist unperfekt, individuell und manchmal kaum lesbar, aber genau darin liegt ihr Wert. Jeder, den ich kenne, hat eine eigene Handschrift, und genau das macht sie so besonders. Ich freue mich immer über selbstgeschriebene Notizen oder Postkarten von meinen Freund:innen, weil sich heutzutage so wenige Menschen die Zeit dafür nehmen.

Der Text ist ohne jegliches spezifisches Prompting entstanden, lediglich basierend auf dem Postkarten-Kontext aus meinem Prompt. Bild: Jana Reske

Vielleicht ist es genau deshalb so irritierend, zu sehen, wie präzise KI mittlerweile Handschrift imitieren kann. Was ich immer als einzigartig und besonders angesehen habe, ist plötzlich generierbar. Mit dem neuen Image-Update von ChatGPT verschiebt sich in dieser Hinsicht etwas Grundlegendes. Text ist nicht mehr nur Inhalt innerhalb eines Bildes, sondern wird selbst zum gestaltbaren Material. Ob handschriftliche Notizen, Editorial-Layouts, UI-Elemente oder typografische Kompositionen. Damit stellt sich zwangsläufig die Frage: Was passiert mit dem Gefühl von Echtheit, wenn selbst unsere Handschrift kein verlässlicher Marker für das Menschliche mehr ist?

Was das neue Image-Modell tatsächlich kann

Das Modell setzt komplexe visuelle Ideen deutlich präziser um und hält sich zuverlässig an Details wie Typografie, Layout oder stilistische Vorgaben. Statt Ergebnissen, die nur ungefähr passen, entstehen Designs, die sich direkt weiterverwenden lassen.

Der Text ist jetzt Teil der Gestaltung. Ganze Textstrukturen wirken im Kontext des Bildes sinnvoll und überraschend stimmig, statt wie zufällige Platzhalter. Das Modell wird auch sprachlich flexibler und funktioniert inzwischen weit über englische Inhalte hinaus zuverlässig. Dadurch wird Sprache selbst zum gestaltbaren Element in internationalen Kontexten.

Bilder lassen sich direkt in verschiedenen Formaten und Seitenverhältnissen generieren, ohne dass nachträgliche Anpassungen erforderlich sind. Dadurch sind die Ergebnisse deutlich anschlussfähiger für reale Anwendungen und Plattformen.

In Kombination mit den Reasoning-Fähigkeiten wird das Modell zu einem aktiven Teil des kreativen Prozesses. Es strukturiert Inhalte, denkt visuelle Lösungen mit und kann sogar mehrere zusammenhängende Bilder in einem Schritt erzeugen. Besonders im Zusammenspiel mit Codex verschiebt sich die Bildgenerierung in Richtung eines integrierten Workflows. Anstelle einzelner Assets entstehen komplette Kompositionen, die sich direkt weiterentwickeln und in Produkte integrieren lassen.

Newsletter, Landingpage, Magazinartikel – und erstaunlich wenig Prompt

Für meinen Test habe ich bewusst mit sehr offenen Prompts gearbeitet. Anstatt konkrete Inhalte vorzugeben, habe ich lediglich eine visuelle Richtung definiert: eine monochrome rote Farbwelt, kombiniert mit Tomaten in verschiedenen Formen und Farben, die wie Modeobjekte inszeniert sind und das Ganze inspiriert von High-Fashion-Kampagnen.

 

Bild: Jana Reske

Ich habe keine Texte, keine Headlines und keine genauen Inhalte vorgegeben. Und trotzdem sind Ergebnisse entstanden, die auf den ersten Blick erstmal wie fertige Designs wirken. Der generierte Newsletter sieht aus wie ein tatsächliches Editorial-Mailing. Die Landingpage funktioniert wie eine reale Website: mit klarer Hierarchie, nachvollziehbaren Textblöcken und einer sinnvollen Struktur.

Natürlich sind die Inhalte nicht tiefgehend, aber sie sind nicht zufällig entstanden.

Die Texte wirken konsistent, thematisch passend und überraschend stimmig im Kontext des Designs. Was hier passiert, ist mehr als reine Bildgenerierung. Das neue Modell generiert eigenständig Inhalte für kreative Konzepte und trifft dabei Entscheidungen, die man sonst aktiv treffen müsste.

Noch deutlicher zeigt sich das bei der generierten Magazinseite. Auf den ersten Blick wirkt das generierte Doppelseiten-Editorial überraschend überzeugend: Die Bildsprache ist klar, es lässt sich eine gewisse typografische Hierarchie erkennen, und auch das zugrunde liegende visuelle Konzept (die Verbindung von Fashion und Tomaten) wird kreativ aufgegriffen, etwa indem einzelne Elemente wie Accessoires gedacht und inszeniert werden.

Auch im Magazinartikel hat ChatGPT Mode und Tomaten miteinander verbunden und daraus etwas Neues gemacht. Bild: Jana Reske

Auffällig ist dabei erneut, dass die Texte nicht aktiv vorgegeben wurden und sich dennoch in das Gesamtbild einfügen. Aber je länger ich diese generierten Entwürfe anschaue, desto mehr Störfaktoren kommen bei mir auf. Zwar ist das Ergebnis im ersten Schritt visuell überzeugend genug, um als funktionierendes Editorial durchzugehen, es wirkt aber dann doch nicht ganz stimmig.

Fazit: Zwischen komplexen Designs und Durchschnitt

Sowohl der generierte Newsletter als auch die Landingpage oder das Editorial wirken auf den ersten Blick erstaunlich stimmig, da sie vertraute visuelle Muster aufgreifen und diese reproduzieren. Dadurch entsteht eine Klarheit und Struktur, die sofort als »richtig« wahrgenommen wird.

Gleichzeitig liegt darin auch ihre Schwäche. Je länger man sich nämlich mit den Ergebnissen beschäftigt, desto deutlicher wird, dass diese Stimmigkeit oft mit einer gewissen Beliebigkeit einhergeht. Die Entwürfe wirken zwar solide, aber selten wirklich eigenständig. Sie wirken eher wie ein Durchschnitt dessen, was man aus unzähligen bestehenden Designs bereits kennt.

Das ist wenig überraschend, sondern eine direkte Konsequenz davon, wie solche Systeme funktionieren. Die generierten Bilder und Inhalte basieren letztlich auf Mustern aus Trainingsdaten, also einer Vielzahl existierender Magazine, Websites und visueller Formate. Aus diesen Daten wird dann die statistisch plausibelste Lösung generiert. Genau deshalb fühlen sich die Ergebnisse auf den ersten Blick so »richtig« an, aber deshalb bleiben sie oft im Durchschnitt.

Für mich liegt darin aber auch eine klare Verschiebung der Rolle von Designer:innen. Wenn KI zunehmend in der Lage ist, solche plausiblen und strukturell funktionierenden Entwürfe zu generieren, dann wird die eigentliche gestalterische Leistung weniger darin bestehen, etwas von Grund auf zu produzieren, sondern vielmehr darin, auszuwählen, zu hinterfragen und gezielt zu verfeinern.

Kuration wird somit zu einer zentralen Kompetenz.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Das könnte dich auch interessieren