Branche & Karriere

DALL-E 2: Diese KI erstellt täuschend echte Fake-Bilder

06.05.2022 von Nina Kirst | Lesezeit: ca. 2 Minuten

Eine Texteingabe genügt (egal wie absurd) und DALL-E 2 kreiert originäre, realistische Bilder.

DALL-E 2: An astronaut riding a horse in a photorealistic style — Credit Bild: Open AI

»An astronaut riding a horse in a photorealistic style«: Dieses Beispiel zeigt schon, zu was DALL-E 2, die zweite Version der Bildgenerierungs-KI von Open AI, fähig ist. Sie kann nicht nur die Texteingabe übersetzen, sondern auch mehrere Objekte miteinander kombinieren und Bildstile umsetzen.

DALL-E 2: A bowl of soup that looks like a monster knitted out of wool — Credit Bild: Open AI

Und das ist noch nicht alles: DALL-E 2 (die KI-Community hat Spaß an dieser Art von Namen – man denke nur an GauGAN von Nvidia) kann auch bestehende Bilder bearbeiten – ebenfalls auf Texteingabe hin. Objekte können entfernt und hinzugefügt werden unter Beachtung von Schatten, Reflektionen und Texturen.

DALL-E 2: Flamingo im Bild platzieren Bild: Open AI Bild: Open AI

Euch gefällt das Mädchen mit dem Perlenohrring nicht so richtig? Dann lasst von DALL-E 2 einfach ein paar andere Versionen erstellen! Die Möglichkeiten der KI scheinen unbegrenzt.

DALL-E 2: Das Mädchen mit dem Perlenohrring - Variationen

Bild: Open AI

DALLE-E 2: So funktioniert die KI

DALL-E 2 wurde mit Bildern und deren Textbeschreibungen trainiert und hat so gelernt, den Zusammenhang zwischen Bild und Text zu verstehen.

Die Bildgenerierung erfolgt über ein sogenanntes Diffusion Model, das anders funktioniert als die GANs, die wir bisher kennen (zum Beispiel zur Erstellung von Plakaten). Bei Letzteren generiert ein Generatornetzwerk zufällige Bilder, die von einem Diskriminatornetzwerk mit Trainingsdaten verglichen und bewertet werden, woraufhin der Generator lernt, Motive zu erzeugen, die der Diskriminator nicht mehr von den Originalquellen unterscheiden kann (daher der Name Generative Adversarial Networks).

Diffusion Models dagegen fügen Bildern während des Trainings schrittweise Rauschen hinzu und lernen anschließend, diesen Prozess rückgängig zu machen. Fertig trainiert können sie aus purem Rauschen beliebige Bilder mit den im Training gesehenen Objekten generieren.

Bild: Open AI

Die erste Version von DALL-E wurde im Januar 2021 veröffentlicht, der Nachfolger kann nicht nur akkuratere Bilder erstellen, sondern diese auch noch in vier Mal höherer Auflösung. Open AI will die KI aber nicht nur als Bildgenerator verstanden wissen. Vielmehr könne man damit erforschen, wie ein KI-System unsere Welt sieht und versteht. Das sei essenziell für die Entwicklung nützlicher und sicherer KI.

Bild: Open AI

Risiken im Griff?

Noch ist DALL-E 2 nicht via API zugänglich, da Open AI derzeit die Fähigkeiten und Grenzen des System untersucht. Es gibt auch schon erste Beschränkungen, um die Nutzung sicherer zu machen: Darstellungen von Gewalt, Hass und Pornografie wurden aus dem Training-Set entfernt und automatische und menschliche »Monitoring Systems« installiert, um die Erstellung solcher Bilder zu verhindern. Zudem wurde die Fähigkeit zur fotorealistischen Darstellung von Gesichtern (inklusive öffentlicher Personen) unterbunden.

Unter https://openai.com/dall-e-2 kann man sich Demo-Anwendungen der KI ansehen.

Mehr zur Zusammenarbeit von Mensch und KI und den vielen Chancen, die die Technologie für die Kreativbranche birgt, lest ihr in PAGE 6.22:

PDF-Download: PAGE 6.2022

Produkt-Details anzeigen

Creative AI nutzen ++ How-To: Interaktive Graphic Novel ++ Risographie in Motion ++ Nachhaltige Etiketten gestalten ++ Typographisches Storytelling ++ Interview Erik Marinovich ++ EXTRA Agen-tur- und Projektmanagementsoftware

8,80 €

AGB