Eine Texteingabe genügt (egal wie absurd) und DALL-E 2 kreiert originäre, realistische Bilder.
»An astronaut riding a horse in a photorealistic style«: Dieses Beispiel zeigt schon, zu was DALL-E 2, die zweite Version der Bildgenerierungs-KI von Open AI, fähig ist. Sie kann nicht nur die Texteingabe übersetzen, sondern auch mehrere Objekte miteinander kombinieren und Bildstile umsetzen.
Und das ist noch nicht alles: DALL-E 2 (die KI-Community hat Spaß an dieser Art von Namen – man denke nur an GauGAN von Nvidia) kann auch bestehende Bilder bearbeiten – ebenfalls auf Texteingabe hin. Objekte können entfernt und hinzugefügt werden unter Beachtung von Schatten, Reflektionen und Texturen.
Bild: Open AIBild: Open AI
Euch gefällt das Mädchen mit dem Perlenohrring nicht so richtig? Dann lasst von DALL-E 2 einfach ein paar andere Versionen erstellen! Die Möglichkeiten der KI scheinen unbegrenzt.
Bild: Open AI
DALLE-E 2: So funktioniert die KI
DALL-E 2 wurde mit Bildern und deren Textbeschreibungen trainiert und hat so gelernt, den Zusammenhang zwischen Bild und Text zu verstehen.
Die Bildgenerierung erfolgt über ein sogenanntes Diffusion Model, das anders funktioniert als die GANs, die wir bisher kennen (zum Beispiel zur Erstellung von Plakaten). Bei Letzteren generiert ein Generatornetzwerk zufällige Bilder, die von einem Diskriminatornetzwerk mit Trainingsdaten verglichen und bewertet werden, woraufhin der Generator lernt, Motive zu erzeugen, die der Diskriminator nicht mehr von den Originalquellen unterscheiden kann (daher der Name Generative Adversarial Networks).
Diffusion Models dagegen fügen Bildern während des Trainings schrittweise Rauschen hinzu und lernen anschließend, diesen Prozess rückgängig zu machen. Fertig trainiert können sie aus purem Rauschen beliebige Bilder mit den im Training gesehenen Objekten generieren.
Bild: Open AI
Die erste Version von DALL-E wurde im Januar 2021 veröffentlicht, der Nachfolger kann nicht nur akkuratere Bilder erstellen, sondern diese auch noch in vier Mal höherer Auflösung. Open AI will die KI aber nicht nur als Bildgenerator verstanden wissen. Vielmehr könne man damit erforschen, wie ein KI-System unsere Welt sieht und versteht. Das sei essenziell für die Entwicklung nützlicher und sicherer KI.
Bild: Open AI
Risiken im Griff?
Noch ist DALL-E 2 nicht via API zugänglich, da Open AI derzeit die Fähigkeiten und Grenzen des System untersucht. Es gibt auch schon erste Beschränkungen, um die Nutzung sicherer zu machen: Darstellungen von Gewalt, Hass und Pornografie wurden aus dem Training-Set entfernt und automatische und menschliche »Monitoring Systems« installiert, um die Erstellung solcher Bilder zu verhindern. Zudem wurde die Fähigkeit zur fotorealistischen Darstellung von Gesichtern (inklusive öffentlicher Personen) unterbunden.