Am Mittwoch kündigte OpenAI DALL·E 3 an. Das neue Modell soll direkt in ChatGPT Pro integriert werden und mit natürlicher Sprache bedienbar sein. Die ersten Tests sehen vielversprechend aus.
Nachdem es die letzten Monate eher still um DALL·E war, präsentierte OpenAI gestern die dritte Generation des Modells – und zwar nativ in ChatGPT integriert. Damit kombiniert das Unternehmen erstmals generative Sprach-KI und Bildgenerierung in einem Tool.
Noch ist das Modell – genannt DALL·E 3 – nur für wenige Tester:innen zugänglich, ab Oktober soll das Modell allerdings fest in ChatGPT Pro integriert, und künftig auch per API in eigene Anwendungen eingesetzt werden können.
Was kann DALL·E 3?
Kurz gesagt, vereint das Tool ChatGPTs Funktion, im Dialog und mit natürlicher Sprache Ideen und Texte weiterzuentwickeln, mit DALL·Es Bildgenerierung in dritter Generation. So können Nutzer:innen entweder selbst Bildbeschreibungen umsetzen, oder mithilfe von ChatGPT Prompts generieren lassen, ohne das Tool zu wechseln.
Bild: OpenAI
DALL·E 3 soll dabei auf Bildebene einige Fortschritte gegenüber den älteren Modellen gemacht haben – vor allem, was Hände, Buchstaben und Zahlen angeht. Spannend dabei ist, dass das Tool auf längere Bildbeschreibungen ausgelegt ist und – zumindest in den ersten Beispielen – eine hohe Detailtreue in den generierten Ergebnissen aufweist. Deutlich wird das an den Bildbeispielen, die OpenAI mit den zugehörigen Prompts auf einer eigenen Landingpage veröffentlichte.
Grenzen setzt das Unternehmen dabei nur für sexuell explizite Inhalte, bekannte Persönlichkeiten und bestimmte Künstler:innen. Künftig soll es für Kreative, die ihre Werke oder ihren Stil schützen wollen, aber auch eine Opt-Out-Funktion geben.
Bye, Bye, Prompt Engineering?
Erst in PAGE 09.23 berichteten wir über das Berufsbild Prompt Engineer. Die Voraussage der Expert:innen, die wir im Artikel befragten, scheint sich zu bewahrheiten: der Begriff Prompt Engineering wird in Zukunft kaum noch eine Rolle spielen. Vielmehr wird die Interaktion mit KI immer selbstverständlicher in unsere täglichen Aufgaben integriert.
So bietet DALL·E 3 jetzt auch Nutzer:innen ohne dezidiertes Design-Fachwissen und -Jargon die Möglichkeit, Ideen visuell umzusetzen. Einzigartig ist dabei die gewohnte ChatGPT-Funktion iterativ an einem Bild zu arbeiten, sich auf bereits Generiertes zu beziehen und sich anschließend konsistent verschiedene Formate, Medien und Kommunikationsmittel generieren zu lassen.
Deutlich wird das in einer Video-Demo von OpenAI, die »Larry den Igel« als Character, in Stickerform und als Gute-Nacht-Geschichte zum Leben erwachen lässt, ohne dass auch nur ein Wort zum Style oder zu spezifischen Bildelementen fällt.
Die neue ChatGPT Funktion ist allerdings nicht nur für Laien interessant, sondern wird sicher auch für Kreative neue Workflows eröffnen – erste Tester:innen munkeln, dass die Qualität der generierten Bilder sogar an Midjourney heranreicht. Wir sind gespannt.