Creative AI: verstehen, gestalten und kreativ anwenden
Künstliche Intelligenz verändert die Kreativbranche grundlegend. Wir zeigen, wie Designer:innen die neuen Tools für ihre professionelle Arbeit einsetzen können, welche Möglichkeiten das eröffnet – und wie viel Spaß das Ausprobieren macht
Und ja: Natürlich werden mit der kontinuierlichen Verbesserung der Technologie manche Arbeitsschritte und auch Jobprofile obsolet, etwa Produktbeschreibungen oder Fotoshootings für Onlineshops. Gleichzeitig wächst der Bedarf an neuen Fähigkeiten – vor allem, was den Umgang mit Daten angeht: »Wo bekomme ich die Daten her, um Modelle zu trainieren? Wie stelle ich sicher, dass sie divers genug sind? Wie kuratiere ich sie – und die Millionen Ergebnisse, die ein Modell produziert? Das sind alles Fragen, mit denen sich Designer:innen künftig auseinandersetzen müssen«, ist Creative Technologist Tom-Lucas Säger von aiXdesign überzeugt. Zudem wird sich der Berufseinstieg verändern, glaubt seine Kollegin, die Designerin Sarah Pfeiffer: »Typische Arbeiten von Berufsanfänger:innen wie Reinzeichnung oder Bildretusche können künftig Algorithmen übernehmen. Designer:innen können dann von Anfang an viel konzeptioneller denken und arbeiten.«
KI verstehen: Sich vorbereiten auf die Zukunft
Kreative werden sich vermehrt auf Fähigkeiten wie interkulturelles Wissen und Empathie konzentrieren müssen, die nötig sind, um Kreation einzuordnen und passgenau zu kommunizieren. Und sie müssen technischer denken. »Wer komplett vor Code zurückschreckt, wird es in Zukunft schwer haben im Designberuf«, glaubt Peter Kabel. Und auch Benedikt Groß, Professor für Interaction Design an der HfG Schwäbisch Gmünd ist überzeugt: »Wenn man KI nicht versteht, kann man viele Dinge in der digitalen Welt bald nicht mehr gestalten. Deshalb müssen wir dieses Wissen in der Designausbildung vermitteln.«
Designhochschulen widmen sich dem Thema bislang in sehr unterschiedlichem Maße. Von einzelnen Kursen oder Workshops über offene Vortragsreihen bis hin zu Forschungsprojekten und Masterstudiengängen. Aber auch für berufstätige Kreative gibt es viele Weiterbildungsmöglichkeiten – etwa den Onlinekurs »Elements of AI« von der finnischen Unternehmensberatung Reaktor und der Universität Helsinki oder diverse Angebote auf der Online-Plattform Coursera. Klar ist: Wir sollten vorbereitet sein auf das, was kommt. Technische Inspiration für den Einstieg geben wir in »Technik und Tools« – am besten einfach mal ausprobieren. Wir versprechen: Es macht wirklich Spaß!
Creative AI: Zwischen Kontrolle und Überraschung
An der Fachhochschule Nordwestschweiz experimentierten Teilnehmende in einem Workshop mit verschiedenen KI-Netzwerken, darunter auch die neuen Diffusion Models
Im Februar 2022 fand an der FHNW unter der Leitung von Ludwig Zeller der Workshop »The Neural Aesthetic of Deep Learning« statt, bei dem die Teilnehmenden verschiedene KI-Modelle für die Erstellung von Bildern ausprobierten. Dabei kam unter anderem das Disco Diffusion Google Colab Notebook zum Einsatz, mit dessen Hilfe es möglich ist, durch eine Kombination des neuronalen Netzwerks CLIP mit einem Diffusion Model Bilder per Texteingabe zu generieren.
Für Andrea Sommer, Dozentin für visuelle Kommunikation im Studiengang Modedesign der Hochschule für Gestaltung und Kunst FHNW, war der Workshop »ein Türöffner in eine neue Welt«, in der sie die neuen Tools per Trial and Error zu verstehen und zu kontrollieren beziehungsweise »eine gute Dosierung zwischen Kontrolle und Überraschung zu finden« versuchte, wie sie sagt. Das aufgeregte Gefühl bei der Bildgenerierung erinnert sie an die Entwicklung von analogen Lochkamerabildern. Mit dem Unterschied, dass die Fotos die Realität nicht eins zu eins abbilden, sondern dass im Abgleich mit dem gelernten Bildmaterial immer wieder überraschende und unberechenbare Abweichungen entstehen. Das zentrale Potenzial besteht für Sommer darin, dass Prompts von fiktiven, nicht realen Dingen genauso behandelt und umgesetzt werden wie solche zu realistischen Motiven.
Als Dozentin für Modedesign erkundet Andrea Sommer diese KI-Programme zum einen hinsichtlich ihrer Möglichkeiten als Entwurfsmethode. »Hier sind die Ergebnisse wertvoll, die sehr unerwartete, abstrakte Übersetzungen meiner Prompts aufweisen. Sie triggern die Fantasie und erfordern im nächsten Schritt eine erfinderische Interpretation«, sagt Sommer. Zum anderen untersuche sie Disco Diffusion auch mit Blick auf seine Inszenierungsmöglichkeiten. Hier könnte man reale Entwürfe durch möglichst präzise Texteingaben in ungewohnter Art und Weise visualisieren und eine neue Art von Fashion Imagery definieren.
Einsatz von KI in der Kreativbranche: Lasst uns was kochen!
Das Team von aiXdesign an der HAW Hamburg erforscht den Einsatz von KI in der Kreativbranche – und gibt sein Wissen in Workshops weiter
Alle reden über künstliche Intelligenz, aber keiner macht’s: Das war die Beobachtung, die Peter Kabel, Professor für Interaction Design an der HAW Hamburg, dazu bewog, vor drei Jahren das Forschungsprojekt aiXdesign ins Leben zu rufen ( https://creative-kitchen.ai ). Gemeinsam mit Studierenden erforscht er, wie sich KI-Technologien im Design anwenden lassen und welche Auswirkungen das auf die Kreativbranche haben wird. Dem im Department Design angesiedelten aiXdesign-Team gehören derzeit Benjamin Bertram, Katharina Mumme, Sarah Pfeiffer und Tom-Lucas Säger an. Die Erkenntnisse aus ihren KI-Experimenten behalten sie nicht für sich, sondern teilen sie in öffentlichen Veranstaltungen und in Workshops – auch in Kooperation mit der PAGE Academy.
Anders als seine drei Forschungspartner:innen aus dem Kommunikationsdesign kommt Benjamin aus der Illustration, wo er gerade seinen Master macht. Das Thema KI und Algorithmen beschäftigt ihn schon länger – mittlerweile hat er neben JavaScript auch Python gelernt. »Programmieren ist für mich zu einem ganz neuen Mindset geworden. Heute gehe ich an die Gestaltung mit einem Coder-Habitus heran und frage mich, ob es eine bestimmte Lösung vielleicht schon irgendwo gibt, ob ich etwas Bestehendes adaptieren oder verschiedene Versatzstücke neu zusammenbauen kann«, erklärt er.
Man braucht aber gar nicht so tief in den Code einzusteigen, um sich mit künstlicher Intelligenz zu beschäftigen, meint Katharina. Momentan erforscht die Gruppe Sprachalgorithmen, deren Interfaces komplett ohne Code funktionieren: »Natürliche Sprachmodelle sind mittlweile so weit fortgeschritten, dass man sie einfach durch Worte steuert. Will man verstehen, wie das Ganze funktioniert, und die Modelle für eigene gestalterische Anwendungen hacken, muss man natürlich etwas coden können.« Für Tom-Lucas ist Coding ein Basic Skill wie Lesen und Schreiben: »Alle können schreiben, aber nicht alle sind hervorragende Autorinnen oder Autoren. Wir wissen, wie es geht, und können damit arbeiten – genauso sollte es auch mit Programmieren sein.«
Mehr Design in die KI-Entwicklung!
Das Team hat zwar eine generell Tech-positive Sicht, beschäftigt sich aber auch mit den Gefahren und Risiken von KI wie Bias oder Fake News. »Wir sehen uns in der Tradition der Hacker-Kultur: Wir zeigen auf, welche Möglichkeiten es gibt, hinterfragen das aber auch kritisch und schaffen Awareness dafür«, sagt Katharina. Wie bei allen Technologien kommt es auch bei KI darauf an, wie man sie nutzt. »Face Tracking kann man für Kontrollzwecke nutzen, aber auch als neue Interaktionsform zwischen Mensch und Maschine, die etwa querschnittsgelähmten Menschen mehr Accessibility ermöglicht«, so Tom-Lucas. »Es ist wichtig, dass Designerinnen und Designer in die Entwicklung von KI-Tools involviert sind. Auch wenn man den Code nicht bis ins Letzte versteht, kann man als Designer unter Codern eine andere Sichtweise einbringen und Entscheidungen mit beeinflussen.« Die Chance dazu besteht, weil vieles in der KI-Szene (noch) Open Source und der Austausch in der Community, etwa auf Reddit, sehr rege ist. »KI ist nichts, wo nur Top-Wissenschaftler:innen mitreden können! Je mehr Menschen an der Entwicklung teilhaben, desto mehr Perspektiven und Ideen werden berücksichtigt«, erklärt Sarah.
Die Designer:innen sind überzeugt, dass sich die Kreativbranche durch künstliche Intelligenz grundlegend verändern wird. »Die jetzige Situation erinnert an die Anfänge der Digitalisierung vor 30 Jahren. Damals waren die Tools noch unausgereift, und man galt als Crack, wenn man Quark XPress bedienen konnte. Heute sind viele Algorithmen noch etwas glitchy und schwer zugänglich, aber das wird in fünf Jahren schon ganz anders aussehen«, ist Benjamin überzeugt. Das Entwicklungstempo in diesem Bereich ist enorm. »Manchmal wacht man morgens auf und liest von einem Modell, das etwas kann, von dem man gedacht hätte, dass es noch Jahre dauern würde, bis es so weit ist«, so Tom-Lucas.
Eigene Softwaretools: Probiert’s einfach aus!
Eigene Softwaretools zur Gestaltung entwickeln? Das Designstudio Process aus Wien macht es vor – auch im Rahmen von KI-Projekten
Martin Grödl und Moritz Resl haben sich mit ihrem Designstudio Process in Wien auf generatives und interaktives Design spezialisiert. Oft stoßen sie bei ihrer Arbeit an technische Grenzen – und überwinden diese mit selbst entwickelten Softwarelösungen. Dabei hilft ihnen ihr technischer Hintergrund: Beide haben sowohl Kunst als auch Informatik studiert. »Wir verlassen uns ungern auf gängige Werkzeuge, weil man damit wenig individuell arbeiten kann. Wenn es der Rahmen und das Budget eines Projekts zulassen, experimentieren wir mit neuen, eigenen Lösungen«, sagt Moritz Resl. Diesen DIY-Ansatz haben sie auch bei den zwei KI-Projekten genutzt, die sie bisher umgesetzt haben.
Selbst trainiertes Modell für AImoji
Für die Ausstellung »Uncanny Values« im Rahmen der Vienna Biennale 2019 gestaltete Process im Auftrag des Museums für Angewandte Kunst Wien das Branding sowie das Keyvisual. Die Idee bestand darin, ein Sujet zu finden, das von einem selbstlernenden System geschaffen beziehungsweise weiterentwickelt wird. So landeten die Designer bei Emojis, die in der heutigen Kommunikation eine große Rolle spielen – und praktischerweise klein genug sind, um damit im Rahmen der eigenen technischen Möglichkeiten ein KI-Modell zu trainieren.
Dabei kam ein Deep Convolutional Generative Adversarial Network (DCGAN) auf Basis eines Open-Source-Projekts von Coder Taehoon Kim zum Einsatz. Dieses fütterten Grödl und Resl mit einem Dataset aus 3145 Emojis, gescrapt von Emojipedia. Sie trainierten das Modell auf ganz normalen Laptops, was nur wenige Stunden in Anspruch nahm. Die Ergebnisse passten perfekt zum »Uncanny Values«-Motto: Die AImojis sind glitchy, verpixelt und oft ganz schön creepy. In der Ausstellung konnten die Besucher:innen live beobachten, wie die KI – installiert auf einem Raspberry Pi – neue Piktogramme schuf.
Zur Ausstellungidentität gehörte auch ein AIFont, den Grödl und Resl mit demselben DCGAN entwickelten. Dafür wurde das Modell mit über 200 000 Schriften trainiert, wobei es lernte, ihre Formen nachzuahmen. Das Ergebnis ist also keine eigene Schrift, sondern eine bildhafte Darstellung von Buchstaben. Besonders eindrucksvoll – und leicht hypnotisierend – sind die dabei entstandenen Animationen, bei denen der Schriftzug »Uncanny Values« zwischen unterschiedlichsten Serif- und Sans-Schriften, dicken und dünnen Strichen herummäandert. Auch die Headlines in diesem Artikel sind im AIFont »gesetzt«. Mehr zu dem Projekt unter https://process.studio/works/uncanny-values.
Künstliche Intelligenz für die Klimakommunikation
Etwas ausgefeilter und umfassender ist das KI-Projekt »Tokens for Climate Care«, das Process ebenfalls im Auftrag des MAK für die London Design Biennale 2021 entwickelt hat. Dabei erschafft ein System Symbole, die sich für die Kommunikation rund um das Thema Klimaschutz nutzen lassen, zum Beispiel auf Demoplakaten. Neben der Auswahl des richtigen GANs, bei der Process vom Wiener KI-Technikanbieter enliteAI unterstützt wurde, lag die Herausforderung vor allem im Sammeln und Aufbereiten der Trainingsdaten.
Zwar existieren unzählige offene Quellen für Symbole, doch sollten sie für diesen Zweck so wenig mit Bedeutung aufgeladen sein wie möglich. So suchten die Designer die rund 7000 Bildzeichen für das Dataset eigenhändig aus, die sie dann mit eigenen Bedeutungen versahen, also labelten. Dafür entwickelte Process das Climate Care Vocabulary mit vierzig Begriffen wie etwa Transformation oder Energy, die sie den Symbolen von Hand zuteilten. Dabei bekamen sie Unterstützung von MAK-Mitarbeitenden. Das Projekt verdeutlicht, wie viel manuelle Arbeit im Training von KI-Modellen steckt, wenn man ein bestimmtes Ergebnis damit erzielen möchte.
Das GAN musste mehrere Male trainiert und zwischendurch immer wieder angepasst werden. »Wir haben bei dem Projekt gelernt, dass künstliche Intelligenz keine exakte Wissenschaft ist – selbst die Experten probieren einfach viel aus und schauen, was passiert«, so Martin Grödl. »Sobald man von klassischen Anwendungsfällen abweicht, wird es sehr schnell sehr komplex. Ohne die Hilfe von enliteAI hätten wir es nicht geschafft«, ergänzt Moritz Resl. Process war dabei nicht nur auf deren Know-how angewiesen, sondern auch auf die Rechner des Unternehmens, denn das Training überschritt die Kapazitäten des Designstudios.
Schließlich lernte das KI-Modell wie gewünscht die visuellen Charakteristiken der Symbole sowie deren assoziierte Bedeutungen, sodass es bei der Eingabe von drei Begriffen ein entsprechendes neues Symbol generieren kann. Die Ergebnisse sind zwar recht skizzenhaft und rudimentär, werden aber als Vektorgrafiken ausgeliefert, sodass sie sich weiterbearbeiten lassen. »Unser Ziel war nie, einen Generator zu bauen, der fertige Symbole ausspuckt«, sagt Moritz Resl. »Aber die Ergebnisse lassen sich gut als Inspiration nutzen. Es sind immer wieder spannende unkonventionelle Grafiken dabei, auf die wir nicht selbst gekommen wären.« Für die Identität der Ausstellung hat Process eigene Glyphen designt, deren Ästhetik auf den KI-Tokens basiert.
Ausprobieren kann man den Token-Generator leider nur vor Ort in der Ausstellung. Aktuell ist sie im Austrian Institute of Technology in Wien zu sehen (bis 22. September), wo die beiden derzeit Artists in Residence sind. Für ihr neues Projekt beschäftigen sie sich mit den dunklen Seiten von KI – angefangen beim Thema Lieferketten und Datenbeschaffung über schlecht bezahlte Klickworker bis hin zur Kontrolle über die eigenen Daten.
»Für die KI-Branche sind unsere Projekte eher kleine Spielereien – kein Vergleich zu den Modellen von Nvidia oder OpenAI«, so Martin Grödl. »Aber wir wollten herausfinden, wie die Technik funktioniert und wie man sie mit wenigen Ressourcen nutzen kann. Dabei ging es uns auch darum, KI zu entmystifizieren.« Mit ihren Projekten wollen sie zudem andere motivieren, sich mit der Technologie auseinanderzusetzen. »Dafür muss man keine große Software-Engineering-Abteilung bei einem IT-Konzern sein«, so Moritz Resl. »Wir sind ja auch nur ein Zwei-Personen-Designstudio. Probiert’s einfach aus!«
Menschliche und künstliche Intelligenz: Arbeitet zusammen!
Die Agentur Grey Design zeigt mit dem Erscheinungsbild für den Aluminiumkonzern Speira, wie sich menschliche und künstliche Intelligenz im Designprozess ergänzen können
Ein komplett neues Corporate Design innerhalb von neun Wochen unter Einbezug von circa 5000 Mitarbeitenden: Es waren quasi unmögliche Anforderungen, die der Aluminiumkonzern Speira Ende 2021 in einem Pitch stellte. Es sei denn, man holt sich dafür Hilfe von einer KI. Mit dieser Idee sicherte sich die Agentur Grey Design mit Sitz in Hamburg und Düsseldorf den Auftrag.
Möglich machte das vor allem Executive Creative Director Patrick Reichert-Young, der dank mehrerer Fortbildungen bei IBM mit deren KI-System Watson so vertraut ist, dass er seine Potenziale und Anwendungsmöglichkeiten innerhalb von Design- und Strategieprojekten einschätzen kann. Mit diesem Wissen ist er in deutschen Agenturen noch deutlich in der Minderheit. »Das Interesse ist da, aber es gibt immer noch große Berührungsängste, sich wirklich mit der Technologie auseinanderzusetzen«, so Reichert-Young. »Um KI innerhalb eines Designprozesses sinnvoll einsetzen zu können, sollte man aber zumindest in der Lage sein, ein Lernkonzept zu schreiben.«
Mensch – Maschine – Mensch
Die Arbeit für Speira startete klassisch mit einem Markenworkshop, bei dem Agentur und Kunde neun entscheidende Aspekte festlegten, die mit der Gestaltung zum Ausdruck gebracht werden sollten, darunter Circularity, denn Speira setzt auf Recycling und eine umweltgerechte Aluminiumverwertung. In einem weiteren Workshop sammelte das Team Adjektive, die das gewünschte Design beschreiben. Die ermittelten Markenaspekte und Designattribute wurden in ein Sprachmodul von Watson eingespeist. Damit die KI Adjektive wie »zeitlos« im Kontext von Design interpretieren konnte, ließ Grey sie Textausschnitte »lesen«, etwa aus Aufsätzen von Dieter Rams und Texten über Massimo Vignelli.
Parallel führte die Agentur eine Umfrage unter sämtlichen Speira-Mitarbeitenden durch. Sie mussten wählen, welches Symbol oder welche Farbe sie für den jeweiligen Strategiebegriff am passendsten finden. Hier kam ein weiteres Watson-Modul mit Visual-Recognition-Funktion zum Einsatz, das die Angaben der einzelnen Mitarbeitenden in ein »virtuelles Logo« auf Textbasis übersetzte.
Schließlich verglich Watson die rund 5000 Ergebnisse, suchte nach Überschneidungen und erstellte daraus die Beschreibung eines visuellen Markenkerns. Dieser diente den Designern dann als Grundlage für die finale Logo- und Designentwicklung. Interessant waren dabei nicht nur die Überschneidungen unter den Antworten, sondern auch die Abweichungen, berichtet Reichert-Young: »Während wir uns stark auf den Aspekt Innovation konzentriert haben, wurde bei der Auswertung durch die KI deutlich, dass offenbar auch das Thema Stabilität eine Rolle spielte. Manchmal sind die Fragen, die eine Maschine aufwirft, spannender als ihre Antworten.« Am Ende entstand ein filigranes Kreislogo, das sowohl an aufgerolltes Aluminium erinnert als auch an die Zirkularität von Recycling.
KI verstehen: Kein Grund zur Abwehr
Das Corporate Design von Speira entstand also auf Basis des Inputs einer künstlichen Intelligenz. Die Parameter dafür definierten aber Menschen – ebenso wie sie die Ergebnisse der KI interpretierten und im finalen Design aufgriffen. »Viele verstehen die Rolle von KI in diesem Projekt falsch und denken, die Maschine hätte alles selbst gestaltet. Daraus entsteht dann schnell eine Abwehrhaltung«, sagt Patrick Reichert-Young. Dabei setzte das Team die KI bewusst ausschließlich auf der Textebene ein. »Wenn man das System selbst ein Logo gestalten ließe, beispielsweise auf Basis von Zeichnungen der Belegschaft, wäre es doch sehr fraglich, ob das Signet die ausreichende Qualität aufweisen und ob es die Parameter der Markenstrategie einhalten würde«, so Reichert-Young.
Für ihn ist KI ein Designwerkzeug wie jedes andere, das man einsetzt, wenn es im jeweiligen Projekt sinnvoll ist: »Wichtig ist, zu verstehen, dass es sich um eine partnerschaftliche Zusammenarbeit zwischen Mensch und Maschine handelt.« Watson hat für ihn den Vorteil, dass das System modular aufgebaut ist. Es gibt eine ganze Reihe vortrainierter Modelle, die man je nach Bedarf kombinieren kann – wie im vorliegenden Fall ein Sprach- und ein Visual-Recognition-Modell. Für den Einsatz braucht es keine Programmierkenntnisse.
Creative AI: Technik und Tools im Überblick
GANs, Diffusion Models, Google Colab, ml5.js: Ein Überblick über die wichtigsten Technologien, Modelle, Plattformen und Trends
Wenn wir von KI sprechen, meinen wir meist Machine Learning. Anders als beim »normalen« Programmieren wie im generativen Design, bei dem man mit Regeln das Verhalten der Maschine lenkt, erkennt diese beim maschinellen Lernen in Trainingsdaten bestimmte Muster und kann diese dann eigenständig reproduzieren. So können etwa GANs (Generative Adversarial Networks) ganz neue Bilder generieren, die den Beispielen aus dem Training verblüffend ähnlich sehen. Es entstehen aber auch immer wieder fehlerhafte und seltsame Motive, die die ganz eigene GAN-Ästhetik ausmachen: glitchy, ineinanderfließend, traumhaft und psychedelisch. Je größer das Trainingsdatenset und je länger das Training, desto besser die Ergebnisse.
AI for Beginners: Teachable Machine, GauGAN2, GPT-3
Laut Creative Coder Andreas Refsgaard kann man verschiedene Komplexitätslevel im Umgang mit KI unterscheiden. Das erste ist Machine Learning in bestehender Software wie Photoshop – heutzutage selbstverständlich. Als Nächstes kommt die Nutzung frei zugänglicher KI-Modelle. Hier gibt es einsteigerfreundliche Plattformen wie Googles Teachable Machine, wo man Modelle selbst mit Fotos trainiert und dabei lernt, wie Klassifikation und Training funktionieren. Viel Zeit kann man auch mit dem GauGAN2 von Nvidia verbringen, das Zeichnungen in fotorealistische Landschaften umwandelt – zwar noch recht glitchy, aber gerade deshalb interessant.
Das Sprachmodell GPT-3 von OpenAI kann man über eine API im Browser ausprobieren. Der Free-Trial-Account umfasst ein Kontingent an Model Usage. Wer dieses aufbraucht, muss auf einen bezahlten Account upgraden. Im »Playground« kann man verschiedene Prompts eingeben und sich anschauen, was GPT-3 dazu ausspuckt. Unter »Examples« finden sich weitere Anwendungen wie »Mood to color«, die Textbeschreibungen in Farbwerte übersetzt, oder der Befehl »Summarize for a 2nd grader« genauso wie Übersetzungsfunktionen für diverse Sprachen – auch für Code. Für Letzteres hat OpenAI übrigens auch ein eigenes Netzwerk namens Codex entwickelt: Es wurde mit öffentlich zugänglichem Code trainiert und beherrscht mehr als ein Dutzend Programmiersprachen. Derzeit befindet es sich in einer privaten Betaphase.
Advanced Level: Google Colab, Hugging Face, ml5.js, Watson
Etwas anspruchsvoller wird es, wenn man bestehende vortrainierte Modelle selbst weitertrainiert (Transfer Learning) und dann miteinander kombiniert (Chaining). Für diese Methode hat sich die Plattform Google Colab etabliert, auf der man kostenlos den Code für verschiedene Anwendungen (Modelle) findet, ihn direkt im Browser – also über Google-Server – ausführen und die Ergebnisse exportieren kann. Den Code muss man nicht selbst »anfassen«, sondern kann ihn sich mittels einfacher Buttons zusammenstellen und ausführen lassen. In sogenannten Notebooks finden sich neben dem Code auch Erklärungen und Anleitungen.
Noch ein wenig fortgeschrittener sind Libraries für KI-Code wie Hugging Face und ml5.js. Letztere richtet sich an Artists, Creative Coder und Studierende und bietet »friendly access« zu Machine-Learning-Algorithmen und -Modellen direkt im Browser – eine Empfehlung von Refsgaard für alle, die ein bisschen Programmiererfahrung haben. Die Plattform RunwayML, bisher eine gute Anlaufstelle für vortrainierte Modelle, justiert derzeit ihr Geschäftsmodell neu und konzentriert sich verstärkt aufs Videoediting. Unter dem Reiter »ML Lab« hat man aber noch Zugriff auf verschiedene KI-Modelle. Für größere Unternehmen oder Kunden kommt auch die Zusammenarbeit mit IBM Watson infrage. Für die KI existieren diverse vortrainierte Module, die sich miteinander kombinieren lassen. Das anspruchsvollste Level im KI-Game schließlich erreichen nur wenige: KI-Modelle from scratch selbst programmieren und trainieren. Hierfür braucht es zudem die entsprechende Hardware, etwa eine extrem leistungsfähige Grafikkarte.
Von GANs zu Diffusion Models
Für die Kreativbranche ist vor allem die Bildgenerierung durch Machine Learning spannend, was 2014 mit der Entwicklung der GAN-Technologie möglich wurde. Gerade in diesem Anwendungsbereich zeigt sich auch, wie schnell die Fortschritte sind. Anfang 2021 stellte das KI-Forschungs- und Entwicklungsunternehmen OpenAI das KI-Modell DALL-E vor, das mit Bild- und Textdaten trainiert wurde und daher zu Texteingaben passende Bilder generiert, die von CLIP, einem anderen KI-Modell, auf ihre Qualität hin geprüft und sortiert werden. Während OpenAI eine abgespeckte Version von CLIP veröffentlichte, gibt es bisher keinen Zugang zu DALL-E, sondern nur (ziemlich beeindruckende) Beispielbilder unter https://openai.com/blog/dall-e. Aber auch in Kombination mit GANs lassen sich mit CLIP KI-Systeme entwickeln, die auf Texteingaben hin Bilder generieren oder verändern.
Im Februar 2021 veröffentlichte OpenAI ein Paper, in dem das Team eine neue Netzwerkarchitektur zur Bildgenerierung vorstellte: sogenannte Diffusion Models, die anders funktionieren als GANs. Bei Letzteren erzeugt ein Generatornetzwerk zufällige Bilder, die von einem Diskriminatornetzwerk mit Trainingsdaten verglichen und bewertet werden, woraufhin der Generator lernt, Motive zu erzeugen, die der Diskriminator nicht mehr von den Originalquellen unterscheiden kann (daher der Name Generative Adversarial Networks). Diffusion Models dagegen fügen Bildern während des Trainings schrittweise Rauschen hinzu und lernen anschließend, diesen Prozess rückgängig zu machen. Fertig trainiert können sie aus purem Rauschen beliebige Bilder mit den im Training gesehenen Objekten generieren (siehe »Zwischen Kontrolle und Überraschung«). Diese Technik ist der GAN-Arbeitsweise offensichtlich überlegen: Schon nach drei Monaten überstieg die Bildqualität der Diffusion Models die von GANs.
Ende 2021 ging es mit dem KI-Modell GLIDE von OpenAI weiter. Die Abkürzung steht für »Guided Language to Image Diffusion for Generating and Editing«. Man kann damit also mit Diffusion Models Bilder anhand von Prompts generieren und sogar im Detail bearbeiten. Eine zusätzliche Qualitätskontrolle durch CLIP ist bei diesem Modell nicht mehr nötig. GLIDE ist noch nicht in vollem Umfang zugänglich. OpenAI veröffentlichte eine Teilversion, die mit stark gefilterten Daten trainiert wurde und beispielsweise keine Bilder von Menschen generieren kann – aus Sicherheitsgründen. Mehr Informationen und Daten gibt es im GitHub-Ordner von GLIDE, testen kann man das Modell über Google Colab. Anfang April 2022 stellte OpenAI DALL-E 2 vor, das noch realistischere Bilder in viermal höherer Auflösung erzeugt. Es ist bisher nicht via API verfügbar, da OpenAI noch die Fähigkeiten und Limitationen des Netzwerks erforscht.
Currently trending: Prompt Engineering
Derzeit wird in der KI-Community viel mit CLIP und GLIDE experimentiert, und es entstehen immer wieder neue Systeme, Anwendungsmöglichkeiten und verblüffende Kunstwerke. Manche sehen im Prompt Engineering, also der Formulierung der Texteingaben, bereits eine eigene Kunstform. Die Bewegung hat sogar ein eigenes Manifest: »The Promptist Manifesto«, natürlich verfasst von GPT-3.
Um bei diesen Experimenten und Entwicklungen mitmischen zu können, benötigt man allerdings Kenntnisse in Python, der Programmiersprache, in der die meisten KI-Anwendungen geschrieben sind. Und man muss dranbleiben: »Ich verfolge die Szene auf Twitter und lese mich so weit wie möglich in Papers von Informatiker:innen ein, um zu verstehen, wie ein neues Modell oder eine neue Anwendung positioniert ist und was daran innovativ ist«, sagt Ludwig Zeller, Dozent und Designforscher am Institut Digitale Kommunikations-Umgebungen an der Fachhochschule Nordwestschweiz. Für Designerinnen und Designer lohnt es sich, zumindest ein Stück weit in die neue Technik einzusteigen, auch wenn es am Anfang etwas einschüchternd ist. Für komplexere Fälle kann man sich immer KI-Experten mit ins Boot holen.
“Irgendwann wird es egal sein, ob ich mit einem menschlichen Assistenten oder mit einer Maschine spreche.”
Mario Klingemann: Der Reiz des Neuen bei der Bildgenerierung durch GANs ist für mich zum Großteil verschwunden. Es ist zwar immer noch interessant, damit zu arbeiten, aber die Ergebnisse überraschen mich seltener. Aktuell finde ich eine neue Technologie sehr spannend, die Bilder aus Text Prompts erzeugt. Das ist ein bisschen wie bei der Bildersuche von Google – nur dass die Bilder in dem Moment neu erschaffen werden. Heutzutage hat man allerdings nicht mehr so lange Zeit wie früher, um in Ruhe mit neuen Technologien zu experimentieren. Die Tools sind viel zugänglicher geworden, werden breiter genutzt und verlieren so schneller an Faszination.
Das muss man bald gar nicht mehr. Ich habe gerade Zugriff auf ein KI-Modell, das über Discord läuft. Das Interface ist komplett sprachbasiert: Ich unterhalte mich mit einem Bot, gebe ihm Prompts, und er antwortet mit Bildern. Nach und nach lernt man die Stärken und Schwächen des Netzwerks kennen und versteht, wie man Prompts formulieren muss, um das gewünschte Ergebnis zu bekommen. Ich gehe davon aus, dass es im Verlauf dieses Jahres immer mehr solcher einfachen sprachbasierten Tools geben wird.
Wer möchte, kann schon heute problemlos damit arbeiten, man braucht nicht mal einen starken Rechner. Im Grunde sind wir alle potenzielle Kreativdirektor:innen und können die Maschine wie einen Assistenten nutzen, der Moodboards für uns produziert. Quasi ein Ersatz für das Pinterest-Board. Man selbst entscheidet dann, ob man ein Ergebnis eins zu eins übernimmt, daran weiterarbeitet oder ob man es als Inspiration nutzt. Am Ende ist es ein Werkzeug, das Zeit spart, besonders bei alltäglichen Tätigkeiten wie dem Gestalten von Flyern. Die Aufgabe von Designerinnen und Designern besteht darin, die Ergebnisse auszuwerten und weiterzubearbeiten. Ich denke, in dieser Form ist oder wird KI ein Standardtool im kreativen Bereich. Irgendwann wird es egal sein, ob ich mit einem menschlichen Assistenten oder mit einer Maschine spreche. Einen großen Nachteil sehe ich darin, dass man wirklich leistungsfähige Modelle nicht mehr selbst programmieren oder trainieren kann. Es erfordert unglaublich viel Computerkapazität und Energie, weshalb die besten Modelle von Google und OpenAI stammen.
Man kann immer noch eigene Modelle für spezielle Zwecke trainieren, die dann aber sehr begrenzt sind und zum Beispiel nur Landschaften erzeugen können. Ich trainiere derzeit kaum selbst Modelle. Stattdessen baue ich mir eine eigene Bilddatenbank auf. Ich befürchte nämlich, dass uns irgendwann die neuen Daten ausgehen. OpenAI hat das CLIP-Netzwerk bereits mit dem gesamten Internet trainiert.
Ich kaufe gerade alte Dias aus Nachlässen und scanne sie mithilfe eines Roboters ein. Inzwischen habe ich rund 130 000 Fotos, die zum Großteil unglaublich langweilig sind. Nachdem ich jahrelang nach dem Neuen, Ungewöhnlichen gesucht habe, versuche ich jetzt, im absolut Gewöhnlichen etwas Interessantes zu finden. Spannend ist zum Beispiel, dass es immer wiederkehrende Motive gibt – also Momente, die viele Menschen für so wichtig erachten, dass sie davon Fotos machen. Eventuell werde ich ein KI-Modell mit diesem Datensatz trainieren – mal sehen.
Wenn alle hübsche Bilder machen, muss ich als Künstler hübsche Bilder und eine gute Geschichte dazu liefern, die Betrachter:innen fesselt oder überrascht. Oder die das Augenmerk auf Phänomene und Muster in unserer Gesellschaft lenkt und einen Aha-Effekt auslöst. Ich denke, das ist etwas, was Maschinen noch eine ganze Zeit lang nicht leisten können werden.
Weitere Informationen zum Thema Creative AI
Dieser Artikel ist in PAGE 06.2022 erschienen. Die komplette Ausgabe können Sie hier runterladen.