KI-Bildgeneratoren

Was ein Computerprogramm für Kunst hält

Hidéo Snes will künstlichen Intelligenzen das Malen beibringen. Hier versuchte sich ein KI-Modell am Malstil von Frida Kahlo – ausgehend vom Selfie einer Freundin von Snes.
Hidéo Snes will künstlichen Intelligenzen das Malen beibringen. Hier versuchte sich ein KI-Modell am Malstil von Frida Kahlo – ausgehend vom Selfie einer Freundin von Snes.Hidéo Snes
  • Drucken

Neue KI-Bildgeneratoren erstellen auf Knopfdruck Zeichnungen, Fotos, Gemälde. Nutzen kann sie jeder im Internet: Noch nie war es so einfach, Maschinen für sich malen zu lassen. Doch hat das mit Kunst zu tun, was Programme wie Dall-E 2 fabrizieren? Und was fangen künstliche Intelligenzen mit der österreichischen Kunstgeschichte an?

Raffaels Sixtinische Madonna, die ihr Kind mit einem Stück Pizza füttert? Die Höhlenzeichnung eines skateboardfahrenden Dinosauriers? Ein Foto des Eiffelturms, der allerdings nicht aus Stahl, sondern aus Käse besteht? Alles nur eine Frage von Sekunden. „Dein Bildwunsch sei mir Befehl“, scheinen jene KI-Bildgeneratoren zu rufen, die Texteingaben in Pixel verwandeln. Man tippt ein paar Begriffe ein, schon spucken sie computergenerierte Gemälde, Zeichnungen, Fotos aus. Und leiten damit, glaubt man manchen Beobachtern, nicht weniger als eine Revolution in der bildenden Kunst ein: Denn zwar gibt es Kunst, die mithilfe von künstlicher Intelligenz entstanden ist, schon seit Jahren. Noch nie war es aber so einfach, die Maschinen für sich arbeiten zu lassen.

Dall-E 2, Midjourney und Stable Diffusion heißen drei solcher Bildgeneratoren, die heuer vorgestellt wurden. Ersterer – benannt nach einer Kombination aus dem Pixar-Filmroboter Wall-E und dem Surrealisten Salvador Dalí – ist seit wenigen Wochen für alle auch ohne Warteliste verfügbar. Und das Internet geht gefühlt über mit den quadratischen Bildern, die Nutzer damit generiert haben. Besonders beliebt: Verspielte Kunstgeschichte-Schmähs (etwa der Superheld Deadpool mit Ballettröckchen im Stil von Van Gogh) und detailreiche Renderings von Fantasy-Landschaften, die aus einem Computerspiel stammen könnten.

Malen nach Zahlen: KI-Bildgeneratoren

Dall-E 2. Die zweite Generation des Programms Dall-E kam heuer heraus und ist seit September für alle verfügbar. Es wurde anhand von Millionen Bildern im Internet trainiert. Dahinter steckt das von Elon Musk mitgegründete US-Unternehmen Open AI (er stieg 2018 aus).

Midjourney. Betrieben vom gleichnamigen Forschungslabor, steckt das Tool noch in der Beta-Phase und kann nur über einen Bot auf der Plattform Discord angesteuert werden.

Stable Diffusion. Der Quelltext dieses Programms ist offen verfügbar. Die Technik dahinter wurde an der Universität München entwickelt.

Doch neben den KI-Motiven geistern auch Bekundungen der Sorge und Wut durch das Netz. In der Kunst- und Kreativbranche fürchten einige, dass ihre oft ohnehin schon prekäre Berufssituation noch schwieriger werden könnte, wenn jeder Amateur auf Knopfdruck komplexe Bilder schaffen kann. Und dabei womöglich auch noch ihren Stil kopiert. „Dieses Ding will unsere Jobs“, twitterte der Film- und Spiele-Illustrator RJ Palmer im August über Stable Diffusion und monierte, dass die Software anhand der Kunstwerke echter, lebender Künstler geschult werde. Als Ende August der Brettspielentwickler Jason Allen einen Kunstwettbewerb in Colorado gewann mit einem Bild, das er mithilfe von Midjourney geschaffen hatte, war die Aufregung groß. Und das, wo er den Einsatz des Programms stets offengelegt hatte.

„Wie ein sehr cleverer Photoshop-Pinsel“

Dass eine KI per se zur Konkurrenz für Künstler und Illustratoren werden könnte, glaubt Hidéo Snes nicht. Snes lebt in Wien, beschäftigt sich künstlerisch und forschend mit künstlichen Intelligenzen. Und meint: Die Handarbeit der künstlerischen Komposition könnten KIs nicht ersetzen. Da sie im Grunde nach dem Zufallsprinzip „Entscheidungen“ treffen, könne man mit ihnen nicht gezielt inszenieren. „Eine KI ist nur dann sinnvoll, wenn man bewusst auf den Zufall setzen will.“ Oder wenn die genaue Ausgestaltung eines Bildes gar keine Rolle spielt – etwa bei generischen Stock-Fotos, wo es nicht um jedes Detail geht. Tatsächlich will die Plattform Shutterstock künftig auf Knopfdruck generierte Bilder anbieten.

Für Künstler seien KI-Anwendungen eher ein Werkzeug: „Wie ein sehr cleverer Photoshop-Pinsel.“ Diesen hat Snes selbst eingesetzt – und etwa ein KI-Modell gebaut, das Selfies in Drag-Porträts umwandelt, dabei Stil und Bilderwelten verschiedener Maler nachahmt. Etwa von Frida Kahlo. Dass die Maschine das mitunter mit allgemeiner mexikanischer Volkskunst „verwechselte“, findet Snes spannend: „Das ist fast schon intuitiv.“ In einem anderen Projekt lässt Snes eine KI Menschenkörper abbilden, dabei aber alle Aspekte ausblenden, die einen Genderbezug haben. Übrig bleiben „wild anmutende Fleischmassen und Organe“. Damit thematisiert Snes auch etwas, das Bildgeneratoren oft vorgeworfen wird: eine Voreingenommenheit, nicht nur in Geschlechterfragen. Die Programme „lernen“ schließlich anhand von hunderten Millionen bestehender Bilder – und reproduzieren damit auch Stereotype.

Teletubbies auf dem Laufsteg

So manche Schwäche der Maschinen findet Maximilian Prag interessant. Der 25-Jährige studiert Grafikdesign und Transmediale Kunst an der Angewandten, kreiert Videos sowie Musik mithilfe von KI – und testet gerne die Grenzen von Dall-E 2 aus. So hat er Teletubbies auf Balenciaga-Laufstege oder ins Berliner Berghain versetzen lassen. Wie gruselig verzerrt ihre Gesichter dabei wurden, fasziniert ihn: „Was Dall-E 2 so spannend macht, ist, wie kindlich und falsch die Prompts interpretiert werden.“ Sein Zugang ist vor allem, Inspiration zu schöpfen: „Schauen, was passiert.“

Dall-E im Test: Groteske Gesichter

Probieren wir es also selbst aus. Ein Account ist schnell erstellt, schon tippen wir die erste Textanweisung, genannt Prompt, in ein weißes Feld: Bitte einen Dinosaurier, der auf einer Picknickdecke „Die Presse“ liest. Vier Varianten spuckt Dall-E 2 aus, alle sind enttäuschend. Mit dieser Zeitung hat jene auf dem Bild keinerlei Ähnlichkeit, so präzise geht's wohl nicht. Die Saurier sehen aus wie schlecht modellierte Plastikfiguren. Ein Bild zeigt gar ein unnatürliches, felliges Nagetier.

Halten wir uns lieber an die Kunstgeschichte. Wie würde Klimt wohl die Mona Lisa malen? Und wie würde es aussehen, wenn er diese gemeinsam mit seiner goldenen Adele in ein Tretboot setzt? Typisch goldig und spiralig, meint man auf den ersten Blick, auch wenn den Bildern jegliche Detailtiefe fehlt, die beiden Figuren nicht identifizierbar sind – und nicht in einem Tretboot sitzen, sondern einem Ruderboot.

Bald lernt man, seine Prompts an die Fähigkeiten der Maschine anzupassen. Aus den Erfahrungen tausender Nutzer sind Onlineratgeber entstanden, aus denen man erfährt, welche Stichworte besonders zielführend sind. „,Der Kuss‘ by Gustav Klimt in the style of The Simpsons“ fördert lustige, wenn auch körperlich etwas missratene Lippenbegegnungen zutage. „A robot painting a picture, style of Andy Warhol, Pop Art“: Eine primitive Zeichnung in vier knallbunten Kacheln.

Schnell wird klar: Mit Gespür und viel Probieren lässt sich da Bemerkenswertes schaffen. Die Schwächen des Programms sind ebenso offenkundig: Unvollständige Körper, groteske Gesichter. Manchmal widersetzt sich die Maschine: Statt auf das geforderte Segway setzt sie eine Ziege auf einen Tretroller. Ist sie bockig oder versteht sie uns nicht? Ein letzter Test für ihr Kunstverständnis: Wir bestellen ein Selbstporträt, „a self portrait of Dall-E“. Sie liefert: Vier (gezeichnete und fotografierte) Selfies von Frauen mit Stirnfransen und großen, traurigen Augen. Ist das, als was sich Dall-E 2 selbst sieht – als Emo-Girl?

„Maschinen haben die Anatomie des Menschen noch nicht verstanden“

„Das Wort Dall-E kennt die Maschine gar nicht“, weiß Mario Klingemann. Der deutsche Künstler hat schon mit KIs gearbeitet, bevor es hip war. Seine Installation „Memories of Passersby I“ von 2018 – mit Bildschirmen, die den Betrachter in Echtzeit als gemaltes Porträt anzeigen – war das erst zweite Werk, das bei einer Auktion versteigert wurde. Jetzt beschäftigt sich Klingemann auch mit den Bildgeneratoren im Netz. „Die Modelle sind schon jetzt sehr gut darin, Oberflächentexturen zu generieren. Wo es noch hakt, ist die Gesamtkonsistenz“, sagt er. Dadurch ergeben sich Hände mit sieben Fingern oder Menschen mit zwei Köpfen: „Da sieht man, dass die Maschinen noch nicht ganz verstanden haben, dass ein Mensch eine gewisse Anatomie hat.“ Auch mit dem Trennen von mehreren Konzepten auf einem Bild haben sie Probleme. „Aber das ist wohl nur eine Frage der Zeit.“

Klingemann reizt die Mischung aus Zufall und Kontrolle: Man versuche, Prompts zu schreiben, die ein gewünschtes Ergebnis liefern – „und gleichzeitig will ich überrascht werden. Das hat etwas Süchtigmachendes.“ Auch für ihn sind KIs ein Instrument. Um damit Kunst zu schaffen, muss ein Mensch am Werk sein. Noch, meint er jedenfalls: Er hat eine KI namens Botto entwickelt, die selbst wiederum Stable Diffusion nutzt, um Bilder zu generieren – nach Prompts, die sie zufällig zusammenwürfelt. Aus dem Urteil menschlicher User „lernt“ sie dann, welche Bilder als Kunst bewertet werden. Durch NFT-Verkäufe habe Botto schon über zwei Millionen Dollar verdient.

Ist Kunst im KI-Verständnis also alles, was Menschen schön finden? Ein Hang zur Gefälligkeit scheint den Bildgeneratoren systemimmanent zu sein. Das ästhetisch Ansprechende dominiert die Lernkataloge, die ihnen zugrunde liegen, das Verhalten der Nutzer dürfte die Maschinen weiter von „sperrigen“ Bildern wegtreiben. Die dominierende Ästhetik der KI-Bilder ist oft nah am Kitsch. Dazu kommt, dass bei Dall-E 2 einige „kontroverse“ Motive verboten sind: Nacktheit, Drogen, Politisches. Künstlerisch Abgründe zu erforschen, ist mit dieser KI nicht erwünscht.

Kann ein Computer kreativ sein?

Bleibt die Frage: Kann das kreativ sein, was Dall-E 2 und Co. leisten? Klingemann hält es mit dem KI-Vordenker Alan Turing. Schließlich, meint er, sei auch das menschliche Denken nur ein Durchgehen von einem Repertoire von Möglichkeiten. „Ich schaffe keine neuen Konzepte in meinem Kopf, die nicht auf etwas aufbauen, was schon drin ist.“ Eine KI könne dabei alles Wissen der Welt anzapfen. „Die kreative Leistung, die eine KI erbringt, hat durchaus Ähnlichkeit mit der kreativen Leistung, die wir Menschen vollbringen.“

("Die Presse", Print-Ausgabe, 13.11.2022)

Lesen Sie mehr zu diesen Themen:


Dieser Browser wird nicht mehr unterstützt
Bitte wechseln Sie zu einem unterstützten Browser wie Chrome, Firefox, Safari oder Edge.