Stable Diffusion: So erstellst du Bilder mit KI

Katzen, Ritter oder Donald Trump in einem Actionspiel: Stable Diffusion ist ein Text-zu-Bild-Generator, der Bilder per KI erstellt. Wir haben ihn getestet und zeigen wie du das auch kannst.

Stable Diffusion: So erstellst du Bilder mit KI

Sogenannte Text-zu-Bild-Generatoren wie Dall-E 2 oder Imagen von Google liegen momentan im Trend. Sie nehmen Texte, Stichwörter oder ganze Sätze als Input und generieren damit per künstlicher Intelligenz ein Bild. Ein weiterer Generator namens Stable Diffusion macht momentan die Runde, weil er gezeigt hat, dass er gute Ergebnisse liefern kann und in der Basisversion kostenlos ist. Wir haben ihn ausprobiert und zeigen dir, was du brauchst, um das auch zu tun:

So kannst du Stable Diffusion selbst ausprobieren

Die wahrscheinlich einfachste Methode ist es, den Generator im Browser per DreamStudio zu nutzen. Dafür gehst du einfach auf https://beta.dreamstudio.ai/ und erstellst dir einen Account beziehungsweise loggst dich ein. Ein kleines Tutorial erklärt dir dann, wie das Interface funktioniert. 

Ich würde dir raten, vorher den Promt-Guide durchzulesen, damit du keine deiner Gratis-Bilder verschwendest. Die sind nämlich auf rund 150 Standardbilder begrenzt. Zum Ausprobieren reicht das aber locker aus. Reicht dir das nicht, kannst du einen kostenpflichtigen Account nutzen oder Stable Diffusion auf deiner eigenen Hardware laufen lassen.

Das geht am einfachsten mit der NMKD Stable Diffusion GUI, die von einem Reddit-Nutzer entwickelt wurde. Diese kannst du auf dieser Webseite herunterladen. Danach extrahierst du die Dateien in einen Ordner. Allerdings keinen geschützten Ordner und auch nicht in deine Programm-Dateien. 

Dann führst du auf Windows die Datei StableDiffusionGui.exe aus und folgst den Anweisungen des Programms. Bedenke, dass das Programm im jetzigen Stand nur mit einer Nvidia-Grafikkarte mit mindestens 10 Gigabyte Speicher funktioniert. Auf AMD-Karten läuft es in dieser Version nicht. 

Ist es wirklich so einfach, Kunst zu erstellen? 

Was mit Stable Diffusion möglich ist, zeigt zum Beispiel dieser Twitter-Nutzer, der eine Zeitreise durch die Menschheitsgeschichte mit Katzen generiert hat:

Deine Zustimmung zur Anzeige dieses Inhalts

Um diesen Inhalt von Twitter ansehen zu können, benötigen wir deine einmalige Zustimmung. Bitte beachte dabei unsere Datenschutzbestimmungen und die Datenschutzhinweise von Twitter. Über die Cookie-Einstellungen (Link in der Fußzeile) kannst du die Einwilligung jederzeit widerrufen.

Viele weitere Beispiele findest du in der Bibliothek von Lexica. Die zeigt Bilder, die mit Stable Diffusion erstellt wurden und gibt die “Promts” an, welche genutzt wurden. Also die Texteingaben, um das Bild zu erstellen. 

Viele der Bilder sehen echt beeindruckend aus, manche sogar realistisch. Da stellen wir uns natürlich die Frage, ob es mit dem Text-zu-Bild-Generator wirklich so einfach ist, gut aussehende Bilder zu erstellen. Uns als Redaktion würde das zum Beispiel die Suche nach Bildern für unsere Beiträge sparen, da wir sie schlicht per Texteingabe generieren könnten. 

Für unseren Testlauf haben wir Stable Diffusion via DreamStudio genutzt. Du kannst die KI auch auf deinem eigenen Rechner laufen lassen, dafür brauchst du aber momentan noch eine Nvidia-Grafikkarte mit mindestens 10 Gigabyte Speicher. Da ich momentan nur mein Ultrabook mit integrierter Intel Iris Xe zur Verfügung habe, habe ich die Browser-Version getestet.

Im Grunde nutzt du den Generator hier wie auf dem eigenen PC. Der Unterschied ist, dass das Angebot nicht ganz kostenfrei ist. Nach der ersten Anmeldung bei DreamStudio bekommst du ein Kontingent an rund 150 Bildern, die du generieren kannst. Für weitere Bilder musst du zahlen. Läuft die KI auf deiner eigenen Hardware, kannst du sie kostenfrei nutzen. 

Bei der DreamStudio-Version kannst einstellen, wie hoch und breit das Bild sein soll – und wie konzeptuell nah an der Eingabe. Du kannst der KI also gewisse “künstlerische Freiräume” einräumen. Außerdem stellst du ein, in wie vielen Schritten das Bild generiert wird. Hier führen mehr Schritte generell zu einem besseren Resultat. 

Dazu stellst du ein, wie viele Bilder gleichzeitig generiert werden sollen und welcher Sampler verwendet wird. Für Anfänger wie mich gibt es dort auch einen “Promt Guide”. Dieser gibt Tipps und Anweisungen, mit welchen Prompt der Generator am besten arbeiten kann. 

Das ist bei uns herausgekommen 

Für den Test habe ich insgesamt rund 100 Bilder generieren lassen und die Ergebnisse möchte ich euch natürlich nicht vorenthalten. Die ersten Bilder, die ich generiert habe, waren schlicht unbrauchbar. Das lag aber hauptsächlich daran, dass ich einfach intuitiv Prompts wie “Mann mit Ball” oder “Frau im Park” eingegeben habe. 

Nachdem ich mir den Prompts-Guide zu Gemüte geführt und einige Prompts von Lexica ausprobiert habe, waren die Ergebnisse schon ansehnlicher. Einige Bilder waren sogar sehr gut, wie diese kleine Auswahl: 

Meinem Eindruck nach kann Stable Diffusion am saubersten arbeiten, wenn die Software keine Gesichter, weder von Menschen noch von Tieren, darstellen muss. Hier ergeben sich oft Ungereimtheiten. Andere Bilder sehen auf den ersten Blick gut aus, haben aber offensichtliche Fehler, wie der Panda mit drei Ohren oder das Reh mit dem langen Hals und einem etwas merkwürdigen Geweih:

Auch der Laden für Elektronik sieht auf den ersten Blick gut aus, es fehlen aber die Details. Absolute Reinfälle gab es bei meinem Test keine. Mit einigermaßen vernünftigen Eingaben kamen immer Bilder heraus, die zumindest ansehnlich waren. 

Vor allem bei menschlichen Gesichtern hat die KI allerdings Probleme mit den Proportionen, oft sind Gesichter auch einfach verschmiert wie auf diesen Bildern: 

Ein oder zweimal kam es auch vor, dass das Bild komplett verschwommen war, also einfach nicht scharf. Das ist natürlich gerade dann ärgerlich, wenn du für den Service zahlst. 

Fazit 

Zumindest nach einem ersten Test von Stable Diffusion mit rund 100 Bildern kann ich sagen, dass die KI noch nicht so weit ist, dass sie auf Knopfdruck realistische Bilder erzeugen kann. Die Qualität der Bilder schwankt außerdem stark. Manchmal wunderte ich mich, wie gut das Bild tatsächlich aussieht, andere Male fragte ich mich, was ich da für ein Monster erschaffen habe. 

Generell finde ich es aber erstaunlich, was die KI leisten kann. Vor allem vor dem Hintergrund, dass der Input von mir und anderen, die die KI nutzen, oft minimal ist. Die KI muss nicht nur verstehen, welche Wörter ich dort eintippe, sondern sie auch in Zusammenhang setzen. 

Dieser KI-erstellte Ritter hat ein merkwürdiges Schwert an der Schulter. Solche Fehler kommen manchmal vor.

Wenn ich ein Bild mit einem “Ritter mit Schwert” von der KI wünsche, muss diese wissen, was ein Ritter ist, was ein Schwert ist und auch was ein Ritter üblicherweise mit einem Schwert macht. Hält er es zum Beispiel in der Hand oder trägt es in der Scheide? Die KI scheint mit solchen Informationen gut umgehen zu können. 

Da Stable Diffusion kostenlos ist, solltest du den Generator auf jeden Fall einmal ausprobieren, wenn du dich für das Thema interessierst!

Neue Beiträge abonnieren!

Täglich frisch um 17 Uhr im Postfach

Themenauswahl

Änderungen jederzeit über die Abo-Verwaltung möglich – weitere Themen verfügbar

Jetzt kommentieren!

Schreibe einen Kommentar

*
*
Bitte nimm Kenntnis von unseren Datenschutzhinweisen.