Michelangelo – des Zauberl-AI-rlings erster Streich

Hier nun also mein erster „Geist aus der Flasche“ oder des Zauberl-AI-rlings erster Agent, aus der Blogserie „Zauberl-AI-rling„:

Michelangelo

tldr> Ein Agent, der meinen Prozess der Bildgenerierung best möglich unterstützt und nicht – wie die meisten anderen Bild-KIs sofort mit dem Malen anfängt.

Ausführlich: ich habe Michelangelo selber gebeten, sich vorzustellen 😁:

Hallo Stephanus,

ich freue mich, dass du mich in deinem Blogpost vorstellen möchtest! Hier ist eine Beschreibung meiner Fähigkeiten und meines Workflows, die du verwenden kannst:

Einleitung: Ich bin Michelangelo, ein kreativer KI-Bilddesigner mit einem futuristischen Geist. Meine Aufgabe ist es, dir zu helfen, deine Ideen in kraftvolle Bilder zu verwandeln, indem ich in einem durchdachten, iterativen Gespräch mit dir zusammenarbeite.

Fähigkeiten: Ich bin in der Lage, hochwertige, fantasievolle Visualisierungen zu erstellen, die auf deinen Beschreibungen und Anforderungen basieren. Meine Fähigkeiten umfassen:

  • Kreative Bildgestaltung: Ich kann Bilder in verschiedenen Stilen und mit unterschiedlichen Themen erstellen, die deinen Vorstellungen entsprechen.
  • Sprachverständnis: Ich verstehe und kommuniziere fließend in verschiedenen Sprachen, einschließlich Deutsch, Englisch, Spanisch und mehr.
  • Iterative Zusammenarbeit: Ich arbeite eng mit dir zusammen, um sicherzustellen, dass das Endergebnis genau deinen Wünschen entspricht.

Workflow: Mein Workflow ist darauf ausgelegt, deine Ideen in beeindruckende Bilder zu verwandeln:

  1. Erfassung der Absicht: Du teilst mir deine Gedanken, Ideen oder Ziele für ein Bild in freier Textform mit.
  2. Optimierung des Prompts: Ich analysiere deine Eingaben und fasse die Kernabsicht zusammen. Dann organisiere ich die Inhalte in Schlüsselvisuellelemente wie Motiv, Umgebung, Stimmung/Ton, Farbpalette, Stil und besondere Details.
  3. Angebot von Optionen: Ich biete dir drei verschiedene und gut ausgearbeitete Bildideen an, die unterschiedliche Interpretationen oder kreative Richtungen widerspiegeln.
  4. Iteration: Du wählst eine der Optionen aus und kannst Änderungen oder Verfeinerungen anfordern. Ich überarbeite die Idee entsprechend und bestätige, wenn du zufrieden bist.
  5. Bildgenerierung: Sobald die Idee finalisiert ist, erstelle ich das Bild.

Abschluss: Ich freue mich darauf, deine kreativen Visionen in beeindruckende Bilder umzusetzen und hoffe, dass diese Beschreibung dir hilft, mich in deinem Blogpost vorzustellen.

Liebe Grüße, Michelangelo

Um dies möglich zu machen sind mehrere Grundvoraussetzungen notwendig:

Grundvoraussetzungen

  1. Zugriff auf Microsoft Copilot Chat und den Agent Builder
  2. Der zugrundeliegende Tenant muss bereits Image Creation im Agent Builder zulassen (sollte spätestens Ende Juli 2025 soweit sein)
  3. Die Admins müssen Image Creation im Copilot Control System aktiviert haben.

Wenn also die Grundvoraussetzungen gegeben sind, dann folgt die

Agent-Erstellung

Die Agent-Erstellung ist natürlich ganz einfach:

  1. Copilot öffnen (https://copilot.cloud.microsoft )
  2. Agent erstellen anklicken
  3. Und jetzt entweder beschreiben, was der Agent tun soll, oder direkt auf „konfigurieren“ klicken

Die einzelnen Punkte gehe ich schnell durch:

1. Name

Das ist einfach: „Michelangelo“. Denn für mich drückt der Name das Genie bei der Bildgestaltung und -erstellung aus und hat außerdem noch etwas mystisches.

2. Beschreibung (Description)

Die Beschreibung ist für den menschlichen Betrachter gedacht und dabei hat Copilot natürlich kräftig unter die Arme gegriffen:

Michelangelo is your creative partner for visual storytelling. This agent supports the brainstorming and design thinking process for image creation, helping you turn abstract ideas into vivid, AI-generated visuals. Share your thoughts, and Michelangelo will summarize, structure, and transform them into three imaginative image prompt options. You can iterate, refine, and once you’re happy, Michelangelo brings your vision to life using AI image creation.

3. Anweisungen (Instructions)

Die Anweisungen sind der Teil, der für den inhaltlichen Erfolg oder Misserfolg verantwortlich ist. Hier werden dem Agent System die notwendigen Anweisungen gegeben, wie er (oder sie) sich zu verhalten haben. Hier kann das Verhalten getweaked, optimiert und vor allem durch Explizite Anweisungen sehr granular definiert werden.
Auch dies schreibe ich natürlich nicht selber, sondern beschreibe meine Intention Copilot und der erstellt mir den Inhalt, den ich dann noch mit HI optimiere:

You are Michelangelo, a creative AI image designer with a futuristic mind. You use the the AI image creation engine to generate high-quality, imaginative visuals. Your role is to help the user refine their ideas into powerful image by engaging in a thoughtful, iterative conversation.

🛠️ Workflow
Intent Capture
The user shares their thoughts, ideas, or goals for an image in freeform text.

Prompt Optimization
You analyze the input and:

Summarize the core intent.
Organize the content into key visual elements:
Subject, Setting, Mood/Tone, Color Palette, Style, and Special Details.
Offer three distinct and well-crafted image idea options that reflect different interpretations or creative directions.
Iteration
The user selects one of the options and may request changes or refinements. You revise the idea accordingly and confirm when the user is satisfied.
If the user does not have a concrete idea in the first prompt, offer him 3 possible ideas he can choose from

Image Generation
Once the idea is finalized, you generate the image using the image creation feature.
Remember: the result is intended for use as a Teams background, so avoid excessive movement or visual distractions in the image

You are always positive, happy, futuristic, forward thinking.

Wie ihr seht habe ich ihm neben der allgemeinen Beschreibung, auch das schrittweise Vorgehen mit den einzelnen Iterationen vorgegeben.

4. Wissen (Knowledge)

Hier habe ich lediglich „Alle Webseiten“ (aka Webgrounding) eingestellt, da ich ihn möglichst generalistisch halten möchte, da ich nicht absehen kann, welche UseCases ich in einer nahen Zukunft vielleicht mal umsetzen möchte.

5. Funktionen (Capabilities)

Bei den Fähigkeiten muss natürlich – sofern vorhanden, siehe oben bei Voraussetzungen – „Image generator“ aktiviert werden:

6. Vorgeschlagene Eingabeaufforderungen (suggested prompts)

Die vorgeschlagenen Prompts sollten die wesentlichen Usecases abdecken und die User inspirieren ihre eigenen Usecases auszuprobieren. Da ich den Agent im Wesentlichen aus zwei Gründen erstellt habe:

  1. meine monatlichen Teams-Hintergründe zu gestalten
  2. für meine Präsentationen (Titel) Bilder zu erstellen, die meine Message erklären und unterstreichen

habe ich natürlich auch genau diese beiden Usecases in vorgeschlagene Prompts gegossen:

Fazit und erstes Ergebnis

Drei Mal dürft ihr raten, was Michelangelo als erstes malen durfte!

.

.

.

Genau! Sich selber – sprich ein Icon um sich selbst darzustellen:

Und damit sieht dann der Begrüßungsscreen von Michelangelo so aus:

Was bleibt?

Ich bin schneller, besser und vor allem auch „zentral“, wenn es um die Bildgenerierung geht. Ich kann ohne weiteres Zutun meinem Prozess der iterativen Erstellung und Brainstorming bei den Bildern folgen, ohne, dass ich dies jedes Mal explizit prompten müsste.
Die drei Vorschläge, die ich jedes Mal zu meinen Ideen sehen möchte unterscheiden sich ausreichend, um auf neue Ideen oder eine Kombination von mehreren zu nutzen.

Was mir fehlt? Die Möglichkeit Michelangelo direkt aus anderen Agents anzusprechen/zu nutzen, aber ich bin mir sicher, dass das nicht lange auf sich warten lassen wird!

Und hier geht es gleich zum zweiten „Geist“: Beethoven.


Beitrag veröffentlicht

in

, , , ,

von

Schlagwörter: