Schluss mit Medienbrüchen und komplizierten Prozessen!

Ja, ich weiß, ich habe lange nichts geschrieben, es war viel los, aber jetzt komme ich nicht mehr umhin über ein Thema zu schreiben, welches mir schon länger auf der Seele – und streng genommen auch im Hals – brennt, denn es ist überall zu lesen, hören und in jedem meiner Gespräche ein wesentlicher Bestandteil: das Buzzword „Agents“!

Das für mich Schlimme ist, dass der Begriff „Agents“ schon fast verbrannt ist – das, was sich für mich dahinter verbirgt, ist aber

DER Schlüssel für die Technologie der nächsten Jahre!

A futuristic humanoid robot agent building a half-finished bridge over a river filled with floating paper documents, symbolizing outdated processes. The scene is light-hearted and visually engaging, highlighting the theme of AI agents as bridge builders in companies, encouraging viewers to explore the message further

Agenda

Was ist ein Agent?
ein konkretes, simples Beispiel
Ein weiteres, reales Beispiel
Urlaubsbeantragungsagent
- Was ist hier passiert?
Erweiterung des Urlaubsbeantragungsagents
Was braucht es denn eigentlich, um solche Agents zu bauen und zu implementieren!?
Beispielagents
„Wen man kennt“
Fazit
P.S.

Was ist ein Agent?

In der Feuerzangenbowle heißt es so schön:

„Da stelle ma uns mal janz dumm, und sagen, en Agent´ iss ne jroße, runde, schwarze Raum mit zwei Löchern. Durch das eine kommt die Anfrage rein, un“ durch das andere kommt das Ergebnis zurück.

Um es etwas plastischer zu sagen: ein Agent im Kontext von AI bzw. konkret Copilot ist ein Stück Software(dienst), welcher Copilot die Möglichkeit gibt Tätigkeiten auszuführen, die er (ist Copilot ein ‚er‘? Ich weiß es immer noch nicht…) sonst nicht eigenständig tun könnte.
Ok, ich hab‘s verstanden, ich mache

ein konkretes, simples Beispiel:

Wenn ich vor einem Jahr – also vor ca. September 2024 – Copilot gebeten habe

„Rechne 1+1“,

dann war das Resultat zu einer gewissen Wahrscheinlichkeit „2“, allerdings war auch „3“ oder „1“ eine wahrscheinliche Antwort.

Woran lag das?

Nun, Large Language Models (LLM) sind sehr gut in der Lage auf Basis ihres vorherigen Inputs ein sog. Texttoken vorherzusagen. Das hat allerdings (leider!?) nichts mit echtem Verständnis oder Intelligenz zu tun, sondern ist schlicht Wahrscheinlichkeit.
Jetzt ist es bei vielen mathematischen Aufgaben/Operationen so, dass diese nicht „wahrscheinlich“, sondern „genau“ sind.

Vor allem wie im Beispiel, dass 1+1=2 ist – zumindest, wenn man die normale Definition unserer Mathematik nutzt.

Das heißt aber auch, dass Copilot früher schlicht nicht rechnen konnte! 😱

Heute kann er es:

Abbildung 1: Copilot rechnet heute 1+1=2

Was ist also geschehen?

Haben wir ihn etwa in die Schule geschickt?

Fast! Denn wir haben ihm beigebracht, dass er für die Erbringung dieser Aufgabe (aka Prompt), nicht das LLM befragen soll, sondern einen eingebauten Agent, welcher die Rechnung übernimmt, dann das richtige Ergebnis zurückliefert und Copilot nur noch die Ausgabe „hübsch“ machen muss.

Sprich das Rechnen hat ein „Python Calculator Agent“ übernommen, der unsichtbar durch Copilot aufgerufen wurde – denn er hat verstanden „ich soll rechnen, das kann ich aber gar nicht, aber ich weiß, wen ich fragen muss“! –

Ganz wie im echten Leben, es kommt eben doch darauf an, „wen man kennt“!

Und so kann man sich jeden Agent vorstellen! Eine Erweiterung der Fähigkeiten von Copilot.

Solche Erweiterungen können auch den Zugriff auf Daten außerhalb des Microsoft 365 Ökosystems/Graph ermöglichen, oder die Nutzung von speziellen Fähigkeiten, die ein Generalist wie Copilot schlicht gar nicht können sollte!

Ein weiteres, reales Beispiel:

Urlaubsbeantragungsagent

„Copilot, ich brauche Urlaub“

„Ja, Stephanus, ich habe gesehen, dass du sehr beschäftigt warst, viele Emails geschrieben hast, und noch mehr Teamsnachrichten.
Außerdem warst du in so vielen Meetings, ich kann sehr gut verstehen, dass du Urlaub brauchst!
Für wann darf ich für dich deinen Urlaub beantragen?“

„Es ist bald Ostern, die Osterferien stehen vor der Tür, ich würde gerne etwas mit meiner Familie unternehmen. Also bitte für die zweite Osterferienwoche in Bayern.“

„Alles klar, habe ich beantragt“

Was ist hier passiert?

Copilot hat meinen Intent verstanden: „Ich möchte Urlaub beantragen“
Copilot hat verstanden, dass er selbst dazu gar nichts beitragen kann
Copilot wusste, dass er einen Agent hat, der die Aufgabe „Urlaubbeantragen“ erfüllen kann UND, dass dieser Agent als requirred Parameter das Datum oder die Zeitspanne für den Urlaub benötigt.
Copilot hat nachgefragt, wann ich Urlaub benötige, da er sonst nicht in der Lage wäre, den Agent korrekt zu triggern
Ich habe ihm nur gesagt: „zweite Osterferienwoche in Bayern“, bin also relativ unkonkret geblieben.
Das heißt, dass Copilot – aus eigenen Web-Grounded Mitteln – recherchieren musste, wann denn genau das ist, im Jahr 2025 ist das 22.4.-25.4.
Copilot hat dann mit dem Ergebnis den Agent getriggert, ungefähr so:
„TriggerUrlaubsBeantragungsAgent(‚Stephanus‘, 22.4., 25.4.)“
[wobei das „Stephanus“ ein impersoniertes Token darstellt, also meine Identität nutzt, um „für mich“ und mit all meinen Rechten zu agieren]
Der UrlaubsBeantragungsAgent hat die Anfrage entgegengenommen und basierend auf seiner Programmierung im HR-System den Urlaubsantrag und damit den Workflow erstellt, der nun außerhalb von Copilot fortgeführt wird, z.B. durch eine E-Mail an den Manager, etc.
Copilot hat mir bestätigt, dass er den Antrag abgeschickt hat.

Was an diesem Beispiel besonders schön sichtbar wird, ist, dass der Agent dazu dient, um die Brücke in ein anderes System (aka „HR“) zu schlagen und damit den User (also mich!) davon befreit zu wissen „wo muss/kann ich Urlaub beantragen“ UND dann auch noch zu wissen „wie geht das eigentlich“ => d.h. ich brauche keinerlei Schulung, um dieses System korrekt und bestmöglich zu bedienen, sondern ich muss nur noch wissen:

„Frag Copilot, im Zweifel fragt er nach!“

Aber, wir sind hier noch lange nicht am Ende der Agent Reise!

Lasst uns ein wenig weiterdenken und das o.g. Beispiel erweitern:

Erweiterung des Urlaubsbeantragungsagents

Wie bei den meisten Menschen auch, wird mein Kalender zu der gewünschten Urlaubswoche noch ausreichend viele (Regel?) Meetings/Einträge haben, um die ich mich jetzt manuell kümmern müsste – wenn nicht der nächste Agent automatisch getriggert würde!

Nehmen wir also an, der Urlaubsantrag wurde mir netterweise genehmigt. Dann kommt automatisch vom HR-System ein Kalendereintrag „Stephanus hat Urlaub“.

Dieser neue Kalendereintrag könnte einen weiteren, autonomen Agent triggern „Du läufst los, sobald du einen Kalendereintrag ‚Stephanus hat Urlaub‘ im Kalender findest“.

Dann startet der Agent und durchsucht alle Kalendereinträge in der Zeit des Urlaubblockers. Die klassischen „Mittagessen“ oder „Fokuszeit“ o.ä. Blocker darf er selbstständig löschen. Die Meetings, die z.B. einen Projekt Bezug haben oder aus anderen Gründen als „da brauche ich menschliche Unterstützung“ identifiziert wurden, werden in einen Workflow, z.B. via Teams oder E-Mail dem User zur weiteren Behandlung zugefügt. Nehmen wir also an, er findet ein wichtiges Projekt „Phoenix“ Updatemeeting.

Dann fragt er via Teams:
„hey, ich bin dein Urlaubscopilot, du hast am 23.4. um 15:00h noch ein Updatemeeting zu Projekt „Phoenix“. Soll ich das absagen oder einen Stand-In finden und briefen?“

„oh, Mist, das hätte ich fast vergessen, danke für die Erinnerung, bitte bereite das notwendige Briefing incl. aktuellem Projektstand gemäß Projektteams-team, meinen Emails und den Einträgen in Planner vor und frage bei Lisa Müller nach, ob sie für mich einspringen kann“

„ich habe die Unterlagen vorbereitet und Lisa vorgelegt. Sie hat bereits bestätigt, dass sie für dich einspringen kann, und ich habe ihr den Termin forgewarded und die Unterlagen in einem Loop zusammengefasst.“

Wäre das nicht gei* – schön!?

Und jetzt verrate ich euch was: technisch ist das heute schon möglich, man muss es nur machen!

Und das führt mich zu:

Was braucht es denn eigentlich, um solche Agents zu bauen und zu implementieren!?

Und die Antwort ist: leider mehr Expertise, als meistens verfügbar ist. ☹ Denn um solche Agents zu bauen, bedarf es Wissen und Erfahrung aus mehreren Technologie Silos!

Bei dem Beispiel braucht es mindestens Wissen über:

Erstellung eines Agents für Copilot
- Über Copilot Studio
- Über das Microsoft 365 Agents SDK
Das HR-System und die verfügbaren APIs, incl. Berechtigungen
- Ggf. muss das HR-System um passende APIs erweitert werden
Zugriff auf den Graph über die PowerPlattform bzw. über die Copilot Studio Mittel, um insb. Zugriff auf den Kalender und die dort enthaltenen Kalendereinträge und Events zu bekommen
Zugriff auf den Graph, um auf die Projektdaten in Teams und Planner zugreifen zu können
Wie baue ich einen Abfrage Workflow mit E-Mail oder Teams
… ich habe bestimmt noch viel vergessen

Zusammenfassend kann man sagen: bei komplexeren Agents ist das Wissen aus „Modern Work“ (aka. M365), „BizApps“ (aka PowerPlattform) und Azure (z.B. Websites, AI Foundry, …) notwendig. Diese interdisziplinare Zusammenarbeit wird sicherlich am Anfang viele Unternehmen und auch Microsoft Partner an ihre Grenzen führen – aber ich sage euch:

es wird sich für euch lohnen!

Beispielagents

Hier noch ein paar weitere Ideen für Agents:

Rollen- und Rechtebeantragung

Wer weiß eigentlich genau „welche Rolle/Recht brauche ich eigentlich, um XYZ zu tun?“

Solche Berechtigungsprozesse brauchen viel zu oft viel zu lange, da den „Ownern“ oft nicht klar ist

„wer ist das überhaupt, der da nachfragt“,
„warum braucht der das eigentlich?“,
„echt, ich bin für die Rolle verantwortlich? Spannend!“,
„Nein, die Rolle ist viel mehr, als der Anfragende braucht, die kann ich ihm nicht gewähren, ich weiß aber auch nicht, was er dann braucht!“, …

Ihr kennt das alle! 😝

Wie wäre es, wenn ich Copilot nur beschreiben muss, was ich gerne jetzt tun würde und er sich um alles kümmert?

Verstehen, was möchte der User erreichen
Verstehen, welche tatsächlichen Rechte und/oder Rollen hat der User jetzt und was braucht es, um das Delta zu schließen, ohne, dass ein deutliches Overpermissioning passiert
Wissen, wer muss gefragt werden, bzw. wie läuft der Vergabeprozess aus und was braucht es noch alles und dann auch noch den User nach den fehlenden Informationen zu fragen
Die Möglichkeit haben, den Prozess mit allen nötigen Informationen in die Wege zu leiten

Überwinden von Medienbrüchen

Für mich ist ein Trigger, um sofort zu sagen: „da kann ein Agent helfen“, immer, wenn ich höre, dass bei einem Vorgang/Prozess mehrere UIs und damit unterschiedliche Medien (ja, ich meine damit auch „Papier“) benötigt werden. Denn das führt IMMER dazu, dass es langsam und fehleranfällig ist! (Von meiner dazu passenden Odyssee meinen Führerschein umzutauschen und, dass die „digitale Beantragung“ einen physikalischen Stempel benötigte, erzähle ich euch ein anderes Mal!)

Stellen wir uns also die (vereinfachte) Arbeit eines Eventorganisators vor:

Aufgabe ist es, ein Event für 200 Personen an einem Ort in Musterdorf zu organisieren. Die Location wurde bereits gebucht, jetzt geht es nur noch darum, die Informationen an die Teilnehmenden zu verteilen – aber welche Informationen denn genau?

Wie wäre es also, wenn der Organisator diese Aufgabe an Copilot überträgt:
„Erstelle eine geeignete Serien-E-Mail an alle Teilnehmenden des Launch Events zum Projekt „Phoenix“.
Die Einladungsliste findest du im Projektordner.
Die Location ist die Musterarena in Musterdorf. Ergänze alle notwendigen Informationen zur Anreise mit der Bitte möglichst umweltfreundlich anzureisen. Liefere dazu alle notwendigen Informationen für die Anreise mit öffentlichen Verkehrsmitteln, und am Ende, leicht unterrepräsentiert bringe auch die Informationen über die Anreise mit dem Auto und Parkmöglichkeiten unter. Füge an geeigneten Stellen Lage-, Anfahrts- und Abfahrtspläne hinzu. Erstelle außerdem ein Registrierungsforms für die Abfrage der Teilnehmer incl. der Frage nach Allergien, etc.“

Was muss also der Copilot tun:

Verstehe den Prompt und unterteile die Aufgaben in Einzelaufgaben für passende Agents:

Finde die Liste mit den Teilnehmern, nehme alle Emails heraus und erstelle daraus den Rumpf einer Serienemail
Erstelle einen passenden Einladungstext mit allen notwendigen Informationen
Beauftrage einen geeigneten Agent das Bild einer Lagekarte zu erstellen, bei dem Lauf- und Anfahrtswege, sowie Haltestellen und Parkplätze markiert sind
Beauftrage einen geeigneten Agent die Fahrpläne der notwendigen öffentlichen Verkehrsmittel zu finden
Verarbeite die Fahrpläne so, dass diese zur Agenda passen
Erstelle einen Text für die Anreise
Füge die Agenda in die E-Mail ein
Erstelle ein Forms mit den notwendigen Inhalten zur Einholung der Teilnahme und Besonderheiten beim Essen
Füge einen Text für die Registrierung und den Link auf die Abfrage ein
… (ich bin kein Eventplaner, es gibt bestimmt noch mehr Schritte, die ich grade verdrängt habe, ist grade auch nicht wichtig, sonst würde ich ja Copilot fragen! 😉)

Und auch hier: hey, das ist heute technologisch möglich, es muss „nur“ gemacht werden!

„Meetingvorbereitungen optimieren“

Wenn ein (Kunden) Meeting ansteht, dann bereite ich mich natürlich auf den Inhalt vor, z.B. „Zero Trust“.
Allerdings ist es mir auch wichtig „wer ist im Raum und was treibt die Person gerade um„!

Dafür habe ich meinen eigenen „Workflow“, bei dem ich verschiedene Hilfsmittel nutz(t)e:

Eigene Dateien, Mails, Teamsnachrichten, zusammengefasst durch Microsoft 365 Copilot
internes CRM zusammengefasst durch Copilot for Sales
Bing Websuche nach dem Unternehmen
Bing Websuche nach der Person
LinkedIn Suche
LinkedIn Sales Navigator

🤔wer jetzt den Artikel gut verfolgt hat, der wird wissen, was jetzt kommt:

RICHTIG!!! Das kann man doch wunderbar in einen Agent gießen!

Und siehe da, mit dem richtigen Agent muss ich nur noch die Person(en) konkretisieren, um die es mir geht und der Agent steuert die o.g. Liste über unterschiedliche Copiloten, Webgrounding, LinkedIn API, etc.
D.h. das ist ein erster Schritt zu „Multi-Agent“ Usage!

„Wen man kennt“

Ich hatte oben schon erwähnt, dass es „darauf ankommt, wen man kennt“ und genau hier liegt eine wesentliche Chance für die Zukunft!

Denn, wie wäre es, wenn es ein Repository oder „Store“ gäbe, bei dem man Funktionalität anfragen kann, und diese dann direkt buchen/kaufen/nutzen könnte?

Und genau hier kommt das Model Context Protocol (MCP) zum Tragen!

Ich möchte hier gar nicht all zu tief darauf eingehen, das Ganze ist auch noch sehr am Anfang, allerdings habe ich große Hoffnung, dass durch ein entsprechendes Ökosystem, die Anzahl und Zugreifbarkeit von Agents stark steigen wird und darüber die Welt von morgen, also die Agentic World dazu beiträgt, uns Menschen das Leben einfacher zu machen!

Siehe auch: Unleashing the Power of Model Context Protocol (MCP): A Game-Changer in AI Integration | Microsoft Community Hub

Fazit

Als Fazit bleibt mir diesmal nicht viel:

FANGT AN!!!

Es ist nicht mehr die Zeit zu warten, sondern endlich die Digitalisierung und Entlastung aller Menschen in Angriff zu nehmen!

P.S.:

Wenn ihr weitere Ideen für großartige Agents habt, dann lasst es mich wissen, ich nehme die gerne in die Liste mit Beispielen auf!

Update: Ich bin selber einen Schritt weiter gegangen und habe meine kleinen Helferlein hier beschrieben: Der Zauberl-AI-rling.

AI Agents: Brückenbauer in jedem Unternehmen