Basiswissen KI · 377 Wörter · Georg Roch
Was ist MCP?
Model Context Protocol (MCP) ist eine Technik/ ein Standard, der es KI-Agenten ermöglicht, wirklich Dinge zu erledigen – indem sie sicher und geordnet mit anderen Programmen sprechen.
Kurz gesagt
- MCP gibt der KI kein chaotisches “Vollzugriffs-Recht”, sondern ein klar definiertes Menü an erlaubten Aktionen.
- Beispiele für Systeme/Apps: Gmail, Google Kalender, Notion, Odoo u. v. m.
Warum das wichtig ist (Kontext: LLMs)
Wenn du die Kapitel davor gelesen hast, weißt du: Die Sprachmodelle, die wir hier als Grundlage verwenden, sind im Kern Token-Vorhersager.
Der entscheidende Trick:
- Um diesen Token-Vorhersager herum baut man ein System,
- das bestimmte vorhergesagte Textausgaben nicht als normalen Text behandelt,
- sondern als Befehl an ein Werkzeug (Tool).
Wie Tool-Nutzung praktisch funktioniert
ChatGPT oder dein Hermes Agent kann nicht “einfach so” in deinen Kalender schauen. Aber das LLM kann z. B. so etwas erzeugen wie:
„Nutze das Kalenderwerkzeug. Suche Termine morgen zwischen 9 und 18 Uhr.“
Oder technisch strukturierter (z. B. als JSON). Wichtig: Das ist am Ende nichts anderes als eine eindeutige Verpackung derselben Absicht.
Ablauf als Kette:
- Du fragst nach Terminen morgen.
- Das LLM “entscheidet”: Ich brauche das Tool „Kalender-Suche“.
- Das System/ die App drumherum erkennt: Das ist ein Tool-Aufruf, keine normale Antwort.
- Die App ruft wirklich den Kalender ab und bekommt Ergebnisse zurück (z. B. eine Liste von Events).
- Das LLM liest diese neuen Infos und formuliert daraus die Antwort.
Wo MCP ins Spiel kommt
Ohne MCP müsste jede App selbst bauen/ pflegen:
- Wie rede ich mit Gmail?
- Wie rede ich mit Notion?
- Wie rede ich mit Google Kalender, Outlook usw.?
Wenn dagegen die Gegenseite (z. B. eine Kalender-App) einen MCP-Server anbietet, passiert Folgendes:
- Die App sagt dem KI-Agenten: „Hier ist mein Menü an Funktionen – nutzbar, wenn du legitimiert bist.“
- Beispiel-Menüpunkte: Events suchen, Events erstellen, Einladungen annehmen/ablehnen, Events löschen, Events verändern, …
Damit hat das LLM ein Werkzeugmenü, und es kann (bei gutem Modell) sehr gut vorhersagen:
- welches Tool jetzt passt,
- welche Eingaben nötig sind,
- ob der User noch etwas klären muss,
- ob noch ein weiteres Tool nötig ist,
- und wie das Ergebnis zu interpretieren ist.
Am Ende:
- Das LLM sagt den nächsten sinnvollen Schritt voraus.
- Die Umgebung führt bestimmte Schritte aus.
- Das Ergebnis kommt zurück – und die nächste Vorhersage/Antwort entsteht.