Agentic AI im Fokus: Wie wir autonome KI-Agenten steuern und für sie optimieren

AIRouter 2026年6月20日 5 分钟阅读 1 次浏览

小葵API服务的 AI API 使用建议

小葵API服务面向需要 OpenAI 兼容接口、Claude/Gemini/GPT 多模型切换、包月额度管理和图像模型调用的用户。阅读本文后，可以结合本站的模型清单、独立使用文档和个人面板，把教程内容直接落到实际调用流程中。

Die Ära der rein chatbasierten KI neigt sich dem Ende zu. Heute erleben wir den Aufstieg von Agentic AI – autonomen Systemen, die auf Basis von Large Language Models (LLMs) selbstständig Werkzeuge aufrufen, Daten manipulieren, Software installieren und über Organisationsgrenzen hinweg mit anderen Agenten interagieren.

Dieser Wandel bringt jedoch zwei fundamentale Herausforderungen mit sich:

Sicherheit und Governance: Wie stellen wir sicher, dass ein autonomer Agent die Richtlinien eines Unternehmens einhält?
Usability und Effizienz: Wie müssen wir unsere Softwarebibliotheken und APIs gestalten, damit Agenten sie optimal nutzen können?

Zwei aktuelle Entwicklungen – ein neues wissenschaftliches Paper zur Laufzeit-Governance und ein detaillierter Benchmarking-Ansatz von Hugging Face – liefern darauf zukunftsweisende Antworten.

1. Governance zur Laufzeit: Warum klassische Zugriffskontrolle nicht ausreicht

Wenn ein KI-Agent die Berechtigung erhält, APIs aufzurufen oder Code auszuführen, reichen klassische Sicherheitskonzepte wie Authentifizierung und einfache Zugriffskontrolle (Access Control) nicht mehr aus. Ein Agent benötigt ein detailliertes Regelwerk darüber, was er tun darf (Permissions), was verboten ist (Prohibitions) und was er nach einer bestimmten Aktion tun muss (Obligations).

In ihrem aktuellen Paper "Deontic Policies for Runtime Governance of Agentic AI Systems" (arXiv:2606.19464) weisen die Forscher um Anupam Joshi darauf hin, dass etablierte Policy-Engines wie Rego, XACML oder Cedar diese Anforderungen nicht abbilden können. Sie unterstützen meist nur die reine Erlaubnis/Verbot-Logik (Permit/Prohibit).

Die Lösung: AgenticRei

Die Autoren schlagen AgenticRei vor, ein Framework, das auf einer deontischen Policy-Sprache basiert. Deontische Logik befasst sich mit Pflichten, Erlaubnissen und Verboten.

Pflichten-Lebenszyklus (Obligation Lifecycle): Definiert Folgemaßnahmen. Wenn ein Agent beispielsweise sensible Daten exportiert, ist er verpflichtet, den Chief Information Security Officer (CISO) zu benachrichtigen.
Ausnahmeregelungen (Dispensations): Legen fest, unter welchen genauen Bedingungen eine Pflicht ausgesetzt werden kann.
Konfliktlösung (Meta-Policy Conflict Resolution): Regelt, welche Richtlinie Vorrang hat, wenn sich Regeln widersprechen.
Ontologisches Schließen: Ermöglicht semantische Abfragen über Klassenhierarchien hinweg (z. B. in sensiblen Bereichen wie dem Gesundheitswesen).

Das Besondere an AgenticRei: Die Richtlinien werden in OWL (Web Ontology Language) verfasst und von einer leistungsstarken Logik-Engine vollständig außerhalb des LLMs zur Laufzeit ausgewertet. Das schützt das System vor Prompt-Injection-Angriffen, bei denen der Agent versuchen könnte, seine eigenen Sicherheitsregeln zu umgehen.

2. API-Design für Agenten: "Is it agentic enough?"

Während Frameworks wie AgenticRei die Sicherheitsgrenzen ziehen, müssen Entwickler auf der anderen Seite sicherstellen, dass Agenten ihre Werkzeuge überhaupt effizient nutzen können. Denn ein schlecht dokumentiertes oder kompliziertes API-Design führt dazu, dass Agenten unnötige Schritte unternehmen, Fehler korrigieren müssen und dadurch hohe Token-Kosten und Latenzen verursachen.

Hugging Face hat dieses Problem in einer umfassenden Fallstudie untersucht. Das Ziel war es zu messen, wie viel Arbeit ein Agent leisten muss, um eine bestimmte Aufgabe mit der bekannten transformers-Bibliothek zu lösen. Dabei wurden drei Szenarien verglichen:

Bare: Nur die Standardbibliothek ist installiert.
Clone: Der Agent hat Zugriff auf das gesamte Git-Repository (inklusive Quellcode und Beispielen).
Skill: Dem Agenten wird eine kompakte Dokumentation der CLI und optimierte Anwendungsbeispiele direkt in den Kontext geladen.

Vergleich der Agenten-Pfade

Der Unterschied im Pfad

Das Benchmarking zeigt drastische Unterschiede. Um eine einfache Sentiment-Analyse durchzuführen, schreiben Agenten im Standard-Szenario oft ein 40-zeiliges Python-Skript, importieren PyTorch, fangen Shape-Fehler ab und führen den Code mehrfach aus.

Mit einem optimierten Kommandozeilenwerkzeug (CLI) schrumpft dieser Prozess auf einen einzigen, klaren Befehl:

transformers classify --model distilbert-base-uncased --text "I absolutely loved the movie!"

Beide Wege führen zum selben Ergebnis. Doch der zweite Weg spart Zeit, Token und verhindert Fehler.

3. Die unerwartete Diskrepanz zwischen großen und kleinen Modellen

Die Benchmarks von Hugging Face machten jedoch eine überraschende Entdeckung deutlich: Was großen Modellen hilft, kann kleineren Modellen schaden.

Für hochentwickelte, große Modelle (wie Kimi-K2.6 oder GLM-5.1) führte das Bereitstellen von CLI-Dokumentation (die "Skill"-Variante) zu einer deutlichen Beschleunigung und Reduzierung der benötigten Interaktionsrunden (Turns). Sie verstanden die neuen Dokumente sofort und nutzten die effiziente CLI.

Bei kleineren Modellen (wie Qwen3-4B oder 14B) kehrte sich dieser Effekt jedoch teilweise um:

Token-Verschwendung durch Quellcode-Analysen: Sobald die CLI-Implementierung im Repository verfügbar war (Clone-Variante), fingen kleinere Agenten an, den gesamten Quellcode zu lesen, um die Funktionsweise zu verstehen. Ihre Token-Zahl stieg sprunghaft an – ohne dass sich die Erfolgsquote verbesserte.
Konzeptuelle Verwirrung: Einige Modelle verwechselten die dokumentierten "Skills" mit direkt ausführbaren Tools. Statt die CLI über die Bash aufzurufen, versuchten sie, die Dokumentation selbst als Tool-Call auszuführen. Schlug dies fehl, gaben sie auf und deklarierten die Aufgabe als unlösbar, obwohl sie im Standard-Szenario mit einfachem Python-Code eine Erfolgsquote von 100 % erzielt hatten.

Benchmark-Ergebnisse nach Modellgröße

Diese Erkenntnis ist für Software-Maintainer essenziell: Agenten-APIs müssen über verschiedene Modellgrößen hinweg evaluiert werden. Ein neues Feature, das starken Modellen die Arbeit erleichtert, kann bei schwächeren Modellen zu Verwirrung und Fehlern führen.

Fazit: Die zwei Säulen der Agenten-Entwicklung

Die Zukunft von Agentic AI basiert auf zwei Säulen:

Externe, deontische Governance (z. B. AgenticRei): Richtlinien müssen außerhalb der LLMs durch logische Engines überwacht werden, um Compliance und Sicherheit zur Laufzeit zu garantieren.
Modell-spezifische API-Optimierung (z. B. evaluiert via agent-eval): Entwickler müssen ihre Werkzeuge so gestalten und dokumentieren, dass sowohl große als auch kleine Agenten-Modelle sie ohne Umwege und ressourcenschonend nutzen können.

Nur wenn wir sowohl die Leitplanken für das Verhalten der Agenten definieren als auch die Effizienz ihrer Werkzeuge messen, können autonome Systeme sicher und kosteneffizient in produktiven Unternehmensumgebungen eingesetzt werden.