Zum Inhalt springen

/audit-cost

Der /audit-cost-Skill sucht nach überversorgten Workloads.

Führe ihn ohne Argumente für einen vollständigen Sweep aus, oder benenne einen Workflow, um den Bericht einzugrenzen.

/audit-cost # full sweep
/audit-cost requests # single workflow
/audit-cost idle in staging

Natürlichsprachiges Scoping (Namespaces, Label-Selektoren, Workload-Namen) wird in jedem Workflow unterstützt (siehe Übersicht).


1. CPU- und Speicher-Requests vs. tatsächliche Nutzung

Abschnitt betitelt „1. CPU- und Speicher-Requests vs. tatsächliche Nutzung“

Quellen: metrics-server für Live-Nutzung und Prometheus, falls erkannt, für historisches p95.

Quellen: metrics-server und die Kubernetes API für Job/CronJob-Status.

Quellen: Kubernetes API.


Right-Sizing erfordert Verlaufsdaten. Standardmäßig blickt der Skill 7 Tage zurück, wenn Prometheus verfügbar ist, und greift auf den Live-Snapshot von metrics-server zurück, wenn nicht. Der Bericht gibt immer an, welche Quelle verwendet wurde und wie weit die Daten zurückreichen.


Über die Workflows hinaus weist der Skill den Agent an, wie er berichten soll:

  • Die Quelle (metrics-server für Live, Prometheus für Verlauf) und den effektiven Betrachtungszeitraum im Header angeben — die Prometheus-Retention kann kürzer als die standardmäßigen 7 Tage sein.
  • Findings, die Prometheus erfordern, als „nicht verfügbar” markieren, wenn nur metrics-server vorhanden ist, anstatt sie still zu übergehen.
  • Nur Requests-vs.-Nutzungs-Lücken kennzeichnen, die groß genug sind, um in der Praxis von Bedeutung zu sein; kleine Deltas sind Rauschen.
  • An /metrics übergeben, wenn der Benutzer die zugrunde liegende Serie für eine bestimmte Workload sehen möchte.