Vorhanden
Messbar
Test
L0
IDE Autocomplete
Kein Harness, kein Kontext-Engineering
„Kannst du in 1 Satz sagen was der Code tun SOLL?"
L1
Rules, erste ADRs, Zielbild je Task
>50% Tasks haben AC vor Start
„Hat Agent Zugriff auf ADRs?"
L2
KI-Tests, CI-Wächter, Deployment-Tests
>80% neue Features haben KI-Tests
„Läuft Smoke-Test nach Deploy?"
L3
Multi-Agent, adversariale Verifikation, Harness evolviert
Manueller Review <20% aller PRs
„Evolviert Harness nach Sprint?"