19. Juni 2026 · Software-Engineering-Team

Agentic AI in der
Softwareentwicklung


Harness, Kontext-Engineering und der Weg zur produktiven KI-Nutzung —
ohne in die Vibe-Coding-Falle zu tappen.

Harness-Systeme Kontext-Engineering Reifepfad Automatisierung 30 Anhang-Slides ↓
Yann Sénécheau · Sénécheau GmbH 1 / 8
Das Problem

Vibe Coding: Warum „einfach anfangen" eine Sackgasse ist

Was LLMs tun
LLMs generieren den nächsten plausiblen Token — kein Zieloptimieren. Ohne Kontext: plausibel wirkender Code, der das Falsche optimiert. Kein Unterschied zwischen „funktioniert" und „tut was wir brauchen".
Was entsteht
Code ohne Constraints wird constraint-frei sein — und sich so verhalten. Technische Schulden entstehen schneller als erkennbar. Reviewer ersetzt durch „sieht gut aus"-Urteil.
Was fehlt
Deterministischer Qualitätsbeweis. Messbares Zielbild. Constraints als expliziter Kontext. Reproduzierbare Güte.
Vibe Coding (Karpathy): „You describe something vaguely and let it build." — Produktiv für Prototypen, fatal für Produktion.
Agentic AI in der Softwareentwicklung · 19.6.2026 2 / 8
Das Fundament

Harness & Kontext-Engineering: Was wirklich zählt

Besserer Kontext
schlägt besseres
Modell.
Empirisch belastbar aus
mehreren Projekten.
Ein schwächeres Modell mit
präzisem Kontext schlägt
ein starkes Modell im Leerlauf.
Kontext
Code, Docs, ADRs, Meeting-Transkripte, offene Loops
Rules
Was der Agent tun / nicht tun darf, soll, muss
Skills
Wiederverwendbare Instruktionsmuster je Aufgabentyp
Hooks
Automatische Trigger — vor / nach Aktionen
Constraints
Verbote und Grenzen — explizit als Kontext formuliert
ADRs
Architekturentscheide als persistierter, zitierbarer Kontext
// Meeting 14:32: "7-Jahres-Aufbewahrung, keine Änderungen" // → CONSTRAINT: audit_records → append-only (kein UPDATE/DELETE) // → TEST: auto-generiert: verify_no_update_allowed()
Agentic AI in der Softwareentwicklung · 19.6.2026 3 / 8
Reifepfad

Vier Ebenen — nicht springen, iterieren

bereits hier
L0
Assistiert
Autocomplete, einfache Generierung. Kein Harness. Risiko: Vibe-Coding-Drift sofort.
Status quo
L1
Geführt
Harness vorhanden, Kontext explizit. Zielbild je Aufgabe. Erste ADRs.
Einstieg: Constraints dokumentieren.
Ziel: Q3
L2
Automatisiert
Tests KI-generiert. Deployment-Tests nach Push. IaC aus Anforderungen. CI als Wächter.
Ziel: Q4
L3
Orchestriert
Multi-Agent. Adversariale Verifikation. Harness evolviert. Manueller Code-Review: abgelöst.
Ziel: 2027
Jede Ebene verankert die nächste. Überspringen erzeugt Drift, den du später teuer bezahlst.
Agentic AI in der Softwareentwicklung · 19.6.2026 4 / 8
Arbeitsweise

Outcome statt Output: Deklarativ arbeiten

Was soll das System tun?
IMMER vor „Wie soll es gebaut werden?"
  • Acceptance Criteria als Spec-Artefakt
  • ADRs: Architekturentscheide explizit
  • OpenSpec-Pattern: Change → Tasks → Code
  • Güte deterministisch: Tests, nicht Eyeballing
Konsequenzen
Klare Erwartungen = bessere Outputs
Nachvollziehbare Entscheide
Tests als Spec-Artefakt für CI
Manueller Code-Review wird abgelöst
CI als Wächter, nicht Formalität
Harness evolviert statt Reviewer ersetzt
// ADR-0042: Alle Entitäten haben created_at, updated_at // CONSTRAINT: NIE NULL, NIE UPDATE durch Agent // TEST: verify_timestamps_always_set()
Agentic AI in der Softwareentwicklung · 19.6.2026 5 / 8
Automatisierung

Wo der echte Hebel liegt

Test-Generierung
Acceptance Criteria → Tests
  • · Unit Tests aus Anforderungen
  • · Integration Tests aus ADRs
  • · E2E Smoke nach Deploy
  • · Regressions als Harness-Output
ROI: sofort messbar
Infrastructure as Code
Anforderungen → IaC
  • · Terraform/Ansible aus Requirements
  • · Konfiguration als Kontext
  • · Rollback-Pläne mitgeneriert
  • · Kein „wer hat das manuell konfiguriert"
Wiederherstellbar: deterministisch
Deployment-Tests
Push → Test → Confirm
  • · Smoke-Tests nach Deploy
  • · Health-Check aus Anforderungen
  • · Kein manuelles Klicken
  • · Fehler sichtbar vor Rollout
Manuell: abgelöst
+ Meeting-Transkript → automatisch: offene Fragen, Entscheidungen, Action Items. Briefing-Aufwand >50% reduziert.
Manueller Code-Review: nicht skalierend. Mittelfristiges Ziel: durch deterministische Gates ersetzen.
Agentic AI in der Softwareentwicklung · 19.6.2026 6 / 8
Praxiserfahrungen

Was wirklich funktioniert — und was nicht

✓ Funktioniert
  1. 1. Meeting-Transkript als Kontext: >50% weniger Briefing-Aufwand
  2. 2. Permanente Harness-Evolution nach jedem Sprint
  3. 3. Test-Generierung aus Acceptance Criteria: ROI sofort
  4. 4. Vom Ergebnis her denken — Zielbild vor erstem Prompt
  5. 5. Constraints als erste Klasse: was verboten ist, gehört in den Kontext
✗ Funktioniert nicht
  1. 1. Vibe Coding: „Generiere mal was" ohne Zielbild
  2. 2. Einmaliger Kontext-Setup ohne Pflege
  3. 3. Manuelles Eyeballing als Qualitätsbeweis
  4. 4. Harness als nice-to-have
  5. 5. Kein deterministischer Verifikationsschritt am Ende
[Transkript-Snippet: Sprint-Review, 09:45] Lead Dev: "Reicht PostgreSQL append-only für die Audit-Tabelle?" Legal: "7-Jahres-Aufbewahrung. Keine nachträglichen Änderungen." Lead Dev: "Dann kein UPDATE/DELETE möglich. Append-only." → KI: CONSTRAINT audit_records → append_only | TEST: verify_no_update_allowed()
Agentic AI in der Softwareentwicklung · 19.6.2026 7 / 8
Einstieg

Drei konkrete erste Schritte

1
Einen Prozess wählen
Test-Generierung für ein bestehendes Feature. Acceptance Criteria schreiben, KI Tests generieren lassen, Diff zum Status quo messen.
2
Harness aufbauen
Constraints für das Feature dokumentieren. Ein ADR als Kontext-Einstieg. Rules für Coding-Stil und Architektur.
3
Erstes Quality Gate einrichten
Automatisierter Test in CI — nicht als Formalität, sondern als Wächter. Deterministischer Qualitätsbeweis für jeden Push.
→ 30 Slides im Anhang (A–E) mit operativer Vertiefung
A: Grundlagen B: Kontext-Eng. C: Automatisierung D: Organisation E: Praxis
Fragen?
Agentic AI in der Softwareentwicklung · 19.6.2026 8 / 8
ANHANG

Anhang — Inhaltsübersicht

A · Grundlagen
A02–A06
Was ist Kontext · Harness-Architektur · Meeting-Transkript · ADR-Pattern · Prompt vs. Kontext
B · Kontext-Engineering
A07–A12
Rules & Constraints · Skills-System · Hooks · Kontext-Quellen · Budget-Management · Context Window
C · Automatisierung
A13–A19
Test-Workflow · Test-Prompts · IaC-Workflow · Deployment-Tests · CI/CD · Code Review · Quality Gates
D · Organisation
A20–A26
Reifegradmodell · Tooling-Stack · Modell-Auswahl · Lokal vs. Cloud · Metriken · Team-Enablement · Compliance
E · Praxis
A27–A30
Antipatterns · Case Study · Einstiegspfade · Glossar
Agentic AI in der Softwareentwicklung · 19.6.2026 A·01 / 30
A: Grundlagen

Was ist Kontext? — Die vollständige Definition

System-Prompt / Task
inner
  • · direkter Prompt
  • · Task-Beschreibung
  • · aktueller Code
Rules / Skills / Constraints / ADRs
harness
  • · Verhaltensregeln
  • · Architekturentscheide
  • · Verbote
Code / Docs / Transkripte / Tickets
project
  • · Codebase
  • · Dokumentation
  • · Meeting-Protokolle
"Kontext ≠ Prompt. Kontext = alles, was den Agent befähigt, das RICHTIGE zu bauen."
Ein Agent ohne Kontext ist wie ein Entwickler am ersten Tag — brilliant, aber ohne Orientierung.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·02 / 30
A: Grundlagen

Harness-Architektur: Komponenten und Zusammenspiel

RULES
Stehende Verhaltensregeln — was immer gilt, unabhängig vom Task
SKILLS
Wiederverwendbare Instruktionsmuster — geladen nur wenn relevant
HOOKS
Automatische Trigger — SessionStart, PreToolUse, PostToolUse
COMMANDS
Kurzformen /handoff /strang /pausiere /straenge
CONTEXT
ADRs, Specs, Transkripte — persistierter Projektwissensstand
MEMORY
Persistentes Gedächtnis über Sessions — Entitäten, Relationen, Beobachtungen
Harness = Steuerungssystem. Ohne Harness: Ad-hoc-Anweisungen die verloren gehen.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·03 / 30
A: Grundlagen

Meeting-Transkript als Kontext-Quelle — vollständiges Beispiel

[Sprint-Review, 09:45] PM: "Audit-Trail: 7 Jahre, Legal-Anforderung." Lead Dev: "Append-only Tabelle. Kein UPDATE, kein DELETE. PostgreSQL." CTO: "Nur Admins mit 2FA. Kunden kein Direktzugriff." Lead Dev: "created_by und timestamp auf jedem Record."
KI extrahiert →
CONSTRAINT: audit_records.operation = INSERT only CONSTRAINT: audit_access.requires = [admin_role, 2fa_active] FIELD: created_at NOT NULL, created_by NOT NULL ADR: PostgreSQL (immutable audit > MongoDB) TEST: verify_no_update(), verify_admin_2fa_required()
Ohne Transkript als Kontext: diese Constraints werden vergessen, falsch implementiert oder manuell re-reviewt.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·04 / 30
A: Grundlagen

ADR-Pattern: Architekturentscheide als persistierter Kontext

id: PROJ-ADR-0042 titel: PostgreSQL für Audit-Trail status: accepted kontext: 7-Jahres-Aufbewahrung, keine Änderungen entscheidung: PostgreSQL + append-only konsequenz: kein UPDATE/DELETE; Test Pflicht
ADR = Entscheid mit Begründung — überlebt den Sprint
Als Kontext: Agent weiß WARUM
Als Constraint: nicht stillschweigend revidierbar
Als Test-Grundlage: automatische Verifikation
Agentic AI in der Softwareentwicklung · 19.6.2026 A·05 / 30
A: Grundlagen

Prompt vs. Kontext — der Unterschied

PROMPT
KONTEXT
Einmalig für diese Aufgabe
Persistent über Sessions
Vergessen nach Session
Evolviert mit dem Projekt
Wiederholung bei nächster Aufgabe
Automatisch geladen
Wächst unkontrolliert
Versioniert und auditierbar
"Guter Kontext eliminiert Prompts. Das Ziel: weniger tippen, nicht mehr."
Agentic AI in der Softwareentwicklung · 19.6.2026 A·06 / 30
B: Kontext-Engineering

Rules & Constraints — Praxis-Beispiele

Code-Stil
"Imports stehen am Modulanfang."
"switch exhaustive: always never-check in default."
Security
"Keine Secrets in Code oder Logs — Env-Vars."
"SQL: immer parametrisiert, nie string-concatenated."
Architektur
"Externe APIs: immer hinter eigenen Interfaces kapseln."
"State in offenen Formaten (YAML/JSON)."
Qualitäts-Gates
"Vor Übergabe: automatisierter E2E-Beweis mit Output."
"HTTP 200 ≠ Funktion — ohne Beweis: nicht fertig."
Agentic AI in der Softwareentwicklung · 19.6.2026 A·07 / 30
B: Kontext-Engineering

Skills: Wiederverwendbare Instruktionsmuster

Ein Skill = ladbarer Instruktionssatz für einen Task-Typ.
frontend-design
Visuelles Design & Typografie
systematic-debugging
Root-Cause vor Fix
test-driven-development
Test vor Implementierung
delegate-codex
Tasks an Cloud-Agent delegieren
Geladen nur wenn relevant (spart Kontext-Budget)
Evolvieren mit Projekt
Über Projekte hinweg wiederverwendbar
Ein Skill ist kein Prompt den man jedes Mal neu tippt — es ist ein Baustein im Harness.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·08 / 30
B: Kontext-Engineering

Hooks: Automatische Trigger im Entwicklungszyklus

SessionStart
Laden des aktiven Strangs, Stand aus letztem Handoff
UserPromptSubmit
Strang-Check, Drift-Erkennung zwischen Kontext und Aufgabe
PreToolUse / Bash
Blockiert gefährliche Kommandos — .env lesen, rm -rf, kein --no-verify-Bypassing
Hooks = deterministische Guardrails die nicht vergessen werden. Der Agent kann sie nicht umgehen.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·09 / 30
B: Kontext-Engineering

Kontext-Quellen: Was alles in den Kontext gehört

Tech
  • · Bestehender Code
  • · ADRs
  • · API-Specs (OpenAPI)
  • · DB-Schemas
Anforderungen
  • · User Stories + ACs
  • · Meeting-Transkripte
  • · Tickets (Jira/Linear)
  • · Stakeholder-Entscheide
Qualität
  • · Bestehende Tests
  • · Performance-Benchmarks
  • · Offene Issues
  • · Deployment-Historie
Agentic AI in der Softwareentwicklung · 19.6.2026 A·10 / 30
B: Kontext-Engineering

Kontext-Budget: Wann komprimieren, wann rotieren

"Kontextdegradierung ist ein Cliff-Effekt, kein gradueller Verfall."
Warnsignale
Session >2h
Wiederholende Fragen
Falsche Annahmen über frühere Entscheide
Aktionen
/handoff (Stand sichern)
/pausiere (Strang pausieren)
Context trimming
"Rechtzeitig sichern — nicht am Cliff scheitern."
Agentic AI in der Softwareentwicklung · 19.6.2026 A·11 / 30
B: Kontext-Engineering

Context Window Management in der Praxis

Claude Sonnet 4.6
200k
tokens
Effektiv nutzbar
60–70%
davon sinnvoll
1 Code-Datei
500–2k
tokens
1 Meeting-Transkript
1–3k
tokens
Lazy loading
Skills nur wenn nötig laden
Reference don't copy
Pfade statt Inhalte im Kontext
Prioritization
aktueller Code > historischer Code
Session rotation
sauber rotieren, nicht degradieren
Agentic AI in der Softwareentwicklung · 19.6.2026 A·12 / 30
C: Automatisierung

Test-Generierung: Von Acceptance Criteria zu Tests

1. AC SCHREIBEN
"Als Admin kann ich audit_records nur lesen, nicht schreiben."
2. KI: SKELETON
test_admin_cannot_
write_audit_records()
3. KI: BEFÜLLEN
Fixture + Assertion (real DB, kein Mock)
4. CI FÜHRT AUS
deterministischer Qualitätsbeweis
5. NÄCHSTE AC
nächste AC → nächster Test
Unit — isoliert Integration — Service-Interaktion E2E Smoke — nach Deploy Contract — API-Kompatibilität
Agentic AI in der Softwareentwicklung · 19.6.2026 A·13 / 30
C: Automatisierung

Prompt Engineering für Test-Generierung

✗ SCHLECHT
"Schreib Tests für UserService"
✓ GUT
"Schreib pytest-Unit-Test für UserService.get_by_id(). Framework: SQLAlchemy. Fixture: conftest.py 'db_session'. Abdecken: (1) User gefunden, (2) nicht gefunden → UserNotFoundError, (3) DB-Fehler → InternalError. Echte Test-DB, kein Mock."
Framework explicit
pytest, unittest, jest…
Fixture pattern
conftest, setup, factory
Exact test cases
nummerierte Szenarien
What NOT to do
kein Mock, kein MagicMock
Agentic AI in der Softwareentwicklung · 19.6.2026 A·14 / 30
C: Automatisierung

Infrastructure as Code mit KI — Workflow

Input
"PostgreSQL 15, single instance, 50GB SSD, daily backups, private network only"
KI generiert
resource "aws_db_instance" "main" { engine = "postgres" engine_version = "15.4" allocated_storage= 50 ... } security_group { private_only = true } backup_config { retention_days = 7 } health_check { endpoint = "/healthz" }
Menschliche Prüfung — Fokus
Security: private network rule correct?
Cost: instance size appropriate?
NOT syntactic correctness (KI handles this)
KI reviewed ≠ Human reviewed. Menschliche Prüfung fokussiert auf Semantik, nicht Syntax.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·15 / 30
C: Automatisierung

Deployment-Tests: Automatisierte Verifikation nach Deploy

Tier 1 · Smoke
<30s · nach jedem Deploy
  • · HTTP 200 auf kritischen Endpunkten
  • · DB-Verbindung aktiv
  • · Auth-Flow funktioniert
Tier 2 · Integration
<5min · Staging
  • · Kritischer User-Flow E2E
  • · API-Kontrakt-Test
  • · Cache-Warmup verifiziert
Tier 3 · Performance
wöchentlich / Release
  • · Response < SLA-Schwellwert
  • · Throughput > Minimum
  • · Error-Rate < definierter Schwellwert
Key: Deployment ohne Smoke-Test = Deploy im Dunkeln. Agent generiert Tests aus Anforderungen.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·16 / 30
C: Automatisierung

CI/CD mit KI-Komponenten: Wo KI in die Pipeline gehört

1
Lokal — KI generiert Code + Tests → grün lokal
2
Pre-commit — Hook prüft Kontext-Konsistenz (kein Secret, ADR-Konformität)
3
CI — Tests deterministisch, KI-generierte Tests inklusive
4
Review — KI fokussiert auf Logik/Security, kein Syntax-Eyeballing
5
Deploy — Deployment-Tests automatisch gestartet
6
Post-Deploy — Smoke-Test-Report deterministisch grün oder rot
Key: KI in Pipeline = deterministisches Automatisieren. Kein Ersatz für menschliches Urteil bei Architektur.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·17 / 30
C: Automatisierung

Code Review Automation: Was funktioniert, was nicht

✓ FUNKTIONIERT GUT
Security patterns (SQL-Injection, XSS, Secrets in Code)
ADR-Konformität
Test-Coverage-Gaps identifizieren
Style/Convention-Verstöße
✗ FUNKTIONIERT SCHLECHT
Business-Logic-Korrektheit
Produkt-Entscheidungen
Cross-Team-Dependencies
„Macht das fachlich Sinn?"
Key: KI für deterministisch prüfbare Patterns. Mensch für Semantik und Business-Logic.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·18 / 30
C: Automatisierung

Quality Gates: Deterministisch aufsetzen

Gate 1
Style
Linter, Formatter — immer grün, keine Ausnahmen. ADR-Konformitäts-Check.
Gate 2
Security
SAST (Semgrep), Secret-Scanner (gitleaks), Dependency-Vulnerability-Check.
Gate 3
Test
Unit + Integration Coverage, KI-generierte Tests inklusive, E2E Smoke nach Deploy.
Gate 4
Deploy
Smoke-Test-Report grün, Health-Check antwortet, DB-Migrationen erfolgreich.
Key: Ein Gate das überbrückbar ist, ist kein Gate. --skip und --no-verify sind Warnsignale.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·19 / 30
D: Organisation

Reifegradmodell: Detailkriterien je Level

Vorhanden
Messbar
Test
L0
IDE Autocomplete
Kein Harness, kein Kontext-Engineering
„Kannst du in 1 Satz sagen was der Code tun SOLL?"
L1
Rules, erste ADRs, Zielbild je Task
>50% Tasks haben AC vor Start
„Hat Agent Zugriff auf ADRs?"
L2
KI-Tests, CI-Wächter, Deployment-Tests
>80% neue Features haben KI-Tests
„Läuft Smoke-Test nach Deploy?"
L3
Multi-Agent, adversariale Verifikation, Harness evolviert
Manueller Review <20% aller PRs
„Evolviert Harness nach Sprint?"
Agentic AI in der Softwareentwicklung · 19.6.2026 A·20 / 30
D: Organisation

Tooling-Stack: Was womit

Agent / IDE
  • Claude Code (CLI+IDE) — Hauptwerkzeug
  • Codex (Cloud, GPT-5.5) — isolierte Coding-Tasks
  • Lokale Modelle — vertrauliche Daten
Context Engineering
  • ADRs (Markdown im Repo)
  • Harness (.claude/ Verzeichnis)
  • Register (YAML-Dateien im Repo)
Automatisierung
  • CI (GitHub Actions / GitLab CI)
  • Test: pytest/Jest + KI-Tests
  • IaC: Terraform/Ansible
Quality Gates
  • Linter: ruff, eslint
  • SAST: Semgrep
  • Secret-Scanner: gitleaks
Agentic AI in der Softwareentwicklung · 19.6.2026 A·21 / 30
D: Organisation

Modell-Auswahl: Wann welches Modell

Task
Modell
Begründung
Exploration / Planung
Opus / Sonnet
Komplexe Analyse, Trade-offs
Code-Generierung (isoliert)
Codex / Sonnet
Fokussierter Coding-Task
Tests generieren (einfach)
Haiku
Mechanisch, kein Kontext nötig
Einfache Suche / Lesen
Haiku
Lese-Task, kein Reasoning
Security-Review
Opus
Hohe Präzision nötig
IaC generieren
Sonnet
Strukturierter Output
Code-Review Style
Haiku
Deterministisch prüfbar
Orchestrierung
Opus
Komplexe Planung
Key: Kleinere Modelle für mechanische Tasks. Größere für Planung/Security. Lokal für vertrauliche Daten.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·22 / 30
D: Organisation

Lokale vs. Cloud-Modelle: Kriterien für den Bankenkontext

Cloud
Neueste Qualität, kein Infra-Aufwand, skalierbar
Daten verlassen Netzwerk, Compliance prüfen, kostenpflichtig
Lokal
Kein Egress (Bankenkontext entscheidend), DSGVO-konform, feste Kosten
Geringere Qualität aktuell, Setup-Aufwand, Updates manuell
Empfehlung
Hybrid — Cloud für nicht-vertraulich, lokal für sensible Daten. Schnittstelle kompatibel halten.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·23 / 30
D: Organisation

Metriken & KPIs für KI-gestützte Entwicklung

Produktivität
  • · Time-to-first-green-test
  • · Briefing-Zeit vor Start (sollte sinken)
  • · Anzahl Rückfragen pro Feature
Qualität
  • · Test-Coverage (KI vs. manuell)
  • · Bug-Rate Production (Trend)
  • · Security-Findings in CI
Harness
  • · Anteil Tasks mit AC vor Start
  • · Anzahl evolvierter ADRs pro Sprint
  • · Context-Refresh-Frequenz
Warnsignale
Steigende Rückfragen = Kontext veraltet? · Sinkende Coverage = Vibe-Coding-Drift? · Wachsende Review-Last = L2 nicht erreicht?
Agentic AI in der Softwareentwicklung · 19.6.2026 A·24 / 30
D: Organisation

Team-Enablement: Strukturierter Ramp-up

Anti-Pattern: „Hier ist Claude, macht mal."
Woche 1–2
Phase 1
Ein Entwickler, ein Use Case. Test-Generierung für ein Feature. Baseline messen.
Woche 3–4
Phase 2
Harness aufbauen. Rules für Code-Stil. Erste ADRs. Reproduzierbarer Workflow.
Monat 2–3
Phase 3
Team übernimmt. Pair-Programming mit KI. Harness-Evolution nach Sprint.
Key: Ein Entwickler fängt an und zeigt was möglich ist. Dann zieht der Rest nach. Nicht alle auf einmal.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·25 / 30
D: Organisation

Compliance & Datenschutz im Dev-Kontext

Daten-Klassifizierung
  • Public → Cloud OK
  • Internal → Cloud mit DPA OK
  • Confidential → nur lokal
  • Restricted (Keys/Secrets) → nie an KI
Praktisch
  • · Secret-Scanner in CI
  • · Kontextueller Egress-Check vor Cloud-Delegation
  • · Audit-Trail welche Prompts an welches Modell
Banken-spezifisch
  • · BAIT/DORA: KI-Tools als IT-Outsourcing prüfen
  • · MaRisk: Dokumentation der KI-Nutzung
  • · BaFin: Änderungen beobachten
Vendor
  • · Claude Enterprise (DPA vorhanden)
  • · Azure OpenAI (DSGVO-konformer Endpoint)
  • · Verträge prüfen
Agentic AI in der Softwareentwicklung · 19.6.2026 A·26 / 30
E: Praxis

Antipatterns: Erkennbar und vermeidbar

Vibe Coding
„Generiere eine User-Verwaltung."
Symptom: Niemand kann sagen ob es Anforderungen erfüllt.
Fix: AC zuerst.
Kontext-Vergessen
Einmaliger Setup, nie gepflegt.
Symptom: KI macht überraschende Annahmen.
Fix: /handoff nach jedem Block.
Eyeball-Review
„Sieht gut aus" als Beweis.
Symptom: Bugs in Prod.
Fix: Automatisierter Test + CI.
Kein Zielbild
Task ohne „was kommt raus und wie prüfen wir?"
Symptom: Endlose Iterationen.
Fix: Outcome definieren BEVOR Prompt.
Gate-Bypassing
--no-verify unter Zeitdruck.
Symptom: Gate = Formalität.
Fix: Kein Merge ohne grüne Gates.
Falsches Modell
Immer das teuerste für jeden Task.
Symptom: Hohe Kosten, kein ROI-Unterschied.
Fix: Modell-Tiers einhalten.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·27 / 30
E: Praxis

Case Study: Vollständiger KI-gestützter Zyklus

Feature: Audit-Trail für Kundendaten-Änderungen
1
Kontext aufbauen — Meeting-Transkript → Constraints extrahiert. ADR-0042 erstellt.
2
Outcome definieren — AC: „Admin kann lesen, niemand kann löschen, 7 Jahre."
3
Tests generieren ERST — test_append_only(), test_admin_access(), test_retention_policy()
4
Code generieren — audit_record.py, audit_repository.py — Kontext: ADR-0042, Constraints, Codebase.
5
CI prüft — Tests grün, Linter grün, Secret-Scanner grün.
6
Deploy + Smoke — „audit_endpoint returns 200 for admin" — automatisch.
Von Meeting bis grünem Deploy — keine manuelle Verifikation nötig.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·28 / 30
E: Praxis

Einstiegspfade: Team-spezifische Empfehlungen

Team A · Keine Tests
Start: Test-Generierung für kritischste Komponente
Tool: Claude Code + pytest/jest
Milestone: 10 KI-Tests grün
1–2 Sprints
Team B · Tests, keine ADRs
Start: ADR für 3 wichtigste Architektur-Entscheide
Tool: Markdown ADRs im Repo
Milestone: KI referenziert ADRs automatisch
1 Sprint
Team C · Tests + ADRs, kein Harness
Start: Rules-Datei mit Top-10-Constraints
Tool: .claude/CLAUDE.md
Milestone: KI folgt Constraints ohne Erinnerung
3–5 Tage
Klein anfangen, einen Use Case, ROI messen, dann ausbauen.
Agentic AI in der Softwareentwicklung · 19.6.2026 A·29 / 30
E: Praxis

Glossar & Ressourcen

Glossar
Harness Steuerungssystem (Rules/Skills/Hooks/Context) Kontext-Engineering Bewusste Gestaltung des Agent-Kontexts ADR Architecture Decision Record Vibe Coding Code-Generierung ohne definierte Outcomes Smoke Test Schneller Post-Deploy Grundfunktions-Test Quality Gate Automatisiertes nicht-überbrückbares Qualitätskriterium Reifepfad Stufenmodell L0–L3 für KI-Integration Context Window Maximale Eingabegröße des Modells Handoff Gesicherter Übergabe-Stand für Session-Rotation Acceptance Criteria Messbare Bedingungen für Feature-Abnahme
Ressourcen
Andrej Karpathy „Vibe Coding" (YouTube)
Claude Code Dokumentation docs.anthropic.com
ADR-Pattern: github.com/joelparkerhenderson/architecture-decision-record
OWASP LLM Top 10
Semgrep: semgrep.dev (open source SAST)
gitleaks (secret scanner, open source)
Agentic AI in der Softwareentwicklung · 19.6.2026 A·30 / 30