19. Juni 2026 · Software-Engineering-Team

Agentic AI in der
Softwareentwicklung

Harness, Kontext-Engineering und der Weg zur produktiven KI-Nutzung —
ohne in die Vibe-Coding-Falle zu tappen.

Harness-Systeme Kontext-Engineering Reifepfad Automatisierung 30 Anhang-Slides ↓

Yann Sénécheau · Sénécheau GmbH 1 / 8

Das Problem

Vibe Coding: Warum „einfach anfangen" eine Sackgasse ist

Was LLMs tun

LLMs generieren den nächsten plausiblen Token — kein Zieloptimieren. Ohne Kontext: plausibel wirkender Code, der das Falsche optimiert. Kein Unterschied zwischen „funktioniert" und „tut was wir brauchen".

Was entsteht

Code ohne Constraints wird constraint-frei sein — und sich so verhalten. Technische Schulden entstehen schneller als erkennbar. Reviewer ersetzt durch „sieht gut aus"-Urteil.

Was fehlt

Deterministischer Qualitätsbeweis. Messbares Zielbild. Constraints als expliziter Kontext. Reproduzierbare Güte.

Vibe Coding (Karpathy): „You describe something vaguely and let it build." — Produktiv für Prototypen, fatal für Produktion.

Agentic AI in der Softwareentwicklung · 19.6.2026 2 / 8

Das Fundament

Harness & Kontext-Engineering: Was wirklich zählt

“

Besserer Kontext
schlägt besseres
Modell.

Empirisch belastbar aus
mehreren Projekten.

Ein schwächeres Modell mit
präzisem Kontext schlägt
ein starkes Modell im Leerlauf.

Kontext

Code, Docs, ADRs, Meeting-Transkripte, offene Loops

Rules

Was der Agent tun / nicht tun darf, soll, muss

Skills

Wiederverwendbare Instruktionsmuster je Aufgabentyp

Hooks

Automatische Trigger — vor / nach Aktionen

Constraints

Verbote und Grenzen — explizit als Kontext formuliert

ADRs

Architekturentscheide als persistierter, zitierbarer Kontext

// Meeting 14:32: "7-Jahres-Aufbewahrung, keine Änderungen"
// → CONSTRAINT: audit_records → append-only (kein UPDATE/DELETE)
// → TEST: auto-generiert: verify_no_update_allowed()

Agentic AI in der Softwareentwicklung · 19.6.2026 3 / 8

Reifepfad

Vier Ebenen — nicht springen, iterieren

bereits hier

L0

Assistiert

Autocomplete, einfache Generierung. Kein Harness. Risiko: Vibe-Coding-Drift sofort.

Status quo

L1

Geführt

Harness vorhanden, Kontext explizit. Zielbild je Aufgabe. Erste ADRs.
Einstieg: Constraints dokumentieren.

Ziel: Q3

L2

Automatisiert

Tests KI-generiert. Deployment-Tests nach Push. IaC aus Anforderungen. CI als Wächter.

Ziel: Q4

L3

Orchestriert

Multi-Agent. Adversariale Verifikation. Harness evolviert. Manueller Code-Review: abgelöst.

Ziel: 2027

Jede Ebene verankert die nächste. Überspringen erzeugt Drift, den du später teuer bezahlst.

Agentic AI in der Softwareentwicklung · 19.6.2026 4 / 8

Arbeitsweise

Outcome statt Output: Deklarativ arbeiten

Was soll das System tun?

IMMER vor „Wie soll es gebaut werden?"

→ Acceptance Criteria als Spec-Artefakt
→ ADRs: Architekturentscheide explizit
→ OpenSpec-Pattern: Change → Tasks → Code
→ Güte deterministisch: Tests, nicht Eyeballing

Konsequenzen

✓ Klare Erwartungen = bessere Outputs

✓ Nachvollziehbare Entscheide

✓ Tests als Spec-Artefakt für CI

→ Manueller Code-Review wird abgelöst

→ CI als Wächter, nicht Formalität

→ Harness evolviert statt Reviewer ersetzt

// ADR-0042: Alle Entitäten haben created_at, updated_at
// CONSTRAINT: NIE NULL, NIE UPDATE durch Agent
// TEST: verify_timestamps_always_set()

Agentic AI in der Softwareentwicklung · 19.6.2026 5 / 8

Automatisierung

Wo der echte Hebel liegt

Test-Generierung

Acceptance Criteria → Tests

· Unit Tests aus Anforderungen
· Integration Tests aus ADRs
· E2E Smoke nach Deploy
· Regressions als Harness-Output

ROI: sofort messbar

Infrastructure as Code

Anforderungen → IaC

· Terraform/Ansible aus Requirements
· Konfiguration als Kontext
· Rollback-Pläne mitgeneriert
· Kein „wer hat das manuell konfiguriert"

Wiederherstellbar: deterministisch

Deployment-Tests

Push → Test → Confirm

· Smoke-Tests nach Deploy
· Health-Check aus Anforderungen
· Kein manuelles Klicken
· Fehler sichtbar vor Rollout

Manuell: abgelöst

+ Meeting-Transkript → automatisch: offene Fragen, Entscheidungen, Action Items. Briefing-Aufwand >50% reduziert.

Manueller Code-Review: nicht skalierend. Mittelfristiges Ziel: durch deterministische Gates ersetzen.

Agentic AI in der Softwareentwicklung · 19.6.2026 6 / 8

Praxiserfahrungen

Was wirklich funktioniert — und was nicht

✓ Funktioniert

1. Meeting-Transkript als Kontext: >50% weniger Briefing-Aufwand
2. Permanente Harness-Evolution nach jedem Sprint
3. Test-Generierung aus Acceptance Criteria: ROI sofort
4. Vom Ergebnis her denken — Zielbild vor erstem Prompt
5. Constraints als erste Klasse: was verboten ist, gehört in den Kontext

✗ Funktioniert nicht

1. Vibe Coding: „Generiere mal was" ohne Zielbild
2. Einmaliger Kontext-Setup ohne Pflege
3. Manuelles Eyeballing als Qualitätsbeweis
4. Harness als nice-to-have
5. Kein deterministischer Verifikationsschritt am Ende

[Transkript-Snippet: Sprint-Review, 09:45]
Lead Dev: "Reicht PostgreSQL append-only für die Audit-Tabelle?"
Legal:    "7-Jahres-Aufbewahrung. Keine nachträglichen Änderungen."
Lead Dev: "Dann kein UPDATE/DELETE möglich. Append-only."
→ KI: CONSTRAINT audit_records → append_only | TEST: verify_no_update_allowed()

Agentic AI in der Softwareentwicklung · 19.6.2026 7 / 8

Einstieg

Drei konkrete erste Schritte

1

Einen Prozess wählen

Test-Generierung für ein bestehendes Feature. Acceptance Criteria schreiben, KI Tests generieren lassen, Diff zum Status quo messen.

2

Harness aufbauen

Constraints für das Feature dokumentieren. Ein ADR als Kontext-Einstieg. Rules für Coding-Stil und Architektur.

3

Erstes Quality Gate einrichten

Automatisierter Test in CI — nicht als Formalität, sondern als Wächter. Deterministischer Qualitätsbeweis für jeden Push.

→ 30 Slides im Anhang (A–E) mit operativer Vertiefung

A: Grundlagen B: Kontext-Eng. C: Automatisierung D: Organisation E: Praxis

Fragen?

Agentic AI in der Softwareentwicklung · 19.6.2026 8 / 8

ANHANG

Anhang — Inhaltsübersicht

A · Grundlagen

A02–A06

Was ist Kontext · Harness-Architektur · Meeting-Transkript · ADR-Pattern · Prompt vs. Kontext

B · Kontext-Engineering

A07–A12

Rules & Constraints · Skills-System · Hooks · Kontext-Quellen · Budget-Management · Context Window

C · Automatisierung

A13–A19

Test-Workflow · Test-Prompts · IaC-Workflow · Deployment-Tests · CI/CD · Code Review · Quality Gates

D · Organisation

A20–A26

Reifegradmodell · Tooling-Stack · Modell-Auswahl · Lokal vs. Cloud · Metriken · Team-Enablement · Compliance

E · Praxis

A27–A30

Antipatterns · Case Study · Einstiegspfade · Glossar

Agentic AI in der Softwareentwicklung · 19.6.2026 A·01 / 30

A: Grundlagen

Was ist Kontext? — Die vollständige Definition

System-Prompt / Task

inner

· direkter Prompt
· Task-Beschreibung
· aktueller Code

Rules / Skills / Constraints / ADRs

harness

· Verhaltensregeln
· Architekturentscheide
· Verbote

Code / Docs / Transkripte / Tickets

project

· Codebase
· Dokumentation
· Meeting-Protokolle

"Kontext ≠ Prompt. Kontext = alles, was den Agent befähigt, das RICHTIGE zu bauen."

Ein Agent ohne Kontext ist wie ein Entwickler am ersten Tag — brilliant, aber ohne Orientierung.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·02 / 30

A: Grundlagen

Harness-Architektur: Komponenten und Zusammenspiel

RULES

Stehende Verhaltensregeln — was immer gilt, unabhängig vom Task

SKILLS

Wiederverwendbare Instruktionsmuster — geladen nur wenn relevant

HOOKS

Automatische Trigger — SessionStart, PreToolUse, PostToolUse

COMMANDS

Kurzformen /handoff /strang /pausiere /straenge

CONTEXT

ADRs, Specs, Transkripte — persistierter Projektwissensstand

MEMORY

Persistentes Gedächtnis über Sessions — Entitäten, Relationen, Beobachtungen

Harness = Steuerungssystem. Ohne Harness: Ad-hoc-Anweisungen die verloren gehen.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·03 / 30

A: Grundlagen

Meeting-Transkript als Kontext-Quelle — vollständiges Beispiel

[Sprint-Review, 09:45]
PM:       "Audit-Trail: 7 Jahre, Legal-Anforderung."
Lead Dev: "Append-only Tabelle. Kein UPDATE, kein DELETE. PostgreSQL."
CTO:      "Nur Admins mit 2FA. Kunden kein Direktzugriff."
Lead Dev: "created_by und timestamp auf jedem Record."

KI extrahiert →

CONSTRAINT: audit_records.operation = INSERT only
CONSTRAINT: audit_access.requires = [admin_role, 2fa_active]
FIELD:      created_at NOT NULL, created_by NOT NULL
ADR:        PostgreSQL (immutable audit > MongoDB)
TEST:       verify_no_update(), verify_admin_2fa_required()

Ohne Transkript als Kontext: diese Constraints werden vergessen, falsch implementiert oder manuell re-reviewt.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·04 / 30

A: Grundlagen

ADR-Pattern: Architekturentscheide als persistierter Kontext

id:          PROJ-ADR-0042
titel:       PostgreSQL für Audit-Trail
status:      accepted
kontext:     7-Jahres-Aufbewahrung, keine Änderungen
entscheidung: PostgreSQL + append-only
konsequenz:  kein UPDATE/DELETE; Test Pflicht

→ ADR = Entscheid mit Begründung — überlebt den Sprint

→ Als Kontext: Agent weiß WARUM

→ Als Constraint: nicht stillschweigend revidierbar

→ Als Test-Grundlage: automatische Verifikation

Agentic AI in der Softwareentwicklung · 19.6.2026 A·05 / 30

A: Grundlagen

Prompt vs. Kontext — der Unterschied

PROMPT

KONTEXT

Einmalig für diese Aufgabe

Persistent über Sessions

Vergessen nach Session

Evolviert mit dem Projekt

Wiederholung bei nächster Aufgabe

Automatisch geladen

Wächst unkontrolliert

Versioniert und auditierbar

"Guter Kontext eliminiert Prompts. Das Ziel: weniger tippen, nicht mehr."

Agentic AI in der Softwareentwicklung · 19.6.2026 A·06 / 30

B: Kontext-Engineering

Rules & Constraints — Praxis-Beispiele

Code-Stil

"Imports stehen am Modulanfang."

"switch exhaustive: always never-check in default."

Security

"Keine Secrets in Code oder Logs — Env-Vars."

"SQL: immer parametrisiert, nie string-concatenated."

Architektur

"Externe APIs: immer hinter eigenen Interfaces kapseln."

"State in offenen Formaten (YAML/JSON)."

Qualitäts-Gates

"Vor Übergabe: automatisierter E2E-Beweis mit Output."

"HTTP 200 ≠ Funktion — ohne Beweis: nicht fertig."

Agentic AI in der Softwareentwicklung · 19.6.2026 A·07 / 30

B: Kontext-Engineering

Skills: Wiederverwendbare Instruktionsmuster

Ein Skill = ladbarer Instruktionssatz für einen Task-Typ.

frontend-design

Visuelles Design & Typografie

systematic-debugging

Root-Cause vor Fix

test-driven-development

Test vor Implementierung

delegate-codex

Tasks an Cloud-Agent delegieren

→Geladen nur wenn relevant (spart Kontext-Budget)

→Evolvieren mit Projekt

→Über Projekte hinweg wiederverwendbar

Ein Skill ist kein Prompt den man jedes Mal neu tippt — es ist ein Baustein im Harness.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·08 / 30

B: Kontext-Engineering

Hooks: Automatische Trigger im Entwicklungszyklus

SessionStart

Laden des aktiven Strangs, Stand aus letztem Handoff

UserPromptSubmit

Strang-Check, Drift-Erkennung zwischen Kontext und Aufgabe

PreToolUse / Bash

Blockiert gefährliche Kommandos — .env lesen, rm -rf, kein --no-verify-Bypassing

Hooks = deterministische Guardrails die nicht vergessen werden. Der Agent kann sie nicht umgehen.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·09 / 30

B: Kontext-Engineering

Kontext-Quellen: Was alles in den Kontext gehört

Tech

· Bestehender Code
· ADRs
· API-Specs (OpenAPI)
· DB-Schemas

Anforderungen

· User Stories + ACs
· Meeting-Transkripte
· Tickets (Jira/Linear)
· Stakeholder-Entscheide

Qualität

· Bestehende Tests
· Performance-Benchmarks
· Offene Issues
· Deployment-Historie

Agentic AI in der Softwareentwicklung · 19.6.2026 A·10 / 30

B: Kontext-Engineering

Kontext-Budget: Wann komprimieren, wann rotieren

"Kontextdegradierung ist ein Cliff-Effekt, kein gradueller Verfall."

Warnsignale

Session >2h

Wiederholende Fragen

Falsche Annahmen über frühere Entscheide

Aktionen

/handoff (Stand sichern)

/pausiere (Strang pausieren)

Context trimming

"Rechtzeitig sichern — nicht am Cliff scheitern."

Agentic AI in der Softwareentwicklung · 19.6.2026 A·11 / 30

B: Kontext-Engineering

Context Window Management in der Praxis

Claude Sonnet 4.6

200k

tokens

Effektiv nutzbar

60–70%

davon sinnvoll

1 Code-Datei

500–2k

tokens

1 Meeting-Transkript

1–3k

tokens

Lazy loading

Skills nur wenn nötig laden

Reference don't copy

Pfade statt Inhalte im Kontext

Prioritization

aktueller Code > historischer Code

Session rotation

sauber rotieren, nicht degradieren

Agentic AI in der Softwareentwicklung · 19.6.2026 A·12 / 30

C: Automatisierung

Test-Generierung: Von Acceptance Criteria zu Tests

1. AC SCHREIBEN

"Als Admin kann ich audit_records nur lesen, nicht schreiben."

→

2. KI: SKELETON

test_admin_cannot_
write_audit_records()

→

3. KI: BEFÜLLEN

Fixture + Assertion (real DB, kein Mock)

→

4. CI FÜHRT AUS

deterministischer Qualitätsbeweis

→

5. NÄCHSTE AC

nächste AC → nächster Test

Unit — isoliert Integration — Service-Interaktion E2E Smoke — nach Deploy Contract — API-Kompatibilität

Agentic AI in der Softwareentwicklung · 19.6.2026 A·13 / 30

C: Automatisierung

Prompt Engineering für Test-Generierung

✗ SCHLECHT

"Schreib Tests für UserService"

✓ GUT

"Schreib pytest-Unit-Test für UserService.get_by_id(). Framework: SQLAlchemy.
Fixture: conftest.py 'db_session'. Abdecken: (1) User gefunden,
(2) nicht gefunden → UserNotFoundError, (3) DB-Fehler → InternalError.
Echte Test-DB, kein Mock."

Framework explicit

pytest, unittest, jest…

Fixture pattern

conftest, setup, factory

Exact test cases

nummerierte Szenarien

What NOT to do

kein Mock, kein MagicMock

Agentic AI in der Softwareentwicklung · 19.6.2026 A·14 / 30

C: Automatisierung

Infrastructure as Code mit KI — Workflow

Input

"PostgreSQL 15, single instance, 50GB SSD,
 daily backups, private network only"

KI generiert

resource "aws_db_instance" "main" {
  engine         = "postgres"
  engine_version = "15.4"
  allocated_storage= 50
  ...
}
security_group   { private_only = true }
backup_config    { retention_days = 7 }
health_check     { endpoint = "/healthz" }

Menschliche Prüfung — Fokus

✓ Security: private network rule correct?

✓ Cost: instance size appropriate?

✗ NOT syntactic correctness (KI handles this)

KI reviewed ≠ Human reviewed. Menschliche Prüfung fokussiert auf Semantik, nicht Syntax.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·15 / 30

C: Automatisierung

Deployment-Tests: Automatisierte Verifikation nach Deploy

Tier 1 · Smoke

<30s · nach jedem Deploy

· HTTP 200 auf kritischen Endpunkten
· DB-Verbindung aktiv
· Auth-Flow funktioniert

Tier 2 · Integration

<5min · Staging

· Kritischer User-Flow E2E
· API-Kontrakt-Test
· Cache-Warmup verifiziert

Tier 3 · Performance

wöchentlich / Release

· Response < SLA-Schwellwert
· Throughput > Minimum
· Error-Rate < definierter Schwellwert

Key: Deployment ohne Smoke-Test = Deploy im Dunkeln. Agent generiert Tests aus Anforderungen.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·16 / 30

C: Automatisierung

CI/CD mit KI-Komponenten: Wo KI in die Pipeline gehört

1

Lokal — KI generiert Code + Tests → grün lokal

2

Pre-commit — Hook prüft Kontext-Konsistenz (kein Secret, ADR-Konformität)

3

CI — Tests deterministisch, KI-generierte Tests inklusive

4

Review — KI fokussiert auf Logik/Security, kein Syntax-Eyeballing

5

Deploy — Deployment-Tests automatisch gestartet

6

Post-Deploy — Smoke-Test-Report deterministisch grün oder rot

Key: KI in Pipeline = deterministisches Automatisieren. Kein Ersatz für menschliches Urteil bei Architektur.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·17 / 30

C: Automatisierung

Code Review Automation: Was funktioniert, was nicht

✓ FUNKTIONIERT GUT

✓ Security patterns (SQL-Injection, XSS, Secrets in Code)

✓ ADR-Konformität

✓ Test-Coverage-Gaps identifizieren

✓ Style/Convention-Verstöße

✗ FUNKTIONIERT SCHLECHT

✗ Business-Logic-Korrektheit

✗ Produkt-Entscheidungen

✗ Cross-Team-Dependencies

✗ „Macht das fachlich Sinn?"

Key: KI für deterministisch prüfbare Patterns. Mensch für Semantik und Business-Logic.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·18 / 30

C: Automatisierung

Quality Gates: Deterministisch aufsetzen

Gate 1
Style

Linter, Formatter — immer grün, keine Ausnahmen. ADR-Konformitäts-Check.

Gate 2
Security

SAST (Semgrep), Secret-Scanner (gitleaks), Dependency-Vulnerability-Check.

Gate 3
Test

Unit + Integration Coverage, KI-generierte Tests inklusive, E2E Smoke nach Deploy.

Gate 4
Deploy

Smoke-Test-Report grün, Health-Check antwortet, DB-Migrationen erfolgreich.

Key: Ein Gate das überbrückbar ist, ist kein Gate. --skip und --no-verify sind Warnsignale.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·19 / 30

D: Organisation

Reifegradmodell: Detailkriterien je Level

Vorhanden

Messbar

Test

L0

IDE Autocomplete

Kein Harness, kein Kontext-Engineering

„Kannst du in 1 Satz sagen was der Code tun SOLL?"

L1

Rules, erste ADRs, Zielbild je Task

>50% Tasks haben AC vor Start

„Hat Agent Zugriff auf ADRs?"

L2

KI-Tests, CI-Wächter, Deployment-Tests

>80% neue Features haben KI-Tests

„Läuft Smoke-Test nach Deploy?"

L3

Multi-Agent, adversariale Verifikation, Harness evolviert

Manueller Review <20% aller PRs

„Evolviert Harness nach Sprint?"

Agentic AI in der Softwareentwicklung · 19.6.2026 A·20 / 30

D: Organisation

Tooling-Stack: Was womit

Agent / IDE

Claude Code (CLI+IDE) — Hauptwerkzeug
Codex (Cloud, GPT-5.5) — isolierte Coding-Tasks
Lokale Modelle — vertrauliche Daten

Context Engineering

ADRs (Markdown im Repo)
Harness (.claude/ Verzeichnis)
Register (YAML-Dateien im Repo)

Automatisierung

CI (GitHub Actions / GitLab CI)
Test: pytest/Jest + KI-Tests
IaC: Terraform/Ansible

Quality Gates

Linter: ruff, eslint
SAST: Semgrep
Secret-Scanner: gitleaks

Agentic AI in der Softwareentwicklung · 19.6.2026 A·21 / 30

D: Organisation

Modell-Auswahl: Wann welches Modell

Task

Modell

Begründung

Exploration / Planung

Opus / Sonnet

Komplexe Analyse, Trade-offs

Code-Generierung (isoliert)

Codex / Sonnet

Fokussierter Coding-Task

Tests generieren (einfach)

Haiku

Mechanisch, kein Kontext nötig

Einfache Suche / Lesen

Haiku

Lese-Task, kein Reasoning

Security-Review

Opus

Hohe Präzision nötig

IaC generieren

Sonnet

Strukturierter Output

Code-Review Style

Haiku

Deterministisch prüfbar

Orchestrierung

Opus

Komplexe Planung

Key: Kleinere Modelle für mechanische Tasks. Größere für Planung/Security. Lokal für vertrauliche Daten.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·22 / 30

D: Organisation

Lokale vs. Cloud-Modelle: Kriterien für den Bankenkontext

Cloud

✓ Neueste Qualität, kein Infra-Aufwand, skalierbar

✗ Daten verlassen Netzwerk, Compliance prüfen, kostenpflichtig

Lokal

✓ Kein Egress (Bankenkontext entscheidend), DSGVO-konform, feste Kosten

✗ Geringere Qualität aktuell, Setup-Aufwand, Updates manuell

Empfehlung

Hybrid — Cloud für nicht-vertraulich, lokal für sensible Daten. Schnittstelle kompatibel halten.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·23 / 30

D: Organisation

Metriken & KPIs für KI-gestützte Entwicklung

Produktivität

· Time-to-first-green-test
· Briefing-Zeit vor Start (sollte sinken)
· Anzahl Rückfragen pro Feature

Qualität

· Test-Coverage (KI vs. manuell)
· Bug-Rate Production (Trend)
· Security-Findings in CI

Harness

· Anteil Tasks mit AC vor Start
· Anzahl evolvierter ADRs pro Sprint
· Context-Refresh-Frequenz

Warnsignale

Steigende Rückfragen = Kontext veraltet? · Sinkende Coverage = Vibe-Coding-Drift? · Wachsende Review-Last = L2 nicht erreicht?

Agentic AI in der Softwareentwicklung · 19.6.2026 A·24 / 30

D: Organisation

Team-Enablement: Strukturierter Ramp-up

Anti-Pattern: „Hier ist Claude, macht mal."

Woche 1–2

Phase 1

Ein Entwickler, ein Use Case. Test-Generierung für ein Feature. Baseline messen.

Woche 3–4

Phase 2

Harness aufbauen. Rules für Code-Stil. Erste ADRs. Reproduzierbarer Workflow.

Monat 2–3

Phase 3

Team übernimmt. Pair-Programming mit KI. Harness-Evolution nach Sprint.

Key: Ein Entwickler fängt an und zeigt was möglich ist. Dann zieht der Rest nach. Nicht alle auf einmal.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·25 / 30

D: Organisation

Compliance & Datenschutz im Dev-Kontext

Daten-Klassifizierung

Public → Cloud OK
Internal → Cloud mit DPA OK
Confidential → nur lokal
Restricted (Keys/Secrets) → nie an KI

Praktisch

· Secret-Scanner in CI
· Kontextueller Egress-Check vor Cloud-Delegation
· Audit-Trail welche Prompts an welches Modell

Banken-spezifisch

· BAIT/DORA: KI-Tools als IT-Outsourcing prüfen
· MaRisk: Dokumentation der KI-Nutzung
· BaFin: Änderungen beobachten

Vendor

· Claude Enterprise (DPA vorhanden)
· Azure OpenAI (DSGVO-konformer Endpoint)
· Verträge prüfen

Agentic AI in der Softwareentwicklung · 19.6.2026 A·26 / 30

E: Praxis

Antipatterns: Erkennbar und vermeidbar

Vibe Coding

„Generiere eine User-Verwaltung."

Symptom: Niemand kann sagen ob es Anforderungen erfüllt.

Fix: AC zuerst.

Kontext-Vergessen

Einmaliger Setup, nie gepflegt.

Symptom: KI macht überraschende Annahmen.

Fix: /handoff nach jedem Block.

Eyeball-Review

„Sieht gut aus" als Beweis.

Symptom: Bugs in Prod.

Fix: Automatisierter Test + CI.

Kein Zielbild

Task ohne „was kommt raus und wie prüfen wir?"

Symptom: Endlose Iterationen.

Fix: Outcome definieren BEVOR Prompt.

Gate-Bypassing

--no-verify unter Zeitdruck.

Symptom: Gate = Formalität.

Fix: Kein Merge ohne grüne Gates.

Falsches Modell

Immer das teuerste für jeden Task.

Symptom: Hohe Kosten, kein ROI-Unterschied.

Fix: Modell-Tiers einhalten.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·27 / 30

E: Praxis

Case Study: Vollständiger KI-gestützter Zyklus

Feature: Audit-Trail für Kundendaten-Änderungen

1

Kontext aufbauen — Meeting-Transkript → Constraints extrahiert. ADR-0042 erstellt.

2

Outcome definieren — AC: „Admin kann lesen, niemand kann löschen, 7 Jahre."

3

Tests generieren ERST — test_append_only(), test_admin_access(), test_retention_policy()

4

Code generieren — audit_record.py, audit_repository.py — Kontext: ADR-0042, Constraints, Codebase.

5

CI prüft — Tests grün, Linter grün, Secret-Scanner grün.

6

Deploy + Smoke — „audit_endpoint returns 200 for admin" — automatisch.

Von Meeting bis grünem Deploy — keine manuelle Verifikation nötig.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·28 / 30

E: Praxis

Einstiegspfade: Team-spezifische Empfehlungen

Team A · Keine Tests

Start: Test-Generierung für kritischste Komponente

Tool: Claude Code + pytest/jest

Milestone: 10 KI-Tests grün

1–2 Sprints

Team B · Tests, keine ADRs

Start: ADR für 3 wichtigste Architektur-Entscheide

Tool: Markdown ADRs im Repo

Milestone: KI referenziert ADRs automatisch

1 Sprint

Team C · Tests + ADRs, kein Harness

Start: Rules-Datei mit Top-10-Constraints

Tool: .claude/CLAUDE.md

Milestone: KI folgt Constraints ohne Erinnerung

3–5 Tage

Klein anfangen, einen Use Case, ROI messen, dann ausbauen.

Agentic AI in der Softwareentwicklung · 19.6.2026 A·29 / 30

E: Praxis

Glossar & Ressourcen

Glossar

Harness Steuerungssystem (Rules/Skills/Hooks/Context) Kontext-Engineering Bewusste Gestaltung des Agent-Kontexts ADR Architecture Decision Record Vibe Coding Code-Generierung ohne definierte Outcomes Smoke Test Schneller Post-Deploy Grundfunktions-Test Quality Gate Automatisiertes nicht-überbrückbares Qualitätskriterium Reifepfad Stufenmodell L0–L3 für KI-Integration Context Window Maximale Eingabegröße des Modells Handoff Gesicherter Übergabe-Stand für Session-Rotation Acceptance Criteria Messbare Bedingungen für Feature-Abnahme

Ressourcen

Andrej Karpathy „Vibe Coding" (YouTube)

Claude Code Dokumentation docs.anthropic.com

ADR-Pattern: github.com/joelparkerhenderson/architecture-decision-record

OWASP LLM Top 10

Semgrep: semgrep.dev (open source SAST)

gitleaks (secret scanner, open source)

Agentic AI in der Softwareentwicklung · 19.6.2026 A·30 / 30

Agentic AI in derSoftwareentwicklung

Vibe Coding: Warum „einfach anfangen" eine Sackgasse ist

Harness & Kontext-Engineering: Was wirklich zählt

Vier Ebenen — nicht springen, iterieren

Outcome statt Output: Deklarativ arbeiten

Wo der echte Hebel liegt

Was wirklich funktioniert — und was nicht

Drei konkrete erste Schritte

Anhang — Inhaltsübersicht

Was ist Kontext? — Die vollständige Definition

Harness-Architektur: Komponenten und Zusammenspiel

Meeting-Transkript als Kontext-Quelle — vollständiges Beispiel

ADR-Pattern: Architekturentscheide als persistierter Kontext

Prompt vs. Kontext — der Unterschied

Rules & Constraints — Praxis-Beispiele

Skills: Wiederverwendbare Instruktionsmuster

Hooks: Automatische Trigger im Entwicklungszyklus

Kontext-Quellen: Was alles in den Kontext gehört

Kontext-Budget: Wann komprimieren, wann rotieren

Context Window Management in der Praxis

Test-Generierung: Von Acceptance Criteria zu Tests

Prompt Engineering für Test-Generierung

Infrastructure as Code mit KI — Workflow

Deployment-Tests: Automatisierte Verifikation nach Deploy

CI/CD mit KI-Komponenten: Wo KI in die Pipeline gehört

Code Review Automation: Was funktioniert, was nicht

Quality Gates: Deterministisch aufsetzen

Reifegradmodell: Detailkriterien je Level

Tooling-Stack: Was womit

Modell-Auswahl: Wann welches Modell

Lokale vs. Cloud-Modelle: Kriterien für den Bankenkontext

Metriken & KPIs für KI-gestützte Entwicklung

Team-Enablement: Strukturierter Ramp-up

Compliance & Datenschutz im Dev-Kontext

Antipatterns: Erkennbar und vermeidbar

Case Study: Vollständiger KI-gestützter Zyklus

Einstiegspfade: Team-spezifische Empfehlungen

Glossar & Ressourcen

Agentic AI in der
Softwareentwicklung