KI Software Entwicklung: Von der Konzeption bis zum Deployment
KI Software Entwicklung ist nicht dasselbe wie traditionelle Softwareentwicklung. Eine Standard-Web-App folgt linearen Prozessen: Anforderung → Code → Test → Deploy. Fertig.
KI-Software ist iterativ. Sie sammeln Daten, trainieren ein Modell, stellen fest, dass die Accuracy nur 60% ist, gehen zurück und sammeln bessere Daten, trainieren wieder, und das wiederholt sich 10–20 Mal. Es gibt keine "Fertig"-Linie, sondern kontinuierliches Monitoring und Retraining.
Viele deutsche Unternehmen unterschätzen diesen Unterschied. Sie stellen einen Data Scientist ein, erwarten ein ML-Modell in 3 Monaten, und sind überrascht, wenn sich das Projekt in die Länge zieht. Das liegt nicht an Unzulänglichkeit – es liegt daran, dass sie die ML-Lifecycle nicht verstanden haben.
Dieser Artikel erklärt die vollständige KI-Entwicklungs-Lifecycle von Anfang bis Ende: Datenaufbereitung, Feature Engineering, Modelltraining, Evaluation, Deployment, Monitoring. Dazu Kosten, Team-Struktur und Tools.
Die KI-Entwicklungs-Lifecycle: Überblick
graph LR
A["1. Problem<br/>Definition<br/>2-4 Wo"] --> B["2. Daten<br/>Sammlung<br/>2-8 Wo"]
B --> C["3. Daten<br/>Preparation<br/>3-6 Wo"]
C --> D["4. Feature<br/>Engineering<br/>2-4 Wo"]
D --> E["5. Modell<br/>Training<br/>1-4 Wo"]
E --> F["6. Evaluation<br/>& Testing<br/>1-2 Wo"]
F --> G{Erfolgreich?}
G -->|Nein| D
G -->|Ja| H["7. Deployment<br/>to Production<br/>2-4 Wo"]
H --> I["8. Monitoring<br/>& Maintenance<br/>Laufend"]
I --> J{Performance<br/>degradiert?}
J -->|Ja| B
J -->|Nein| I
style A fill:#1F3864
style B fill:#1F3864
style C fill:#2E75B6
style D fill:#2E75B6
style E fill:#1F3864
style F fill:#2E75B6
style G fill:#1F3864
style H fill:#2E75B6
style I fill:#1F3864
Phase 1: Problem Definition (2–4 Wochen)
Ziel: Verstehen, welches Business-Problem Sie lösen wollen und ob KI dafür geeignet ist.
Aktivitäten:
- Stakeholder-Interviews (Finance, Operations, IT)
- Definition von Erfolgs-Metriken (z.B. "Reduce manual effort by 50%")
- Daten-Audit: Haben Sie die Daten? In welcher Qualität?
- Feasibility-Check: Ist dieses Problem ML-lösbar?
Typische Erkenntnisse:
- "Wir dachten, wir brauchen ein Neural Network. Aber die Daten sind zu dünn. Ein Klassisches ML-Modell reicht."
- "Unser Hauptproblem ist nicht ML. Das ist Datensauberkeit."
- "KI ist die richtige Lösung, aber wir müssen zunächst 6 Monate Daten sammeln."
Output: Problem Statement, Erfolgs-Metriken, Ressourcen-Plan, Timeline-Estimate
Kosten: 5.000–20.000 EUR (interne Ressourcen oder externe Beratung)
Phase 2: Datensammlung (2–8 Wochen)
Das ist oft das längste und schmerzhafteste Phase. Gute ML-Modelle brauchen große, qualitativ hochwertige Datenmengen.
Aktivitäten:
- Daten aus Legacy-Systemen extrahieren (Datenbanken, Dateien, APIs)
- Fehlende Daten sammeln (z.B. Kundenfeedback, Bilder, Zeitreihen-Daten)
- Data Labeling: Menschen manuell Tags erstellen (z.B. "Diese E-Mail ist SPAM" oder "Nicht SPAM")
- Qualitäts-Checks durchführen
Realität von Daten-Labeling:
Für ein Bildklassifikations-Projekt brauchen Sie 1.000–5.000 gelabelte Bilder. Wenn Sie ein Team haben, das 50 Bilder pro Tag labelt, braucht das 20–100 Tage. Das kostet ca. 5.000–20.000 EUR. Falls Sie einen Service wie Amazon Ground Truth oder Scale AI nutzen, ist es teurer (10.000–50.000 EUR) aber schneller (1–2 Wochen).
Tools:
- Label Studio oder Prodigy (Open-source / kostengünstig)
- Amazon SageMaker Ground Truth (teuer, aber vollständig automatisiert)
- Scale AI oder Labelbox (Managed Services)
Häufiger Fehler: Zu wenige Daten sammeln. Wenn Sie mit 100 Datenpunkten starten und nach 3 Monaten merken, dass Sie 5.000 brauchen, haben Sie Zeit verschwendet.
Output: Gelabeled Dataset mit 80/10/10 Split (80% Training, 10% Validation, 10% Test)
Kosten: 5.000–50.000 EUR abhängig von Datenmenge und Komplexität
Phase 3: Daten-Vorbereitung / Cleaning (3–6 Wochen)
"80% der Zeit in einem ML-Projekt geht in Daten-Vorbereitung" – das ist nicht übertrieben.
Aktivitäten:
- Fehlende Werte behandeln (NaN, NULL). Sollen Sie gelöscht oder interpoliert werden?
- Ausreißer erkennen (z.B. ein Kunde der 1.000.000 EUR ausgegeben hat, wenn normal 1.000 EUR). Sollen diese gelöscht werden?
- Daten-Normalisierung (z.B. alle Preise auf 0–1 skalieren, damit das Modell schneller trainiert)
- Kategoriale Variablen encoding (z.B. "Farbe: Rot" → 1, "Farbe: Blau" → 2)
- Duplikate entfernen
- Data Validation (Sind die Daten sinnvoll?)
Beispiel: Rechnungs-Automations-Projekt
Sie haben 5.000 digitalisierte Rechnungen. Beim Cleaning stellen Sie fest:
- 500 Rechnungen haben unlesbare OCR-Ausgabe (Müll) → Löschen
- 200 Rechnungen sind Duplikate (gleiche Rechnung doppelt hochgeladen) → Löschen
- 100 Rechnungen haben fehlende Felder (z.B. MwSt.-Nummer) → Nachforschen oder löschen
- Übrig bleiben 4.200 brauchbare Rechnungen
Das ist eine realistische Quote: 15–20% Ihrer Rohdaten sind am Ende nicht brauchbar.
Tools:
- Pandas (Python, open-source)
- Apache Spark (für sehr große Datenmengen)
- Trifacta oder Talend (visuell, aber teuer)
Output: Sauberes, strukturiertes Dataset bereit für Feature Engineering
Kosten: 10.000–30.000 EUR in Data Scientist Zeit
Phase 4: Feature Engineering (2–4 Wochen)
Features sind die Input-Variablen, die Ihr Modell nutzt um Vorhersagen zu treffen. Die Qualität Ihrer Features bestimmt die Qualität Ihres Modells stärker als der Algorithmus selbst.
Aktivitäten:
- Feature Selection: Welche Variablen sind relevant? (z.B. für Churn-Prognose: "Kundenlaufzeit" ist relevant, "Kundenemail" nicht)
- Feature Creation: Neue Features aus bestehenden Daten ableiten (z.B. aus "Alter" und "Jahresgehalt" einen "Disposable Income"-Feature erstellen)
- Temporal Features: Wenn Sie Zeitreihen-Daten haben, erstellen Sie Features wie "Durchschnittlicher Umsatz der letzten 30 Tage"
- Feature Interaction: Kombination von Features (z.B. "Alter × Jahresgehalt")
Beispiel: Kreditrisiko-Modell
Rohe Features:
- Alter
- Jahresgehalt
- Kredithistorie (Monate)
- Schuldenquote
Engineered Features:
- Alter × Schuldenquote (Ältere mit hoher Schuldenquote sind riskanter)
- (Jahresgehalt / Schulden) (Schuldendeckungsquote)
- Loan-to-Income Ratio
- Credit Score (aus Kredithistorie berechnet)
Das Modell wird mit den engineered Features viel besser sein als mit den rohen Daten.
Output: Feature Matrix (Tabelle mit allen Samples und Features)
Kosten: 5.000–15.000 EUR in Data Scientist Zeit
Phase 5: Modell-Training (1–4 Wochen)
Aktivitäten:
- Algorithmen-Auswahl: Welcher Algorithmus passt? (z.B. Logistic Regression für Klassifikation, Random Forest für komplexere Patterns, Neural Networks für sehr große Datenmengen und Bilder)
- Hyperparameter-Tuning: Einstellen von Modell-Knöpfen (Learning Rate, Tree Depth, etc.)
- Cross-Validation: Testen des Modells auf verschiedenen Datensubsets
- Baseline-Vergleich: Vergleich mit einfachen Baselines (z.B. "Immer die häufigste Klasse vorhersagen")
Typischer Trainingsverlauf:
Woche 1: Training mit Standard-Einstellungen → Accuracy 60% Woche 2: Hyperparameter-Tuning → Accuracy 75% Woche 3: Feature Engineering verbessert → Accuracy 82% Woche 4: Mehr Daten sammeln → Accuracy 88%
Das ist normal. Kein Modell ist beim ersten Mal perfekt.
Tools:
- TensorFlow / Keras (für Neural Networks)
- scikit-learn (für klassische ML)
- XGBoost / LightGBM (für Tabular Data)
- PyTorch (für Advanced Deep Learning)
- Cloud Platforms: Azure ML, SageMaker, Vertex AI (alles mit automatischem Training möglich)
Output: Trainiertes Modell mit dokumentierten Hyperparametern
Kosten: 3.000–10.000 EUR in GPU-Ressourcen + Data Scientist Zeit
Phase 6: Evaluation & Testing (1–2 Wochen)
Aktivitäten:
- Performance-Metriken berechnen (Accuracy, Precision, Recall, F1, ROC-AUC)
- Error Analysis: Wo macht das Modell Fehler?
- Bias & Fairness Check: Diskriminiert das Modell gegen bestimmte Gruppen?
- Stress Testing: Wie verhält sich das Modell mit unerwarteten Daten?
Beispiel Metrik-Interpretation:
Ein Klassifikations-Modell für "Fraud Detection":
- Accuracy: 95% – sounds gut!
- Aber: Precision = 40% (40% der als Fraud vorhergesagten sind tatsächlich Fraud, 60% sind Falsch-Positive)
- Das bedeutet: Das Modell wird 100 Kunden als Betrüger fälschlich flaggen. Das ist business-untragbar.
Die richtige Metrik hier ist Precision oder F1, nicht Accuracy.
Output: Performance Report mit allen Metriken, Fehler-Analyse, Recommendations
Kosten: 2.000–5.000 EUR
Phase 7: Deployment to Production (2–4 Wochen)
Das Schwierigste: Ein Modell von "es funktioniert in meinem Notebook" zu "es läuft 24/7 und ist robust" zu bringen.
Aktivitäten:
- Containerization: Das Modell in Docker Container verpacken
- API Wrapper: REST API oder gRPC bauen (damit andere Services das Modell nutzen können)
- Serving Infrastructure: Auf Kubernetes deployen oder Cloud-Plattform nutzen
- Monitoring Setup: Logs, Metrics, Alerts
- A/B Testing: New Model vs. Old Model für einen Prozentsatz der Traffic, Vergleich der Ergebnisse
Reale Komplexität:
Der Data Scientist trainiert ein Modell mit Python in Jupyter Notebooks. Das ist 500 Zeilen ad-hoc Code. Um das zu Production zu bringen, brauchte es:
- Code Refactoring (Modularisierung, Error Handling, Logging)
- Dependency Management (welche Libraries braucht das Modell? Welche Versionen?)
- Data Pipeline (wie kommen die Daten in Production ins Modell?)
- Serving (FastAPI, Flask, oder Cloud Services)
- Infrastructure (Docker, Kubernetes oder Serverless)
- Monitoring (Performance Degradation erkennen)
Das ist nicht mehr Data Science, das ist Software Engineering. Das ist warum große Teams Data Scientists + Machine Learning Engineers trennen.
Tools:
- MLflow oder Kubeflow (Workflow Orchestration)
- FastAPI oder Flask (Python APIs)
- Docker & Kubernetes (Containerization & Orchestration)
- Cloud Services: Azure ML, SageMaker, Vertex AI
- Monitoring: Prometheus, Datadog, CloudWatch
Output: Production Model mit API, Monitoring, Runbooks für Ops
Kosten: 20.000–50.000 EUR + 50.000–200.000 EUR für Infrastructure
Phase 8: Monitoring & Maintenance (Laufend)
Das Modell ist live, aber es ist nicht fertig. Es braucht kontinuierliches Monitoring.
Aktivitäten:
- Performance Monitoring: Sinkt die Accuracy über Zeit? (Z.B. neuer Spamming-Trend, den das Spam-Filter nicht kennt)
- Data Drift Detection: Sehen die neuen Daten anders aus als die Trainings-Daten?
- Retraining Pipelines: Automatisch das Modell retrain mit neueren Daten (z.B. jeden Monat)
- A/B Tests: Neue Modell-Versionen gegen Produktions-Version testen
- User Feedback Loop: Sammeln von Feedback, um das Modell zu verbessern
Reale Beispiel: Spam-Filter
Ein Spam-Filter wird mit Daten aus 2025 trainiert und erreicht 95% Accuracy. Aber in 2026 ändern sich Spammer-Taktiken. Der Filter sieht neue Spam-Wörter, neue Phishing-Schemes. Ohne Retraining sinkt die Accuracy auf 85%.
Die Lösung: Automated Retraining jeden Monat mit den neuesten Daten, automatische Performance-Metriken überwachen.
Output: Ongoing Monitoring, Retraining Pipeline, Updated Models
Kosten: 10.000–30.000 EUR pro Jahr für ML Engineer + Cloud-Ressourcen
Team-Struktur für KI-Entwicklung
Kleine Projekte (Budget < 100.000 EUR):
1 Full-Stack Data Scientist
- Datenaufbereitung, Feature Engineering, Modell-Training, Deployment
- Gehalt: 60.000–80.000 EUR/Jahr
- Belastung: Kann 1–2 gleichzeitige Projekte handhaben
Mittlere Projekte (100.000–500.000 EUR):
1 Data Scientist + 1 ML Engineer
- Data Scientist: Data Preparation, Feature Engineering, Modell-Training
- ML Engineer: Deployment, Monitoring, Infrastructure
- Gehalt kombiniert: 140.000–180.000 EUR/Jahr
- Belastung: Kann 2–3 gleichzeitige Projekte handhaben
Große Projekte / Teams (500.000 EUR+):
1 Data Scientist + 1 ML Engineer + 1 Data Engineer + 1 ML Ops Engineer
- Data Scientist: Modell-Innovation, Experiments
- ML Engineer: Deployment, Integrations
- Data Engineer: Data Infrastructure, Pipelines, ETL
- ML Ops Engineer: Monitoring, Retraining Automation, CI/CD
- Gehalt kombiniert: 250.000–350.000 EUR/Jahr
- Belastung: Kann 5+ Projekte handhaben
Kosten-Übersicht für ein typisches KI-Projekt
Annahmen: Bildklassifikations-Modell für ein Mittelstands-Unternehmen
| Phase | Dauer | Kosten (Material) | Kosten (Team) | Total |
|---|---|---|---|---|
| Problem Definition | 2 Wo | 0 | 5.000 EUR | 5.000 EUR |
| Datensammlung | 4 Wo | 5.000 EUR | 10.000 EUR | 15.000 EUR |
| Data Preparation | 4 Wo | 0 | 15.000 EUR | 15.000 EUR |
| Feature Engineering | 3 Wo | 0 | 10.000 EUR | 10.000 EUR |
| Modell-Training | 2 Wo | 3.000 EUR (GPU) | 8.000 EUR | 11.000 EUR |
| Evaluation | 1 Wo | 0 | 5.000 EUR | 5.000 EUR |
| Deployment | 3 Wo | 5.000 EUR (Infra) | 15.000 EUR | 20.000 EUR |
| Gesamt | 19 Wo | 13.000 EUR | 68.000 EUR | 81.000 EUR |
+ Laufende Kosten pro Jahr: 30.000 EUR (Monitoring, Retraining, Infrastructure)
Häufige Fehler in der KI-Entwicklung
Fehler 1: Zu wenig Daten sammeln
Sie starten mit 500 Datenpunkten, das Modell hat 60% Accuracy. Sie merken, dass Sie 5.000 brauchten. Zu spät.
Lösung: Am Anfang erkennen, wie viele Daten Sie brauchen (abhängig vom Modell-Typ). Daten-Sammlung sollte früh starten.
Fehler 2: Zu viel Zeit auf Modell-Tuning, zu wenig auf Features
Sie spenden 2 Monate auf Hyperparameter-Tuning und erreichen 78% Accuracy. Ein guter Datenwissenschaftler würde in 1 Woche bessere Features engineering und 85% Accuracy erreichen.
Lösung: "Machine Learning ist 80% Features, 20% Algorithmen."
Fehler 3: Modell ≠ Product
Sie trainieren ein Modell in Jupyter, aber es läuft nicht in Production. Der Code ist nicht production-ready (keine Error Handling, keine Logging).
Lösung: Separaten ML Engineer einstellen, der den Code production-ready macht.
Fehler 4: Keine Baseline
Sie trainieren ein komplexes Neural Network mit 88% Accuracy, aber merken später: Ein einfaches Logistic Regression hätte 86% erreicht. Sie haben 2 Monate auf Komplexität verschwendet.
Lösung: Am Anfang eine einfache Baseline trainieren (Logistic Regression, Decision Tree). Nur wenn das nicht reicht, go for complex.
Fehler 5: Zu wenig Monitoring in Production
Das Modell läuft 6 Monate, dann sinkt die Performance auf 72% (weil sich die Daten geändert haben). Sie merken das nicht bis ein Customer sich beschwert.
Lösung: Monitoring-Alerts setzen. Wenn Accuracy < 80%, Alert → retraining.
Schlüssel-Erfolgsfaktoren
1. Gute Daten ist wichtiger als gute Algorithmen
Ein 8GB Dataset mit einfarem Random Forest schlägt ein 100MB Dataset mit State-of-the-Art Neural Network.
2. Anfang klar definieren
"Welches Geschäft-Problem lösen wir?" muss vorher klar sein, nicht hinterher.
3. Iterativ, nicht Waterfall
Trainieren → Evaluieren → Lernen → Back to #2. Nicht: "Wir sammeln 12 Monate Daten und dann bauen wir das Modell."
4. Team-Diversity
Sie brauchen nicht nur einen "Datenwissenschaftler". Sie brauchen Data Science + Software Engineering + Business Understanding.
5. Metrics, Metrics, Metrics
Die Business-Metrik (z.B. "ROI") ist unterschiedlich von der ML-Metrik (z.B. "Accuracy"). Optimieren Sie für Business-Metrik, nicht ML-Metrik.
FAQ
Wie lange dauert es, ein ML-Modell zu entwickeln?
Einfaches Modell (z.B. Klassifikation mit 1.000 Datenpunkten): 3–4 Monate Standard Modell (z.B. Rechnungs-Klassifikation): 5–7 Monate Komplexes Modell (z.B. Computer Vision): 6–12 Monate
Das schließt Problem Definition, Data Gathering, Training, Testing, Deployment ein.
Kann ich einen vortrainierten Modell nutzen statt von Anfang zu trainieren?
Ja, und das ist oft der intelligente Weg. Hugging Face hat 100.000+ vorgefertigte Modelle. Sie können ein vorgefertigtes Modell fine-tunen statt von Null zu trainieren. Das spart 2–3 Monate.
Wie viel kostet die Infrastruktur für KI?
Kleine Setup: 500–1.000 EUR/Monat (Cloud, Standard VMs) Mittlere Setup: 2.000–5.000 EUR/Monat (GPU-Cluster für Training) Große Setup: 10.000–50.000 EUR/Monat (Dedicated Infrastructure)
[[CTA: Kostenloses Beratungsgespräch vereinbaren → /de/kontakt]]

