Zurück zum Blog

KI Software Entwicklung: Von Konzeption bis Deployment

KI Software Entwicklung: Von Konzeption bis Deployment
Digital Colliers May 22, 2026 10 min read

KI Software Entwicklung: Von der Konzeption bis zum Deployment

KI Software Entwicklung ist nicht dasselbe wie traditionelle Softwareentwicklung. Eine Standard-Web-App folgt linearen Prozessen: Anforderung → Code → Test → Deploy. Fertig.

KI-Software ist iterativ. Sie sammeln Daten, trainieren ein Modell, stellen fest, dass die Accuracy nur 60% ist, gehen zurück und sammeln bessere Daten, trainieren wieder, und das wiederholt sich 10–20 Mal. Es gibt keine "Fertig"-Linie, sondern kontinuierliches Monitoring und Retraining.

Viele deutsche Unternehmen unterschätzen diesen Unterschied. Sie stellen einen Data Scientist ein, erwarten ein ML-Modell in 3 Monaten, und sind überrascht, wenn sich das Projekt in die Länge zieht. Das liegt nicht an Unzulänglichkeit – es liegt daran, dass sie die ML-Lifecycle nicht verstanden haben.

Dieser Artikel erklärt die vollständige KI-Entwicklungs-Lifecycle von Anfang bis Ende: Datenaufbereitung, Feature Engineering, Modelltraining, Evaluation, Deployment, Monitoring. Dazu Kosten, Team-Struktur und Tools.

Die KI-Entwicklungs-Lifecycle: Überblick

graph LR
    A["1. Problem<br/>Definition<br/>2-4 Wo"] --> B["2. Daten<br/>Sammlung<br/>2-8 Wo"]
    B --> C["3. Daten<br/>Preparation<br/>3-6 Wo"]
    C --> D["4. Feature<br/>Engineering<br/>2-4 Wo"]
    D --> E["5. Modell<br/>Training<br/>1-4 Wo"]
    E --> F["6. Evaluation<br/>& Testing<br/>1-2 Wo"]
    F --> G{Erfolgreich?}
    G -->|Nein| D
    G -->|Ja| H["7. Deployment<br/>to Production<br/>2-4 Wo"]
    H --> I["8. Monitoring<br/>& Maintenance<br/>Laufend"]
    I --> J{Performance<br/>degradiert?}
    J -->|Ja| B
    J -->|Nein| I
    style A fill:#1F3864
    style B fill:#1F3864
    style C fill:#2E75B6
    style D fill:#2E75B6
    style E fill:#1F3864
    style F fill:#2E75B6
    style G fill:#1F3864
    style H fill:#2E75B6
    style I fill:#1F3864

Phase 1: Problem Definition (2–4 Wochen)

Ziel: Verstehen, welches Business-Problem Sie lösen wollen und ob KI dafür geeignet ist.

Aktivitäten:

  • Stakeholder-Interviews (Finance, Operations, IT)
  • Definition von Erfolgs-Metriken (z.B. "Reduce manual effort by 50%")
  • Daten-Audit: Haben Sie die Daten? In welcher Qualität?
  • Feasibility-Check: Ist dieses Problem ML-lösbar?

Typische Erkenntnisse:

  • "Wir dachten, wir brauchen ein Neural Network. Aber die Daten sind zu dünn. Ein Klassisches ML-Modell reicht."
  • "Unser Hauptproblem ist nicht ML. Das ist Datensauberkeit."
  • "KI ist die richtige Lösung, aber wir müssen zunächst 6 Monate Daten sammeln."

Output: Problem Statement, Erfolgs-Metriken, Ressourcen-Plan, Timeline-Estimate

Kosten: 5.000–20.000 EUR (interne Ressourcen oder externe Beratung)


Phase 2: Datensammlung (2–8 Wochen)

Das ist oft das längste und schmerzhafteste Phase. Gute ML-Modelle brauchen große, qualitativ hochwertige Datenmengen.

Aktivitäten:

  • Daten aus Legacy-Systemen extrahieren (Datenbanken, Dateien, APIs)
  • Fehlende Daten sammeln (z.B. Kundenfeedback, Bilder, Zeitreihen-Daten)
  • Data Labeling: Menschen manuell Tags erstellen (z.B. "Diese E-Mail ist SPAM" oder "Nicht SPAM")
  • Qualitäts-Checks durchführen

Realität von Daten-Labeling:

Für ein Bildklassifikations-Projekt brauchen Sie 1.000–5.000 gelabelte Bilder. Wenn Sie ein Team haben, das 50 Bilder pro Tag labelt, braucht das 20–100 Tage. Das kostet ca. 5.000–20.000 EUR. Falls Sie einen Service wie Amazon Ground Truth oder Scale AI nutzen, ist es teurer (10.000–50.000 EUR) aber schneller (1–2 Wochen).

Tools:

  • Label Studio oder Prodigy (Open-source / kostengünstig)
  • Amazon SageMaker Ground Truth (teuer, aber vollständig automatisiert)
  • Scale AI oder Labelbox (Managed Services)

Häufiger Fehler: Zu wenige Daten sammeln. Wenn Sie mit 100 Datenpunkten starten und nach 3 Monaten merken, dass Sie 5.000 brauchen, haben Sie Zeit verschwendet.

Output: Gelabeled Dataset mit 80/10/10 Split (80% Training, 10% Validation, 10% Test)

Kosten: 5.000–50.000 EUR abhängig von Datenmenge und Komplexität


Phase 3: Daten-Vorbereitung / Cleaning (3–6 Wochen)

"80% der Zeit in einem ML-Projekt geht in Daten-Vorbereitung" – das ist nicht übertrieben.

Aktivitäten:

  • Fehlende Werte behandeln (NaN, NULL). Sollen Sie gelöscht oder interpoliert werden?
  • Ausreißer erkennen (z.B. ein Kunde der 1.000.000 EUR ausgegeben hat, wenn normal 1.000 EUR). Sollen diese gelöscht werden?
  • Daten-Normalisierung (z.B. alle Preise auf 0–1 skalieren, damit das Modell schneller trainiert)
  • Kategoriale Variablen encoding (z.B. "Farbe: Rot" → 1, "Farbe: Blau" → 2)
  • Duplikate entfernen
  • Data Validation (Sind die Daten sinnvoll?)

Beispiel: Rechnungs-Automations-Projekt

Sie haben 5.000 digitalisierte Rechnungen. Beim Cleaning stellen Sie fest:

  • 500 Rechnungen haben unlesbare OCR-Ausgabe (Müll) → Löschen
  • 200 Rechnungen sind Duplikate (gleiche Rechnung doppelt hochgeladen) → Löschen
  • 100 Rechnungen haben fehlende Felder (z.B. MwSt.-Nummer) → Nachforschen oder löschen
  • Übrig bleiben 4.200 brauchbare Rechnungen

Das ist eine realistische Quote: 15–20% Ihrer Rohdaten sind am Ende nicht brauchbar.

Tools:

  • Pandas (Python, open-source)
  • Apache Spark (für sehr große Datenmengen)
  • Trifacta oder Talend (visuell, aber teuer)

Output: Sauberes, strukturiertes Dataset bereit für Feature Engineering

Kosten: 10.000–30.000 EUR in Data Scientist Zeit


Phase 4: Feature Engineering (2–4 Wochen)

Features sind die Input-Variablen, die Ihr Modell nutzt um Vorhersagen zu treffen. Die Qualität Ihrer Features bestimmt die Qualität Ihres Modells stärker als der Algorithmus selbst.

Aktivitäten:

  • Feature Selection: Welche Variablen sind relevant? (z.B. für Churn-Prognose: "Kundenlaufzeit" ist relevant, "Kundenemail" nicht)
  • Feature Creation: Neue Features aus bestehenden Daten ableiten (z.B. aus "Alter" und "Jahresgehalt" einen "Disposable Income"-Feature erstellen)
  • Temporal Features: Wenn Sie Zeitreihen-Daten haben, erstellen Sie Features wie "Durchschnittlicher Umsatz der letzten 30 Tage"
  • Feature Interaction: Kombination von Features (z.B. "Alter × Jahresgehalt")

Beispiel: Kreditrisiko-Modell

Rohe Features:

  • Alter
  • Jahresgehalt
  • Kredithistorie (Monate)
  • Schuldenquote

Engineered Features:

  • Alter × Schuldenquote (Ältere mit hoher Schuldenquote sind riskanter)
  • (Jahresgehalt / Schulden) (Schuldendeckungsquote)
  • Loan-to-Income Ratio
  • Credit Score (aus Kredithistorie berechnet)

Das Modell wird mit den engineered Features viel besser sein als mit den rohen Daten.

Output: Feature Matrix (Tabelle mit allen Samples und Features)

Kosten: 5.000–15.000 EUR in Data Scientist Zeit


Phase 5: Modell-Training (1–4 Wochen)

Aktivitäten:

  • Algorithmen-Auswahl: Welcher Algorithmus passt? (z.B. Logistic Regression für Klassifikation, Random Forest für komplexere Patterns, Neural Networks für sehr große Datenmengen und Bilder)
  • Hyperparameter-Tuning: Einstellen von Modell-Knöpfen (Learning Rate, Tree Depth, etc.)
  • Cross-Validation: Testen des Modells auf verschiedenen Datensubsets
  • Baseline-Vergleich: Vergleich mit einfachen Baselines (z.B. "Immer die häufigste Klasse vorhersagen")

Typischer Trainingsverlauf:

Woche 1: Training mit Standard-Einstellungen → Accuracy 60% Woche 2: Hyperparameter-Tuning → Accuracy 75% Woche 3: Feature Engineering verbessert → Accuracy 82% Woche 4: Mehr Daten sammeln → Accuracy 88%

Das ist normal. Kein Modell ist beim ersten Mal perfekt.

Tools:

  • TensorFlow / Keras (für Neural Networks)
  • scikit-learn (für klassische ML)
  • XGBoost / LightGBM (für Tabular Data)
  • PyTorch (für Advanced Deep Learning)
  • Cloud Platforms: Azure ML, SageMaker, Vertex AI (alles mit automatischem Training möglich)

Output: Trainiertes Modell mit dokumentierten Hyperparametern

Kosten: 3.000–10.000 EUR in GPU-Ressourcen + Data Scientist Zeit


Phase 6: Evaluation & Testing (1–2 Wochen)

Aktivitäten:

  • Performance-Metriken berechnen (Accuracy, Precision, Recall, F1, ROC-AUC)
  • Error Analysis: Wo macht das Modell Fehler?
  • Bias & Fairness Check: Diskriminiert das Modell gegen bestimmte Gruppen?
  • Stress Testing: Wie verhält sich das Modell mit unerwarteten Daten?

Beispiel Metrik-Interpretation:

Ein Klassifikations-Modell für "Fraud Detection":

  • Accuracy: 95% – sounds gut!
  • Aber: Precision = 40% (40% der als Fraud vorhergesagten sind tatsächlich Fraud, 60% sind Falsch-Positive)
  • Das bedeutet: Das Modell wird 100 Kunden als Betrüger fälschlich flaggen. Das ist business-untragbar.

Die richtige Metrik hier ist Precision oder F1, nicht Accuracy.

Output: Performance Report mit allen Metriken, Fehler-Analyse, Recommendations

Kosten: 2.000–5.000 EUR


Phase 7: Deployment to Production (2–4 Wochen)

Das Schwierigste: Ein Modell von "es funktioniert in meinem Notebook" zu "es läuft 24/7 und ist robust" zu bringen.

Aktivitäten:

  • Containerization: Das Modell in Docker Container verpacken
  • API Wrapper: REST API oder gRPC bauen (damit andere Services das Modell nutzen können)
  • Serving Infrastructure: Auf Kubernetes deployen oder Cloud-Plattform nutzen
  • Monitoring Setup: Logs, Metrics, Alerts
  • A/B Testing: New Model vs. Old Model für einen Prozentsatz der Traffic, Vergleich der Ergebnisse

Reale Komplexität:

Der Data Scientist trainiert ein Modell mit Python in Jupyter Notebooks. Das ist 500 Zeilen ad-hoc Code. Um das zu Production zu bringen, brauchte es:

  1. Code Refactoring (Modularisierung, Error Handling, Logging)
  2. Dependency Management (welche Libraries braucht das Modell? Welche Versionen?)
  3. Data Pipeline (wie kommen die Daten in Production ins Modell?)
  4. Serving (FastAPI, Flask, oder Cloud Services)
  5. Infrastructure (Docker, Kubernetes oder Serverless)
  6. Monitoring (Performance Degradation erkennen)

Das ist nicht mehr Data Science, das ist Software Engineering. Das ist warum große Teams Data Scientists + Machine Learning Engineers trennen.

Tools:

  • MLflow oder Kubeflow (Workflow Orchestration)
  • FastAPI oder Flask (Python APIs)
  • Docker & Kubernetes (Containerization & Orchestration)
  • Cloud Services: Azure ML, SageMaker, Vertex AI
  • Monitoring: Prometheus, Datadog, CloudWatch

Output: Production Model mit API, Monitoring, Runbooks für Ops

Kosten: 20.000–50.000 EUR + 50.000–200.000 EUR für Infrastructure


Phase 8: Monitoring & Maintenance (Laufend)

Das Modell ist live, aber es ist nicht fertig. Es braucht kontinuierliches Monitoring.

Aktivitäten:

  • Performance Monitoring: Sinkt die Accuracy über Zeit? (Z.B. neuer Spamming-Trend, den das Spam-Filter nicht kennt)
  • Data Drift Detection: Sehen die neuen Daten anders aus als die Trainings-Daten?
  • Retraining Pipelines: Automatisch das Modell retrain mit neueren Daten (z.B. jeden Monat)
  • A/B Tests: Neue Modell-Versionen gegen Produktions-Version testen
  • User Feedback Loop: Sammeln von Feedback, um das Modell zu verbessern

Reale Beispiel: Spam-Filter

Ein Spam-Filter wird mit Daten aus 2025 trainiert und erreicht 95% Accuracy. Aber in 2026 ändern sich Spammer-Taktiken. Der Filter sieht neue Spam-Wörter, neue Phishing-Schemes. Ohne Retraining sinkt die Accuracy auf 85%.

Die Lösung: Automated Retraining jeden Monat mit den neuesten Daten, automatische Performance-Metriken überwachen.

Output: Ongoing Monitoring, Retraining Pipeline, Updated Models

Kosten: 10.000–30.000 EUR pro Jahr für ML Engineer + Cloud-Ressourcen


Team-Struktur für KI-Entwicklung

Kleine Projekte (Budget < 100.000 EUR):

1 Full-Stack Data Scientist

  • Datenaufbereitung, Feature Engineering, Modell-Training, Deployment
  • Gehalt: 60.000–80.000 EUR/Jahr
  • Belastung: Kann 1–2 gleichzeitige Projekte handhaben

Mittlere Projekte (100.000–500.000 EUR):

1 Data Scientist + 1 ML Engineer

  • Data Scientist: Data Preparation, Feature Engineering, Modell-Training
  • ML Engineer: Deployment, Monitoring, Infrastructure
  • Gehalt kombiniert: 140.000–180.000 EUR/Jahr
  • Belastung: Kann 2–3 gleichzeitige Projekte handhaben

Große Projekte / Teams (500.000 EUR+):

1 Data Scientist + 1 ML Engineer + 1 Data Engineer + 1 ML Ops Engineer

  • Data Scientist: Modell-Innovation, Experiments
  • ML Engineer: Deployment, Integrations
  • Data Engineer: Data Infrastructure, Pipelines, ETL
  • ML Ops Engineer: Monitoring, Retraining Automation, CI/CD
  • Gehalt kombiniert: 250.000–350.000 EUR/Jahr
  • Belastung: Kann 5+ Projekte handhaben

Kosten-Übersicht für ein typisches KI-Projekt

Annahmen: Bildklassifikations-Modell für ein Mittelstands-Unternehmen

Phase Dauer Kosten (Material) Kosten (Team) Total
Problem Definition 2 Wo 0 5.000 EUR 5.000 EUR
Datensammlung 4 Wo 5.000 EUR 10.000 EUR 15.000 EUR
Data Preparation 4 Wo 0 15.000 EUR 15.000 EUR
Feature Engineering 3 Wo 0 10.000 EUR 10.000 EUR
Modell-Training 2 Wo 3.000 EUR (GPU) 8.000 EUR 11.000 EUR
Evaluation 1 Wo 0 5.000 EUR 5.000 EUR
Deployment 3 Wo 5.000 EUR (Infra) 15.000 EUR 20.000 EUR
Gesamt 19 Wo 13.000 EUR 68.000 EUR 81.000 EUR

+ Laufende Kosten pro Jahr: 30.000 EUR (Monitoring, Retraining, Infrastructure)


Häufige Fehler in der KI-Entwicklung

Fehler 1: Zu wenig Daten sammeln

Sie starten mit 500 Datenpunkten, das Modell hat 60% Accuracy. Sie merken, dass Sie 5.000 brauchten. Zu spät.

Lösung: Am Anfang erkennen, wie viele Daten Sie brauchen (abhängig vom Modell-Typ). Daten-Sammlung sollte früh starten.

Fehler 2: Zu viel Zeit auf Modell-Tuning, zu wenig auf Features

Sie spenden 2 Monate auf Hyperparameter-Tuning und erreichen 78% Accuracy. Ein guter Datenwissenschaftler würde in 1 Woche bessere Features engineering und 85% Accuracy erreichen.

Lösung: "Machine Learning ist 80% Features, 20% Algorithmen."

Fehler 3: Modell ≠ Product

Sie trainieren ein Modell in Jupyter, aber es läuft nicht in Production. Der Code ist nicht production-ready (keine Error Handling, keine Logging).

Lösung: Separaten ML Engineer einstellen, der den Code production-ready macht.

Fehler 4: Keine Baseline

Sie trainieren ein komplexes Neural Network mit 88% Accuracy, aber merken später: Ein einfaches Logistic Regression hätte 86% erreicht. Sie haben 2 Monate auf Komplexität verschwendet.

Lösung: Am Anfang eine einfache Baseline trainieren (Logistic Regression, Decision Tree). Nur wenn das nicht reicht, go for complex.

Fehler 5: Zu wenig Monitoring in Production

Das Modell läuft 6 Monate, dann sinkt die Performance auf 72% (weil sich die Daten geändert haben). Sie merken das nicht bis ein Customer sich beschwert.

Lösung: Monitoring-Alerts setzen. Wenn Accuracy < 80%, Alert → retraining.


Schlüssel-Erfolgsfaktoren

1. Gute Daten ist wichtiger als gute Algorithmen

Ein 8GB Dataset mit einfarem Random Forest schlägt ein 100MB Dataset mit State-of-the-Art Neural Network.

2. Anfang klar definieren

"Welches Geschäft-Problem lösen wir?" muss vorher klar sein, nicht hinterher.

3. Iterativ, nicht Waterfall

Trainieren → Evaluieren → Lernen → Back to #2. Nicht: "Wir sammeln 12 Monate Daten und dann bauen wir das Modell."

4. Team-Diversity

Sie brauchen nicht nur einen "Datenwissenschaftler". Sie brauchen Data Science + Software Engineering + Business Understanding.

5. Metrics, Metrics, Metrics

Die Business-Metrik (z.B. "ROI") ist unterschiedlich von der ML-Metrik (z.B. "Accuracy"). Optimieren Sie für Business-Metrik, nicht ML-Metrik.


FAQ

Wie lange dauert es, ein ML-Modell zu entwickeln?

Einfaches Modell (z.B. Klassifikation mit 1.000 Datenpunkten): 3–4 Monate Standard Modell (z.B. Rechnungs-Klassifikation): 5–7 Monate Komplexes Modell (z.B. Computer Vision): 6–12 Monate

Das schließt Problem Definition, Data Gathering, Training, Testing, Deployment ein.

Kann ich einen vortrainierten Modell nutzen statt von Anfang zu trainieren?

Ja, und das ist oft der intelligente Weg. Hugging Face hat 100.000+ vorgefertigte Modelle. Sie können ein vorgefertigtes Modell fine-tunen statt von Null zu trainieren. Das spart 2–3 Monate.

Wie viel kostet die Infrastruktur für KI?

Kleine Setup: 500–1.000 EUR/Monat (Cloud, Standard VMs) Mittlere Setup: 2.000–5.000 EUR/Monat (GPU-Cluster für Training) Große Setup: 10.000–50.000 EUR/Monat (Dedicated Infrastructure)

[[CTA: Kostenloses Beratungsgespräch vereinbaren → /de/kontakt]]

Related Posts