KI-Modelle bewerten | Wurzelwerk

„Das Modell hat eine Accuracy von 99 %." Klingt beeindruckend. Ist es aber nicht zwingend. Wer KI-Systeme in sein Unternehmen einbindet — oder KI-Dienstleister beauftragt — muss verstehen, was diese Zahlen wirklich aussagen. Denn ein Modell kann perfekt aussehen und trotzdem nutzlos sein.

Inhalt:

Analyst bewertet KI-Metriken auf Dashboard — Accuracy, Precision und Recall für KI-Modelle im Mittelstand

Alle Modelle liegen falsch — aber manche sind nützlich

Ein Satz aus der Statistik, der auch für KI gilt: „Alle Modelle liegen falsch — aber einige sind nützlich." Kein KI-Modell bildet die Realität vollständig ab. Die entscheidende Frage ist nicht: Ist es perfekt? Die Frage ist: Ist es für diesen Kontext zuverlässig genug?

Ein Spamfilter, der gelegentlich eine legitime E-Mail blockiert, ist ärgerlich. Ein Kreditrisikomodell, das echte Betrugsfälle systematisch übersieht, ist gefährlich. Beide könnten eine hohe Accuracy haben.

Was Machine-Learning-Modelle im Grundsatz tun und welche Lernarten es gibt, erklärt unser Artikel Maschinelles Lernen einfach erklärt: Die 3 Lernarten.

Was das für Sie bedeutet

Bevor Sie ein KI-Modell einsetzen oder beauftragen, legen Sie fest: Was ist der schlimmste akzeptable Fehler? Die Antwort bestimmt, welche Metriken entscheidend sind.

Das Problem mit der Accuracy

Handgezeichnete Confusion Matrix auf Whiteboard — vier Quadranten für True Positive, False Positive, True Negative und False Negative

Accuracy ist einfach: Wie oft liegt das Modell richtig? Eine Accuracy von 95 % bedeutet, dass 95 von 100 Vorhersagen korrekt sind.

Das klingt gut. Aber stellen Sie sich vor: Sie haben einen Datensatz mit 10.000 Transaktionen, davon sind 10 betrügerisch. Ein Modell, das pauschal jede Transaktion als legitim einstuft, hat eine Accuracy von 99,9 % — und erkennt trotzdem keinen einzigen Betrugsfall.

Dieses Problem heißt Klassenungleichgewicht (Class Imbalance). Es tritt immer dann auf, wenn ein Ereignis selten ist — aber genau diese seltenen Ereignisse sind oft die wichtigsten:

Maschinenausfälle in der Produktion
Kreditausfälle im Finanzwesen
Fehlerhafte Produkte in der Qualitätskontrolle
Kranke Patienten in der medizinischen Diagnostik

Was grundlegende KI-Begriffe wie Machine Learning, Deep Learning und LLM bedeuten, erklärt unser Überblick KI, Machine Learning, ChatGPT: Was die Begriffe wirklich bedeuten.

Was das für Sie bedeutet

Eine hohe Accuracy beweist nichts, wenn die Klassen unausgewogen sind. Fragen Sie immer: Auf welchen Daten wurde gemessen? Wie häufig ist das relevante Ereignis?

Möchten Sie das konkret auf Ihren Betrieb anwenden?

Kostenlos Termin buchen

Justin Kollautz KI Spezialist · Wurzelwerk

Die Confusion Matrix: Was wirklich passiert

Um ein Modell wirklich zu verstehen, braucht man die Confusion Matrix. Sie zeigt, wie das Modell seine Vorhersagen verteilt — aufgeteilt in vier Kategorien:

	Vorhergesagt: Positiv	Vorhergesagt: Negativ
Tatsächlich: Positiv	True Positive (TP)	False Negative (FN)
Tatsächlich: Negativ	False Positive (FP)	True Negative (TN)

True Positive: Das Modell erkennt einen echten Fall korrekt.
True Negative: Das Modell erkennt korrekt, dass kein Fall vorliegt.
False Positive: Das Modell schlägt falschen Alarm — ein Fehlalarm.
False Negative: Das Modell übersieht einen echten Fall — der gefährlichere Fehler.

Welcher Fehler schwerer wiegt, hängt vollständig vom Kontext ab:

Bei der Betrugserkennung ist ein False Negative (übersehener Betrug) das eigentliche Problem.
Bei der Spam-Erkennung ist ein False Positive (wichtige E-Mail als Spam markiert) besonders ärgerlich.

Was das für Sie bedeutet

Verlangen Sie von Ihrem KI-Dienstleister immer die Confusion Matrix — nicht nur eine einzige Kennzahl. Die Matrix zeigt, wo das Modell systematisch versagt.

Precision und Recall: Die entscheidenden Fragen

Aus der Confusion Matrix ergeben sich zwei zentrale Metriken:

Precision (Genauigkeit)

Von allen positiven Vorhersagen — wie viele waren wirklich positiv? → Frage: Wie verlässlich sind die Alarm-Meldungen des Modells?

Recall (Trefferquote)

Von allen tatsächlichen positiven Fällen — wie viele hat das Modell erkannt? → Frage: Wie viele echte Fälle werden übersehen?

Precision und Recall stehen oft in einem Spannungsverhältnis: Ein Modell, das sehr selten Alarm schlägt, hat eine hohe Precision — aber einen schlechten Recall. Ein Modell, das bei allem Alarm schlägt, hat einen hohen Recall — aber eine miserable Precision.

Welche Metrik wichtiger ist, bestimmt der Geschäftskontext — nicht der Datenwissenschaftler.

Was das für Sie bedeutet

Definieren Sie vor dem Modellbau, was für Sie teurer ist: ein Fehlalarm oder ein übersehener Fall. Diese Entscheidung legt fest, woraufhin das Modell optimiert wird.

Overfitting: Wenn das Modell nur auswendig lernt

Ein häufiges Problem bei KI-Modellen heißt Overfitting: Das Modell lernt die Trainingsdaten zu gut — einschließlich aller Zufälligkeiten und Ausreißer. Es kann dann neue Situationen nicht mehr sinnvoll einschätzen.

Das Resultat: Auf den Testdaten sehen die Zahlen hervorragend aus. In der realen Anwendung bricht die Leistung ein.

Der Gegentest: Trainingsdaten und Testdaten werden strikt getrennt. Etwa 10–30 % der Daten werden zurückgehalten und ausschließlich für die finale Bewertung genutzt. Ein Modell, das auf Testdaten deutlich schlechter abschneidet als auf Trainingsdaten, ist ein Warnsignal.

Was das für Sie bedeutet

Fragen Sie nach dem Unterschied zwischen Trainings- und Testperformance. Ein Modell, das nur auf Trainingsdaten bewertet wurde, ist unfertig.

Diagramm: Confusion Matrix mit Pfeilen zu Precision, Recall und F1-Score — KI Metriken Mittelstand

Häufige Fragen

Welche Metrik ist die wichtigste?

Es gibt keine universell wichtigste Metrik. Es kommt auf den Anwendungsfall an. In der Medizindiagnostik ist Recall entscheidend (kein echter Fall darf übersehen werden). Im Marketing-Targeting ist Precision wichtiger (Streuverluste kosten Geld).

Was ist der F1-Score?

Der F1-Score ist der harmonische Mittelwert aus Precision und Recall. Er ist nützlich, wenn beide Metriken gleich wichtig sind und ein einzelner Vergleichswert benötigt wird.

Wie erkenne ich ein schlechtes KI-Angebot?

Wenn ein Anbieter nur mit Accuracy wirbt, ohne Kontext zu geben, ist das ein Warnsignal. Fragen Sie nach der Confusion Matrix, nach dem Verhältnis von Trainings- und Testperformance und nach dem Anwendungskontext der Bewertung.

Fazit: Kontext entscheidet

KI-Metriken sind Werkzeuge — keine Wahrheiten. Eine hohe Zahl auf dem Papier sagt wenig darüber aus, ob ein Modell in Ihrem Betrieb funktioniert. Entscheidend ist, welche Fehler in welchem Kontext wie teuer sind.

Wer diese Fragen stellt — vor dem Einsatz, nicht danach — trifft bessere Entscheidungen. Und kauft keine Lösung, die 99 % Accuracy hat und trotzdem nutzlos ist.

Nächster Schritt: Wenn Sie KI in Ihrem Unternehmen einsetzen oder evaluieren, helfen wir Ihnen, die richtigen Fragen zu stellen. Sprechen Sie uns an.

KI-Modelle bewerten: Was Accuracy, Precision und Recall wirklich bedeuten

Alle Modelle liegen falsch — aber manche sind nützlich

Das Problem mit der Accuracy

Die Confusion Matrix: Was wirklich passiert

Precision und Recall: Die entscheidenden Fragen

Precision (Genauigkeit)

Recall (Trefferquote)

Overfitting: Wenn das Modell nur auswendig lernt

Häufige Fragen

Welche Metrik ist die wichtigste?

Was ist der F1-Score?

Wie erkenne ich ein schlechtes KI-Angebot?

Fazit: Kontext entscheidet

Wo liegt bei Ihnen der größte Hebel?