Bias bei KI-Entscheidungen – Ursachen und Gegenmaßnahmen

von | 8. März 2021 | Tech Deep Dive

KI wird verwendet, um immer mehr Entscheidungen zu automatisieren. Bei vielen Anwendungen wie Bonitätsprüfung, Bewerberscreening und Betrugserkennung ist eine Vermeidung jeder Art von Diskriminierung sowohl aus ethischer als auch aus rechtlicher Sicht von entscheidender Bedeutung.

Die Bundesregierung schenkt mit ihrer KI-Strategie dem Thema Bias und Diskriminierung im Zusammenhang mit der Anwendung von KI-Prozessen ausdrücklich Aufmerksamkeit. Die Datenschutz-Grundverordnung (DSGVO) besagt auch, dass bei automatisierten Entscheidungen diskriminierende Auswirkungen aufgrund der Rasse oder ethnischen Herkunft, der politischen Meinung, der Religion oder der Weltanschauung, der Gewerkschaftszugehörigkeit, des genetischen oder gesundheitlichen Status oder der sexuellen Ausrichtung (vertrauliche Informationen) verhindert werden müssen.

Ursachen und Auswirkungen

Entscheidungen können unabhängig von ihrer Quelle voreingenommen sein. Wenn sie jedoch auf auf Algorithmen beruhen, sind nachvollziehbarer als von Menschen getroffene Entscheidungen. Dies ermöglicht es Entwicklern, Bias sichtbarer und Entscheidungen fairer zu machen. Bias kann als systematischer, wiederholbarer Fehler in einem Entscheidungssystemen definiert werden. Es kann zu einer Verschlechterung der Entscheidungsqualität oder zu unfairen oder diskriminierenden Ergebnissen wie der Begünstigung einer bestimmten Benutzergruppe führen. Die Vermeidung von Bias zur Verbesserung der Modellqualität ist in der Praxis gut etabliert, aber die ethische Verwendung von KI ist ein aktives Forschungsthema.

Bias kann verschiedene Quellen haben: die Datenauswahl, die Zielvariable (Label), die Entwickler und das Modell selbst.

Bei KI-Systemen gibt es kein natürliches Verständnis bezüglich der Objektivität der verarbeiteten Daten. Besteht ein Bias in den Daten, wird es vom das Modell übernommen. Algorithmen werden von Menschen geschrieben, die naturgemäß voreingenommen sind. Des Weiteren kann die verwendete Methode zu Bias führen, zum Beispiel, wenn sie für die Anwendung auf das spezifische Problem ungeeignet ist.

Bei der Zuweisung von öffentlichem Wohnraum könnte Bias beispielsweise folgende Ursachen haben:

Datenauswahl
Früher gab es weniger alleinerziehende Väter, so dass ihre Daten unterrepräsentiert sind. Ihre Anfragen werden daher nicht korrekt bearbeitet.

Labels
Der Zuweisungsprozess hat sich geändert. Daher stellen historische Daten nicht den aktuellen Zuweisungsprozess dar. Die Modellqualität nimmt ab.

Entwickler
Der Entwickler hat keine Kinder und berücksichtigt daher Informationen über die Familiengröße nicht ausreichend.

Algorithmus
Die Beziehung zwischen Ziel- und Eingabevariablen ist zu komplex für das verwendete Modell (Underfitting). Dies kann durch die Verwendung komplexerer Modelle umgangen werden.

Umgang mit Bias in der Praxis

Die Optimierung der Fairness bei Modellen steht oft im Widerspruch zur Optimierung der Modellqualität. Daher ist das Bewusstsein für Bias sowie eine Definition von Fairness eine wesentliche Aufgabe bei jedem Projekt, da ein Modell nach einer Definition fair und nach einer anderen Definition unfair sein kann. Nur dann kann der Entscheidungsprozess auf Bias und Fairness überprüft werden.

Bias kann bei Daten durch eine Analyse des Datenbestands erkannt und korrigiert werden. Dazu gehören Ausreißeranalysen, eine Änderung der Abhängigkeiten bei den Daten im Zeitverlauf oder einfach die grafische Darstellung von Variablen, die in geeignete Gruppen unterteilt sind, z. B. die Zielvariablenverteilung für alle Geschlechter.

Um ein faires Modell erstellen zu können, reicht es nicht aus, vertrauliche Informationen als Eingabevariablen wegzulassen, da andere Einflussvariablen stochastisch von vertraulichen Informationen abhängig sein können.

Ein Referenzdatensatz ermöglicht eine weitere Analyse der Fairness. Der ideale Referenzdatensatz enthält alle modellrelevanten Informationen und vertraulichen Informationen in der für das Ergebnis erwarteten Häufigkeit. Durch die Anwendung des Modells auf diesen Datensatz kann verstecktes Bias sichtbar gemacht werden, z. B. die Diskriminierung von Minderheiten, auch wenn der ethnische Hintergrund nicht Teil der Modelleingaben ist.

Es gibt spezialisierte Bibliotheken (z. B.: AIF360, fairlearn), die entwickelt wurden, um Fairness-Maßnahmen zu berechnen und dadurch Bias bei Modellen zu erkennen. Diese gehen davon aus, dass der verwendete Datensatz die vertraulichen Informationen enthält. Sie bieten auch Methoden, um Bias zu reduzieren.

Die Fehleranalyse der Modellergebnisse ermöglicht es, Datenbeispiele zu finden, bei denen das Modell Schwierigkeiten hat. Dies hilft oftmals, unterrepräsentierte Gruppen zu finden, z. B. durch Betrachten von Stichproben, bei denen das Modell sehr zielstrebig die falsche Klasse gewählt hat.

Es ist wichtig, das Modell während des gesamten Lebenszyklus zu überwachen und es Benutzern zu ermöglichen, die Gründe für Modellentscheidungen nachzuvollziehen. Dies funktioniert gut bei komplexeren Modellen, und zwar durch Erklärbare-KI-Methoden wie SHAP-Werte, und es hilft, verdeckte Bias aufzudecken

Reales Beispiel: Diskriminierung durch Migrationshintergrund durch Verwendung der Dauer des Pendelns bei Einstellungsentscheidungen (Quelle: hbr.org).

Wenn die Trainingsdaten nicht ausreichend mit den realen Daten übereinstimmen, können zusätzliche Daten erhoben und in das Modell integriert werden. Wenn dies nicht möglich ist, können Upsampling, Data augmentation oder Downsampling verwendet werden, um eine bessere Darstellung zu erreichen.

Nicht jedes Bias ist schlecht: Durch die bewusste Einführung einer Gegenmaßnahme kann einem bekannten Bias entgegengewirkt werden. So könnte eine unterrepräsentierte Minderheit bei der automatischen Prüfung von Bewerbern beispielsweise Bonuspunkte erhalten, wenn ein Mindestrepräsentationskontingent erreicht werden soll.

Fazit

Die Analyse von Bias , insbesondere von Diskriminierung, ist nicht nur ethisch und rechtlich erforderlich, wenn automatisierte Entscheidungen Menschen betreffen. In der Praxis gewinnt man dadurch auch oft zusätzliche Informationen, die die Vorhersagegüte, Transparenz und Überwachungsqualität und damit den gesamten Entscheidungsprozess verbessern, auch wenn Leistung und Fairness theoretisch widersprüchliche Ziele sind. Und schließlich hilft sie auch vor Gericht, falls es doch einmal ernst werden sollte.

0 Kommentare

Einen Kommentar abschicken

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Data Navigator Newsletter

Weitere Blogartikel die Sie interessieren könnten