Philipp Kürth
Bayes vor Gericht - Wie Algorithmen lernen und die Macht der Statistik
Aktualisiert: 27. Apr. 2020
Bayes? Der Begriff weckt Assoziationen mit dem Matheunterricht in der Oberstufe... Doch genau darum geht es bei der Frage, wie Algorithmen lernen – es geht um die Ermittlung von Wahrscheinlichkeiten und um Statistik.
Alle aktuellen Bemühen von Technologieentwicklern werden von einem treibenden Faktor bestimmt: Dem Streben danach, Algorithmen zu entwerfen, die zu eigenständigem Lernen fähig sind. Das diesem Streben zugrundeliegende Bedürfnis ist, ein System zu erschaffen, das auch in unbekannten Situationen Entscheidungen treffen kann, ohne dass es eines menschlichen Eingriffs bedarf. Einige der Ansätze, mit denen diese Ambitionen verfolgt werden, machen sich mathematische Vorhersagemodelle zunutze.
Statistik als Grundlage selbstlernender Systeme
Die Funktion selbstlernender Algorithmen
Der Umgang mit einem unbekannten Sachverhalt im Entscheidungsprozess kann auf zwei Ebenen erfolgen:
Klassifikation – Hierbei geht es um die Einordnung der Fakten in den dazugehörigen Kontext. Der Lernprozess eines Algorithmus auf dieser Ebene ist wiederum zu unterschieden in Supervised und Unsupervised Learning. Beim Supervised Learning wird die Zuordnung auf Grundlage einer vorher bekannten und feststehenden Zugehörigkeit eines Beispiels in seine Klasse vorgenommen. Beim Unsupervised Learning ist es die Aufgabe des Algorithmus, innerhalb des Beispielpools Muster zu identifizieren, anhand derer er anschließend eine Zuordnung zu Gruppen vornimmt, die ex ante unbekannt sind.
Prognose – Hierbei geht es um die Einschätzung, wie sich die Situation unter den gegebenen Umständen in der Zukunft entwickeln werden.
Um in der einen oder anderen Funktion eine Entscheidung zu treffen, muss ein Algorithmus Daten, die er in der registrierten Situation für relevant hält, einer bestimmten Schlussfolgerung zuordnen.
Bei dieser Zuordnung kommt die Statistik ins Spiel. Für die Zuordnung eines Sachverhalts zu einer Folgerung ist die Abhängigkeit einer zu bestimmenden Variable – einer Gruppe bei der Klassifikation oder mögliche Ereignisse bei der Prognose – von den bekannten Merkmalen und Umständen maßgeblich. Die Abhängigkeit einer Antwortvariable von einer oder mehreren messbaren Prädiktorvariablen wird in der Mathematik in Regressionsmodellen dargestellt. Diese bilden zum Beispiel die Grundlage für deterministische Modelle (Predictive Analytics).
Predictive Analytics und Big Data
Predictive Analytics bezeichnet die Nutzung historischer Daten, um zukünftige Ereignisse vorherzusagen. Die Stärke gegenwärtiger Verfahren bei der Verfolgung dieser Ambition liegt in der zur Verfügung stehenden Datengrundlage. Hohe Rechenkapazitäten machen im Lernprozess des Algorithmus die Auswertung von Big Data möglich. Big Data bedeutet zum einen, aus einer großen Anzahl von Beispielen zu lernen. Zum anderen können im Trainingsprozess die einzelnen Beispiele auf eine Vielzahl von Merkmalen hin ausgewertet werden. Beide Gegebenheiten zusammen machen es möglich, die oben beschriebenen Funktionen der Klassifikation oder Prognose sicher und akkurat durchzuführen, da das Lernverfahren ein umfangreiches Spektrum an Beispielsituationen bieten kann.
Eine Anwendung eines prognostizierenden Algorithmus ist die Vorhersage der Wahrscheinlichkeit dafür, dass es an einem bestimmten Ort zu einem bestimmten Zeitpunkt in der Zukunft regnen wird. Die wahrscheinlichkeitstheoretische Vorhersage des Ereignisses „Regen“ ist eine komplexere Form der Prognose als eine simple ja/nein-Voraussage dieses Ereignisses. Diese Art der Voraussage ist jedoch der Ausgangspunkt für die Wahrscheinlichkeitsberechnung: Ein mathematisches Modell bestimmt, ob es unter bestimmten gegebenen Umständen regnen wird oder nicht. Mehrere Durchgänge dieses Rechenmodells unter jeweils leicht veränderten Ausgangsbedingungen haben einen Katalog möglicher Zukunftsszenarien zum Ergebnis, in denen es in manchen regnet und in anderen nicht. Daraus lässt sich bei gegebener Wetterlage eine Regenwahrscheinlichkeit ermitteln – unter Berücksichtigung der Unsicherheit über den tatsächlichen Verlauf der Ereignisse.
Das Bayes'sche Wahrscheinlichkeitsmodell
Die Begrenztheit von Regressionsmodellen liegt darin begründet, dass ex ante festgelegte, unveränderliche Eigenschaften gewichten, um Abhängigkeiten einzuschätzen. Unberücksichtigt bleibt, was darüber hinaus im Verlauf der Ereignisse an Daten beobachtet werden kann.
Die Besonderheit des Bayes'schen Statistik-Ansatzes ist, dass gegenwärtige Wahrscheinlichkeitszuordnungen angepasst werden, sobald neue Einflussfaktoren bekannt werden. Das – in anderen wissenschaftlichen statistischen Verfahren ausgeblendete – Hintergrundwissen über einen Datensatz, findet in Bayes‘ Theorem eine mathematische Berücksichtigung. Entscheidende Rolle spielt in diesem Theorem das Wahrscheinlichkeitsverhältnis für ein neu hinzukommendes Ereignis: Das Verhältnis der Wahrscheinlichkeit eines Ereignisses unter der Annahme, dass eine Hypothese wahr ist, zur Wahrscheinlichkeit dieses Ereignisses unter der Annahme, dass die korrespondierende Gegenhypothese wahr ist. Anwendungsbeispiel hierfür aus der Justiz ist das Wahrscheinlichkeitsverhältnis eines neu entdeckten Beweisstücks unter der Annahme der Schuld / Unschuld eines Tatverdächtigen. Das Wahrscheinlichkeitsverhältnis jedes im Ermittlungsverfahren neu hinzukommenden Beweises nimmt Einfluss auf die Ausgangswahrscheinlichkeit der Hypothese „schuldig“.
Dieser Ansatz der Neugewichtung möglicher Geschehensverläufe findet sich auch bei selbstlernenden Algorithmen wieder, die Entscheidungen unter der stetigen Auswertung ihrer Umgebung treffen, so etwa in autonomen Fahrzeugen.
Grenzen von Statistik und Algorithmen
Die erste Grenze von statistischen Auswertungen ist ihr Modellcharakter. Das deterministische Modell in Form einer Wahrscheinlichkeitsberechnung divergiert notwendigerweise von den Ereignissen, die sich schlussendlich in der Realität beobachten lassen. Modellen ist eine Simplifizierung des Sachverhalts immanent. Bei statistischen Modellen heißt diese Differenz zwischen Berechnung und Wahrnehmung Restabweichung.
Die zweite Schwierigkeit bei der Konstruktion klassifizierender oder prognostizierender Algorithmen ist praktischer Art. Die Beispiele des Trainingssatzes eines Algorithmus, aber auch die Ereignisse bei dessen Anwendung können weit mehr Charakteristika aufweisen, als für die Klassifizierung bzw. Prognose relevant sind. Neben den entscheidungserheblichen Merkmalen – dem „Signal“ – können die Trainingsbeispiele auch Daten gemeinsam haben, die nichts mit ihrer Zuordnung zu der relevanten Gruppe zu tun haben – sogenanntes „Geräusch“. Je nach Kalibrierung des Algorithmus kann das Ergebnis einer Klassifikation fehleranfällig sein, wenn die Entscheidung nicht auf Grundlage des Signals, sondern des Geräusches getroffen wurde. Für die Präzision des Algorithmus spielt es eine entscheidende Rolle, bis zu welcher Tiefe einzelne Details bei der Entscheidung berücksichtigt werden. Dieses Problem eines zu komplexen Entscheidungsmodells wird als Over-Fitting bezeichnet. Insbesondere bei der Auswertung von Big Data ist entscheidend, auf welche Merkmale die einzelnen Beispiele des Trainingspools ausgewertet werden sollen. Dafür ist bei der vorbereitenden Datenaufbereitung der Prozess des Feature-Engineering vorgesehen.
Eng mit dem Problem des Over-Fitting einher geht die derogierende Transparenz von Machine Learning-Algorithmen, wenn sie an Komplexität gewinnen, um präzisere Ergebnisse zu erreichen. Es entstehen „Black Boxes“, bei deren Urteil nicht nur Unsicherheit hinsichtlich ihrer Entscheidungsgründe besteht: Für eine algorithmische Schlussfolgerung können Kriterien die Grundlage gewesen sein, die mit der Aufgabe des Algorithmus in keiner Verbindung stehen (Geräusch)[1]. Darüber hinaus macht mangelnde Erklärbarkeit die Implementierung und Anpassung des Algorithmus an sich ändernde Umstände ebenso schwierig.
Die Hürden bei der Anwendung von Statistik und Algorithmen im Rechtswesen können aber auch rechtlicher Natur sein. Zweifellos wäre es möglich, die Subsumtion eines Sachverhalts unter eine Strafnorm auf der Grundlage aller im Verfahren ermittelten Indizien mit einem Algorithmus zu automatisieren. Ein solcher würde die Beweismittel jeweils mit ihren Wahrscheinlichkeitsverhältnissen berücksichtigen und diese zusammenmultiplizieren, um zu einer finalen Aussage über die Wahrscheinlichkeit der Schuld oder Unschuld zu gelangen. Einem solchen Vorgehen widersprechen jedoch nach herrschender Auffassung Art.92 GG, wonach die rechtsprechende Gewalt den Richtern obliegt, sowie der Grundsatz richterlicher Unabhängigkeit, wie er in Art.97 Abs.1 GG festgeschrieben ist.
Algorithmen können uns helfen, auf der Grundlage von Ausgangswahrscheinlichkeiten und hinzutretenden äußeren Einflüssen die Möglichkeit einzuschätzen, dass ein bestimmtes Ereignis eintritt. Die mathematischen Modelle können bei ihrer Aussage eine hohe Präzision erreichen. Damit einhergehen mithin auch Defizite künstlicher Entscheidungssysteme, etwa in Form mangelnder Transparenz, derogierender Anpassbarkeit an sich ändernde Umstände oder eine Überempfindlichkeit für Merkmale, die für die Funktion des Algorithmus keine Rolle spielen.
[1] Dieses Problem stellte sich z.B. bei Northpointe’s Correctional Offender Management Profiling for Alternative Sanctions (COMPAS) und MMR’s Level of Service Inventory – Revised(LSI-R).