Goodharts Gesetz
Bezeichnet einen Merksatz, der daran erinnert, dass statistische Kennzahlen, welche zu Zielwerten gemacht werden, unzuverlässig oder irreführend sein können.
Es gibt verschiedene Formulierungen dieser Regel, von denen die folgende wahrscheinlich die verbreitetste ist:
When a measure becomes a target, it ceases to be a good measure.
(Wenn eine Kennzahl zu einem Zielwert wird, ist sie nicht mehr länger eine gute Kennzahl.)
Im Kern geht es dabei darum, dass sog. „Zweitrundeneffekte“ (engl.: second-round effects) die Aussagekraft einer Kennzahl reduzieren können.
Andere Namen
- Goodhart’s law
- Gesetz von Campbell / Campbell’s law
Hinweise zum Namen
Der englische Name „Goodhart’s law “, der hier direkt übersetzt benutzt wird, verweist auf den Ökonomen Charles Goodhart. Allerdings war er nicht der Erste, der diese Beobachtung machte bzw. ausformulierte, sondern einfach derjenige, der sie allgemein bekannt machte und dessen Namen deswegen damit assoziiert wird.
Ähnliches hat u.a. der Psychologe Donald T. Campbell beschrieben, der auch Namenspate für den alternativen Begriff „Campbell's law “ ist. Ebenso betrifft die vom Ökonomen Robert E. Lucas geäußerte Kritik an bestehenden makroökonomischen Modellen (zum Teil) ähnliche Überlegungen.
Die prägnanteste und daher meistbenutzte Formulierung – die auch hier in der Einleitung steht – stammt von der Anthropologin Marilyn Strathern. Diese ist jedoch erst deutlich später belegt.
Beschreibung
Die diesem Gesetz zugrunde liegenden Probleme haben mit mehreren (oft unausgesprochenen) Grundannahmen der statistischen Analyse zu tun; dazu gehören die folgenden:
- die Messung geschieht unabhängig von dem beobachteten Phänomen und sie hat einen möglichst geringen (idealerweise gar keinen) Einfluss auf das Ergebnis;
- Merkmale, die nicht direkt gemessen werden können, stehen in einem festen Verhältnis zu messbaren Werten, von denen sie abgeleitet werden können (Beispiel: Produktivität lässt sich anhand der Anzahl der hergestellten Produkte messen).
- Probanden haben kein Interesse daran, die Ergebnisse der statistischen Auswertung zu manipulieren.
Alle drei Annahmen können unter bestimmten Umständen nicht mehr gelten: wird Produktivität z.B. ausschließlich anhand der Stückzahl gemessen, und haben die Arbeiter einen Anreiz, eine möglichst hohe „Produktivität“ vorzuspiegeln (etwa weil dies auf ihre Bezahlung Einfluss hat), kann die Versuchung groß sein, die Produktionsmenge auf Kosten der Qualität künstlich zu erhöhen und die Brauchbarkeit dieser Kennzahl damit zu unterlaufen.
Ähnliche Effekte gibt es in allen Bereichen des Lebens, wie die unten stehenden Beispiele illustrieren.
Beispiele
Produktivität von Programmierern
Während die Produktivität von Arbeitern, welche physische Objekte herstellen noch relativ leicht anhand der Anzahl der hergestellten Produkte (und etwas weniger leicht an deren Qualität) gemessen werden kann, ist eine solche Messung bei immateriellen Produkten schon prinzipbedingt sehr viel schwieriger.
Ein gutes Beispiel hierfür sind Softwareentwickler, die aber dennoch – gerade in größeren Teams – einer Form von Evaluation unterzogen werden müssen oder sollen. Hierfür werden oft abgeleitete Maßzahlen herangezogen, wie die Zahl der abgeschlossenen Jira-Tickets oder gar die Zahl der geschriebenen Programmzeilen. Diese Kennzahlen haben in vielen Fällen sehr konkrete Auswirkungen, wie Entlohnung oder Beförderungschancen der jeweiligen Programmierer. Möglichst hohe Werte hier werden daher zu Zielen, die diese zu erreichen versuchen.
Dabei sind beide Kennzahlen auch sehr leicht manipulierbar: so können Jira-Tickets so bearbeitet werden, dass sie weitere Änderungswünsche oder Fehlerbeseitigungen nach sich ziehen, oder Programmcode kann künstlich aufgebläht werden, um die Zahl der benötigten Programmzeilen zu erhöhen.
In beiden Fällen ist das Ergebnis eine deutlich geringere Produktivität, bei gleichzeitig besser erscheinenden Kennzahlen.
Corona-Tests
Die Ausbreitung des Covid-19 Erregers auch im deutschsprachigen Raum seit dem Frühjahr 2020 hat auch zu der Frage geführt, welche Maßnahmen unter welchen Umständen ergriffen werden sollen. Da viele der damit verbundenen Probleme gar nicht oder nur schwer in Zahlen zu fassen sind, drehte sich die gesellschaftliche Debatte auch darum, welche der tatsächlich messbaren Indikatoren herangezogen werden können, um die Maßnahmen zu steuern.
Unter den möglichen Maßzahlen (u.a. Todesfälle, Belegung der Intensivstationen, Nachverfolgungskapazitäten der Gesundheitsämter, u.s.w.) hat sich die Zahl der Neuinfektionen (zur besseren Vergleichbarkeit auf 100 000 Einwohner umgerechnet) schnell durchgesetzt, da sie zum einen leicht zu ermitteln ist, und zum anderen zeitnah erfasst werden kann, d.h. dass sie schnell auf Veränderungen reagiert.
Da die Einschränkungen im täglichen Leben aber dennoch für viele Betroffene sehr schwerwiegend sind, wurden auch schnell Möglichkeiten diskutiert, wie anstatt das eigentliche Ziel zu verfolgen – nämlich die Verbreitung des Virus zu unterbinden – einfach die Maßzahl „Infektionsrate“ manipuliert werden könnte. Insbesondere die Idee, einfach weniger Tests zu machen, um so die Zahl der (erkannten) Neuinfektionen niedrig zu halten, hat schnell viele Anhänger gefunden.
Tatsächlich werden in bestimmten Umgebungen Maßnahmen getroffen, die letztlich genau darauf hinauslaufen: sei es durch die Verweigerung von Tests, wenn es keine Symptome oder keine nachvollziehbare Infektionskette gibt, oder indem die (recht teuren!) Tests von den Patienten selbst bezahlt werden müssen.
Der Eindämmung der Infektionen dient das natürlich nicht, stattdessen wird sie sogar erschwert.
Manipulation von Abgasgrenzwerten
Zur Verbesserung der Luftqualität vor allem in den Städten existieren seit Mitte des 20. Jahrhunderts Emissionsgrenzwerte für durch Verbrennungsmotoren angetriebene Fahrzeuge, die seit ihrer Einführung auch kontinuierlich verschärft wurden.
Da sich die Abgase verschiedener Motoren unter unterschiedlichen Bedingungen jedoch stark unterscheiden, gehören zu diesen Grenzwerten auch genau Anweisungen, unter welchen Rahmenbedingungen (Geschwindigkeit, Temperatur, u.s.w.) diese gemessen werden sollen. Dies soll eigentlich die Vergleichbarkeit der Werte sicherstellen.
Man konnte aber auch feststellen, dass die Motoren immer mehr darauf optimiert wurden, genau unter den in diesen Richtlinien definierten Bedingungen optimale Werte zu erzielen – und bei nur geringfügiger Abweichung von diesen gleich wesentlich mehr zu emittieren.
Während es außer Frage steht, dass diese Grenzwerte einen entscheidenden Einfluss darauf hatten, dass der Ausstoß schädlicher Abgase von Verbrennungsmotoren im Straßenverkehr seit ihrer Einführung stetig zurückgegangen ist, ist dieser Gewinn bei weitem nicht so groß wie er bei Nachjustierung der Rahmenbedingungen unter Berücksichtigung von Goodharts Gesetz hätte sein können.
Siehe auch
Weitere Informationen
- Goodharts Gesetz auf Wikipedia
- Goodhart's law auf Wikipedia (Englisch)