====== Goodharts Gesetz ====== Bezeichnet einen Merksatz, der daran erinnert, dass statistische Kennzahlen, welche zu Zielwerten gemacht werden, unzuverlässig oder irreführend sein können. Es gibt verschiedene Formulierungen dieser Regel, von denen die folgende wahrscheinlich die verbreitetste ist: > When a measure becomes a target, it ceases to be a good measure. > (Wenn eine Kennzahl zu einem Zielwert wird, ist sie nicht mehr länger eine gute Kennzahl.) Im Kern geht es dabei darum, dass sog. „[[wpde>Zweitrundeneffekt|Zweitrundeneffekte]]“ (engl.: second-round effects) die Aussagekraft einer Kennzahl reduzieren können. ===== Andere Namen ===== * Goodhart’s law * Gesetz von Campbell / Campbell’s law * Cobra Effect ===== Hinweise zum Namen ===== Der englische Name „Goodhart’s law “, der hier direkt übersetzt benutzt wird, verweist auf den Ökonomen [[wp>Charles Goodhart]]. Allerdings war er bei Weitem nicht der Erste, der diese Beobachtung machte bzw. ausformulierte, sondern er hat sie populär gemacht, weswegen sein Name mit diesem Gesetz assoziiert wird. Ähnliches hat u.a. der Psychologe [[wpde>Donald T. Campbell]] beschrieben, der auch Namenspate für den alternativen Begriff „Campbell’s law “ ist. Ebenso beruht die vom Ökonomen [[wpde>Robert E. Lucas]] geäußerte Kritik an bestehenden makroökonomischen Modellen auf (zum Teil) ähnlichen Überlegungen. Die prägnanteste und daher meistbenutzte Formulierung – die auch hier in der Einleitung steht – stammt von der Anthropologin [[wpde>Marilyn Strathern]]. Diese ist jedoch erst deutlich später belegt. ===== Beschreibung ===== Die diesem Gesetz zugrunde liegenden Probleme haben mit mehreren (oft unausgesprochenen) Grundannahmen der statistischen Analyse zu tun; dazu gehören die folgenden: * die Messung geschieht unabhängig von dem beobachteten Phänomen und sie hat einen möglichst geringen (idealerweise gar keinen) Einfluss auf das Ergebnis; * Merkmale, die nicht //direkt// gemessen werden können, stehen in einem festen Verhältnis zu messbaren Werten, von denen sie abgeleitet werden können (Beispiel: [[wpde>Produktivität|Produktivität]] lässt sich anhand der Anzahl der hergestellten Produkte messen). * Beteiligte haben kein Interesse daran, die Ergebnisse der statistischen Auswertung zu manipulieren. Alle drei Annahmen können unter bestimmten Umständen nicht mehr gelten: wird //Produktivität// z.B. //ausschließlich// anhand der Stückzahl gemessen, und haben die Arbeiter einen Anreiz, eine möglichst hohe „Produktivität“ vorzuspiegeln (etwa weil dies auf ihre Bezahlung Einfluss hat), kann dies ein Anreiz dafür sein, die Produktions//menge// auf Kosten der Qualität zu erhöhen und die Brauchbarkeit dieser Kennzahl damit zu unterlaufen. Ein bekanntes Beispiel für eine solche Manipulation ist eine (zweifelhafte) Fallstudie aus Indien zur britischen Kolonialzeit: Um die Gefahren, die die von einer [[wpde>Echte Kobras|Kobraplage]] ausgingen, in den Griff zu bekommen, wurde eine Prämie für jede getötete Kobra ausgesetzt. Als man bemerkte, dass die Zahl der Kobrasichtungen dennoch nicht zurück ging, wurden Nachforschungen angestellt und man fand, dass die angelieferten Schlangen vor allem in Kobrafarmen gezüchtet wurden, um so an den Prämien zu verdienen. Der Legende nach sollen nach der Einstellung der Prämie die verbleibenen Kobras in die freie Wildbahn entlassen worden sein, wodurch die Kobraplage noch schlimmer wurde, als sie es zuvor war. Auch wenn es keine Belege dafür gibt, dass dies sich tatsächlich so zugetragen hat, wird der sog. „[[wpde>Kobra-Effekt]]” gerne als Beispiel für eine „Verschlimmbesserung“ durch nicht zu Ende gedachte Maßnahmen herangezogen. Belegt sind stattdessen ähnliche Vorkommnisse bei Rattenplagen (Vietnam, 1902), oder im Zusammenhang mit verwilderten Hausschweinen (Georgia, USA, 2007-08) ==== Mitigation ==== Um die unerwünschten Folgen von //Goodharts Gesetz// zu kontrollieren wurden verschiedene Mitigationsstrategien entwickelt, die hier kurz angerissen werden: * **Grenzen setzen:** Dies kann z.B. geschenen, indem strikte und unzweideutige Qualitätsstandards für die zu produzierenden Produkte definiert werden, die zu erfüllen sind, damit die Hauptmetrik überhaupt angewendet werden kann. \\ Zum Beispiel sollten für Produkte klare Vorgaben für Maße, Materialien, u.s.w. festgelegt sein, bevor die Anzahl als Maß der Produktivität dienen kann. * **Diversifizierung der Metriken:** Anstelle einer einzigen Maßzahl, die leicht manipuliert werden kann, sollten möglichst verschiedene Metriken zusammengeführt werden, welche unterschiedliche Aspekte des abstrakten Zielmaßes abbilden. \\ Zum Beispiel könnten sowohl Quantität, als auch Qualität der produzierten Produkte in ein Produktivitätsmaß einfließen. * **Negative Metriken:** Ein solches kombiniertes Maß sollte auch negative Metriken beachten, die möglichst klein gehalten werden sollten. \\ Dies könnte z.B. der Anteil an unverkäuflicher Ausschussware sein. * **Regelmäßige Evaluierung und Anpassung der Metriken:** Selbst für die besten Metriken werden früher oder später Schlupflöcher gefunden. Deswegen sollten diese regelmäßg evaluiert und ggf. angepasst werden. Eine einheitliche Erfolg versprechende Strategie, die in jedem Fall eingesetzt werden kann, gibt es allerdings nicht, da diese auch wieder aufgrund von Goodharts Gesetz unterminiert werden würde. Es muss also für jeden Einzelfall eine spezifische Strategie entwickelt werden. ===== Beispiele ===== ==== Produktivität von Programmierern ==== Während die Produktivität von Arbeitern, welche physische Objekte herstellen noch relativ leicht anhand der Anzahl der hergestellten Produkte (und etwas weniger leicht an deren Qualität) gemessen werden kann, ist eine solche Messung bei //immateriellen// Produkten schon prinzipbedingt sehr viel schwieriger. Ein gutes Beispiel hierfür sind [[wpde>Softwareentwickler|Softwareentwickler]], die aber dennoch – gerade in größeren Teams – einer Form von Evaluation unterzogen werden müssen oder sollen. Hierfür werden oft abgeleitete Maßzahlen herangezogen, wie die Zahl der abgeschlossenen [[wpde>Jira (Software)|Jira]]-Tickets oder gar die Zahl der geschriebenen Programmzeilen. Diese Kennzahlen haben in vielen Fällen sehr konkrete Auswirkungen, wie Entlohnung oder Beförderungschancen der jeweiligen Programmierer. Möglichst hohe Werte hier werden daher zu //Zielen//, die diese zu erreichen versuchen. Dabei sind beide Kennzahlen auch sehr leicht manipulierbar: so können //Jira//-Tickets so bearbeitet werden, dass sie weitere Änderungswünsche oder Fehlerbeseitigungen nach sich ziehen, oder Programmcode kann künstlich aufgebläht werden, um die Zahl der benötigten Programmzeilen zu erhöhen. In beiden Fällen ist das Ergebnis eine deutlich geringere Produktivität, bei gleichzeitig besser erscheinenden Kennzahlen. ==== Corona-Tests ==== Die Ausbreitung des [[wpde>COVID-19|Covid-19]] Erregers auch im deutschsprachigen Raum seit dem Frühjahr 2020 hat auch zu der Frage geführt, welche Maßnahmen unter welchen Umständen ergriffen werden sollen. Da viele der damit verbundenen Probleme gar nicht oder nur schwer in Zahlen zu fassen sind, drehte sich die gesellschaftliche Debatte auch darum, welche der //tatsächlich messbaren// Indikatoren herangezogen werden können, um die Maßnahmen zu steuern. Unter den möglichen Maßzahlen (u.a. Todesfälle, Belegung der Intensivstationen, Nachverfolgungskapazitäten der Gesundheitsämter, u.s.w.) hat sich die //Zahl der Neuinfektionen// (zur besseren Vergleichbarkeit auf 100 000 Einwohner umgerechnet) schnell durchgesetzt, da sie zum einen leicht zu ermitteln ist, und zum anderen zeitnah erfasst werden kann, d.h. dass sie schnell auf Veränderungen reagiert. Da die Einschränkungen im täglichen Leben aber dennoch für viele Betroffene sehr schwerwiegend sind, wurden auch schnell Möglichkeiten diskutiert, wie anstatt das eigentliche Ziel zu verfolgen – nämlich die Verbreitung des Virus zu unterbinden – einfach die Maßzahl „Infektionsrate“ manipuliert werden könnte. Insbesondere die Idee, einfach weniger Tests zu machen, um so die Zahl der (erkannten) Neuinfektionen niedrig zu halten, hat schnell viele Anhänger gefunden. Tatsächlich werden in bestimmten Umgebungen Maßnahmen getroffen, die letztlich genau darauf hinauslaufen: sei es durch die Verweigerung von Tests, wenn es keine Symptome oder keine nachvollziehbare Infektionskette gibt, oder indem die (recht teuren!) Tests von den Patienten selbst bezahlt werden müssen. Der Eindämmung der Infektionen dient das natürlich nicht, stattdessen wird sie sogar erschwert. ==== Manipulation von Abgasgrenzwerten ==== Zur Verbesserung der Luftqualität vor allem in den Städten existieren seit Mitte des 20. Jahrhunderts Emissionsgrenzwerte für durch Verbrennungsmotoren angetriebene Fahrzeuge, die seit ihrer Einführung auch kontinuierlich verschärft wurden. Da sich die Abgase verschiedener Motoren unter unterschiedlichen Bedingungen jedoch stark unterscheiden, gehören zu diesen Grenzwerten auch genau Anweisungen, unter welchen Rahmenbedingungen (Geschwindigkeit, Temperatur, u.s.w.) diese gemessen werden sollen. Dies soll eigentlich die Vergleichbarkeit der Werte sicherstellen. Man konnte aber auch feststellen, dass die Motoren immer mehr darauf optimiert wurden, //genau// unter den in diesen Richtlinien definierten Bedingungen optimale Werte zu erzielen – und bei nur geringfügiger Abweichung von diesen gleich wesentlich mehr zu emittieren. Während es außer Frage steht, dass diese Grenzwerte einen entscheidenden Einfluss darauf hatten, dass der Ausstoß schädlicher Abgase von Verbrennungsmotoren im Straßenverkehr seit ihrer Einführung stetig zurückgegangen ist, ist dieser Gewinn bei weitem nicht so groß wie er bei Nachjustierung der Rahmenbedingungen unter Berücksichtigung von //Goodharts Gesetz// hätte sein können. ===== Siehe auch ===== * [[mathematik:statistik:interpretationsfehler:hauptseite|Interpretationsfehler]] * [[mathematik:statistik:begriffe:zweitrundeneffekte|Zweitrundeneffekte]] ===== Weitere Informationen ===== * [[wpde>Goodharts Gesetz]] auf //Wikipedia// * [[wp>Goodhart's law]] auf //Wikipedia// (Englisch) {{page>templates:banner#Short-BG-Statistic&noheader&nofooter}}