Benutzer-Werkzeuge

Goodharts Gesetz

Bezeichnet einen Merksatz, der daran erinnert, dass statistische Kenn­zahlen, welche zu Zielwerten gemacht werden, unzuverlässig oder irre­führend sein können.

Es gibt verschiedene Formulierungen dieser Regel, von denen die folgende wahrscheinlich die ver­brei­tet­ste ist:

When a measure becomes a target, it ceases to be a good measure.
(Wenn eine Kennzahl zu einem Zielwert wird, ist sie nicht mehr länger eine gute Kennzahl.)

Im Kern geht es dabei darum, dass sog. „Zwei­trunden­effekte“ (engl.: second-round effects) die Aus­sage­kraft einer Kenn­zahl reduzieren können.

Andere Namen

  • Goodhart’s law
  • Gesetz von Campbell / Campbell’s law

Hinweise zum Namen

Der englische Name „Goodhart’s law “, der hier direkt übersetzt benutzt wird, verweist auf den Öko­nomen Charles Goodhart. Allerdings war er nicht der Erste, der diese Beobachtung machte bzw. aus­formulierte, sondern einfach derjenige, der sie allgemein bekannt machte und dessen Namen des­wegen damit assoziiert wird.

Ähnliches hat u.a. der Psychologe Donald T. Campbell be­schrieben, der auch Namenspate für den alter­na­tiven Begriff „Campbell's law “ ist. Eben­so betrifft die vom Ökonomen Robert E. Lucas ge­äußerte Kritik an be­steh­en­den makroökonomischen Modellen (zum Teil) ähnliche Über­legungen.

Die prägnanteste und daher meist­benutzte Formu­lierung – die auch hier in der Einleitung steht – stammt von der Anthropologin Marilyn Strathern. Diese ist jedoch erst deut­lich später belegt.

Beschreibung

Die diesem Gesetz zu­grunde lieg­enden Prob­leme haben mit mehr­eren (oft un­aus­ge­sproch­enen) Grund­an­nahmen der sta­tist­ischen Ana­lyse zu tun; dazu ge­hören die folgenden:

  • die Messung geschieht un­ab­hängig von dem be­ob­acht­eten Phä­no­men und sie hat einen mög­lichst ge­ringen (idealer­weise gar keinen) Ein­fluss auf das Er­gebnis;
  • Merkmale, die nicht direkt ge­messen werden kön­nen, stehen in einem festen Ver­hält­nis zu mess­baren Werten, von denen sie ab­ge­leitet werden können (Bei­spiel: Pro­duk­ti­vi­tät lässt sich an­hand der An­zahl der her­ge­stellten Pro­dukte messen).
  • Probanden haben kein Inter­esse daran, die Er­geb­nisse der sta­tis­tischen Aus­wert­ung zu manipulieren.

Alle drei An­nahmen können unter be­stimmten Um­ständen nicht mehr gelten: wird Produk­tivi­tät z.B. aus­schließ­lich anhand der Stück­zahl ge­mes­sen, und haben die Ar­beiter einen An­reiz, eine mög­lichst hohe „Pro­duk­tivi­tät“ vor­zu­spiegeln (etwa weil dies auf ihre Be­zahlung Ein­fluss hat), kann die Ver­such­ung groß sein, die Pro­duk­ti­ons­menge auf Kosten der Quali­tät künst­lich zu er­höhen und die Brauch­bar­keit dieser Kenn­zahl damit zu unter­laufen.

Ähnliche Effekte gibt es in allen Be­reichen des Lebens, wie die unten steh­enden Bei­spiele illustrieren.

Beispiele

Produktivität von Programmierern

Während die Produktivität von Arbeit­ern, welche physische Objekte her­stellen noch relativ leicht anhand der Anzahl der hergestellten Produkte (und etwas weniger leicht an deren Qualität) gemessen werden kann, ist eine solche Messung bei immateriellen Produkten schon prinzipbedingt sehr viel schwieriger.

Ein gutes Beispiel hierfür sind Soft­ware­ent­wickler, die aber dennoch – gerade in größeren Teams – einer Form von Evaluation unterzogen werden müssen oder sollen. Hierfür werden oft abgeleitete Maßzahlen herangezogen, wie die Zahl der ab­ge­schloss­enen Jira-Tickets oder gar die Zahl der ge­schrieb­enen Programmzeilen. Diese Kennzahlen haben in vielen Fällen sehr konkrete Aus­wirk­ungen, wie Ent­lohn­ung oder Be­förder­ungs­chancen der jeweiligen Pro­gram­mierer. Möglichst hohe Werte hier werden daher zu Zielen, die diese zu erreichen versuchen.

Dabei sind beide Kennzahlen auch sehr leicht manipulierbar: so können Jira-Tickets so bearbeitet wer­den, dass sie weitere Änderungswünsche oder Fehlerbeseitigungen nach sich ziehen, oder Pro­gramm­code kann künstlich aufgebläht werden, um die Zahl der benötigten Programmzeilen zu erhöhen.

In beiden Fällen ist das Ergebnis eine deutlich geringere Produktivität, bei gleichzeitig besser erschein­en­den Kenn­zahlen.

Corona-Tests

Die Ausbreitung des Covid-19 Er­regers auch im deutschsprachigen Raum seit dem Frühjahr 2020 hat auch zu der Frage geführt, welche Maß­nahmen unter welchen Um­ständen ergriffen werden sollen. Da viele der damit verbundenen Probleme gar nicht oder nur schwer in Zahlen zu fassen sind, drehte sich die ge­sell­schaft­liche Debatte auch darum, welche der tat­säch­lich messbaren In­di­ka­toren her­an­gezogen werden können, um die Maßnahmen zu steuern.

Unter den möglichen Maßzahlen (u.a. Todesfälle, Belegung der Intensiv­stationen, Nach­­ver­­folg­­ungs­­kapa­­zi­täten der Gesund­­heits­­ämter, u.s.w.) hat sich die Zahl der Neu­infektionen (zur bes­seren Ver­gleich­bar­keit auf 100 000 Ein­wohner um­ge­rech­net) schnell durch­gesetzt, da sie zum einen leicht zu ermitteln ist, und zum anderen zeit­nah erfasst werden kann, d.h. dass sie schnell auf Veränderungen reagiert.

Da die Einschränkungen im täglichen Leben aber dennoch für viele Be­troff­ene sehr schwerwiegend sind, wur­den auch schnell Möglichkeiten diskutiert, wie anstatt das eigentliche Ziel zu verfolgen – nämlich die Ver­breit­ung des Virus zu unterbinden – einfach die Maßzahl „Infektionsrate“ manipuliert werden könnte. Ins­be­sondere die Idee, einfach weniger Tests zu machen, um so die Zahl der (er­kannten) Neu­infek­tionen niedrig zu halten, hat schnell viele Anhänger gefunden.

Tatsächlich werden in bestimmten Umgebungen Maßnahmen getroffen, die letztlich genau darauf hin­aus­laufen: sei es durch die Verweigerung von Tests, wenn es keine Symptome oder keine nachvollziehbare Infektionskette gibt, oder indem die (recht teuren!) Tests von den Patienten selbst bezahlt werden müssen.

Der Eindämmung der Infektionen dient das natürlich nicht, stattdessen wird sie sogar erschwert.

Manipulation von Abgasgrenzwerten

Zur Verbesserung der Luft­­qualität vor allem in den Städten existieren seit Mitte des 20. Jahr­hunderts Emis­si­ons­­­grenz­­werte für durch Ver­­brenn­ungs­­motoren­ angetriebene Fahr­zeuge, die seit ihrer Ein­führung auch kon­ti­nu­­ier­lich ver­schärft wurden.

Da sich die Abgase verschiedener Motoren unter unterschiedlichen Be­ding­ungen jedoch stark unter­­scheiden, gehören zu diesen Grenz­­werten auch genau Anweisungen, unter welchen Rahmen­bedingungen (Ge­schwind­ig­­keit, Temperatur, u.s.w.) diese gemessen werden sollen. Dies soll eigent­lich die Ver­gleich­barkeit der Werte sicher­stellen.

Man konnte aber auch fest­stellen, dass die Motoren immer mehr darauf optimiert wurden, genau unter den in diesen Richt­­linien definierten Be­ding­ungen optimale Werte zu erzielen – und bei nur gering­fügiger Ab­weichung von diesen gleich wesent­lich mehr zu emittieren.

Während es außer Frage steht, dass diese Grenz­werte einen ent­­scheid­­en­den Ein­fluss darauf hatten, dass der Aus­stoß schädlicher Abgase von Ver­brenn­ungs­motoren im Straßen­verkehr seit ihrer Ein­führung stetig zu­rück­­ge­gangen ist, ist dieser Gewinn bei weitem nicht so groß wie er bei Nach­justier­ung der Rahmen­­bedingungen unter Berück­sichtigung von Good­harts Gesetz hätte sein können.

Siehe auch

Weitere Informationen

Über diese Site

QR Code Denkfehler Online ist ein Projekt, die häufigsten Irrtümer und Trugschlüsse zu erklären und zu kategorisieren. Auf dieser Seite finden sie einen Hintergrundartikel, der ein wichtiges Konzept aus dem Bereich „Statistik“, welches zum Verständnis von anderen Artikel nötig ist, kurz erklärt.
Für mehr Informationen, siehe die Hauptkategorie Statistik.

Diese Web­site verwendet Cookies. Durch die Nutz­ung der Web­site er­klären Sie sich mit der Speich­er­ung von Cookies auf Ihrem Com­puter ein­ver­standen. Darüber hinaus be­stät­igen Sie, dass Sie unsere Daten­schutzbestimm­ungen ge­lesen und ver­standen haben. Wenn Sie damit nicht ein­ver­standen sind, ver­lassen Sie bitte die Web­site.

Weitere Information