Scheinkorrelation
Eine statistischen Korrelation scheint eine Kausalbeziehung aufzuzeigen, die aber nicht durch weitere Beweise belegt wird.
Beispiel:
Die Zahl von Störchennestern in einer Region korreliert hoch mit der Geburtenrate [bei Menschen] in dieser Region.
Folglich gibt es einen Kausalzusammenhang zwischen Störchen und Geburten.
Störche fühlen sich naheliegenderweise dort am wohlsten, wo sie genügend Nahrung finden und das ist eher auf dem Land der Fall als in der Stadt. Ebenso ist die Geburtenrate bei Menschen auf dem Land höher als in der Stadt, was wiederum an Faktoren wie (vermutete) Lebensqualität, günstigerem Wohnraum und anderen liegen könnte – sicher aber nicht an der höheren Storchendichte.
Beschreibung
Grundsätzlich beschreibt eine Korrelation immer einen statistischen Zusammenhang; Kausalität hingegen beschreibt – wie der Name schon sagt: einen Kausalzusammenhang.
Auch wenn eine (möglichst hohe) Korrelation ein Hinweis auf eine wie auch immer geartete Kausalbeziehung sein kann, reicht diese keinesfalls aus, um auf eine Kausalität zu schließen.
Hinweis zur Kausalität
Kausalität ist ein komplexes metaphysisches und epistemologisches Problem, welches schon seit der Antike kontrovers diskutiert wird. Die Frage, wann und wie Kausalität belegbar ist, steht weit außerhalb dessen, was der Autor in diesem Rahmen leisten kann und will. Für Interessierte sei hier nur auf den gleichnamigen Wikipedia-Artikel verwiesen, der viele Hinweise für das weitere Studium bietet.
Wenn es überhaupt eine Aussage gibt, die weitest gehend unstrittig ist, dann die folgende:
Korrelation impliziert keine Kausalität!
D.h. dass sich alleine aus einer Korrelation keine Kausalität ableiten lässt. Ebenso unstrittig ist aber auch, dass eine hohe Korrelation notwendige Voraussetzung für Kausalität ist.
Correlation-Hacking
Stehen genügend unterschiedliche Datensätze bereit, ist es gewöhnlich nicht schwer, eine Kombination aus zweien zu finden, die „zufällig“ eine hohe Korrelation zueinander haben.
Im besten Fall sind solche Scheinkorrelationen dann leicht zu durchschauen und durchaus unterhaltsam, wenn etwa die „Zahl der Museen in Bayern“ mit der „Zahl der Beschäftigten im deutschen Bäckerhandwerk“ korreliert wird (Korrelationskoeffizient: 0,9883 für die Jahre 2007 bis 2012), im schlimmsten Fall ist das weniger offensichtlich und führt womöglich sogar in die Irre.
Eine solche Suche nach Korrelationen in Datensätzen ist vergleichbar mit der als „𝑝-Hacking“ bekannten Fehlanalyse von Daten. In beiden Fällen werden mehrere Analysen so behandelt, als handle es sich um eine einzige – mit entsprechend falschen Ergebnissen.
Abgrenzung
Von der hier erklärten Scheinkorrelation ist zu unterscheiden:
Der Korrelationsirrtum ist ein Denkfehler, der darin besteht, dass korrelierte, also gemeinsam bzw. aufeinander folgend auftretende, Ereignisse bzw. Phänomene als kausal verbunden angenommen werden, sowie
Die Kausalillusion, ein unbewusster psychologischer Effekt (kognitive Verzerrung), welche gemeinsam oder in zeitlicher Abfolge vorkommende Phänomene als kausal verbunden erscheinen lässt.
Beide sind eng miteinander verbunden und möglicherweise sogar dasselbe Phänomen, das nur von verschiedenen Gesichtspunkten betrachtet wird.
Beispiele
Es gibt zahlreiche Sammlungen von offensichtlichen Scheinkorrelationen, die sehr kurzweilig durchzulesen sind, dazu gehören:
- Spurious Correlations (Englisch)
Siehe auch
Weitere Informationen
- Scheinkorrelation auf Wikipedia.
- Spurious Correlations von Tyler Vigen (Englisch)