Die Website enthält die besten Tipps, Tricks und Lösungen für Probleme, auf die Sie möglicherweise stoßen. Geheimnisse, Lifehacks, Geschichten und alles, was mit Leben und Beziehungen zu tun hat.

“Wie man mit Statistiken lügt” von Darell Huff. Wie man mit Statistiken lügt

6

Sampling Bias

Während des Präsidentschaftswettbewerbs in den Vereinigten Staaten in der Wahlnacht Truman (Demokraten) gegen Dewey (Republikaner) veröffentlichte die Chicago Tribune 1948 ihre vielleicht berühmteste Schlagzeile, DEWEY DEFEATS TRUMAN (siehe Foto). Unmittelbar nach der Schließung der Wahllokale führte die Zeitung eine Umfrage durch, bei der eine große Anzahl (genug für eine Stichprobe) Wähler angerufen wurde, und alles kündigte einen durchschlagenden Sieg für Dewey an. Auf dem Foto sehen wir einen lachenden Truman, den Gewinner der 48. Wahl. Was schief gelaufen ist?

Menschen wurden zufällig und in ausreichender Anzahl angerufen, aber im 48. Jahr war das Telefon nur für Menschen mit einem bestimmten Einkommen verfügbar und wurde bei Menschen mit geringem Einkommen selten gefunden. Mit der Abstimmungsmethode selbst wird daher eine Änderung der Stimmenverteilung eingeführt. Die Stichprobe berücksichtigte nicht eine ziemlich breite Schicht von Trumans Wählern (in der Regel haben Demokraten einen großen Stimmenanteil unter den Armen), für die das Telefon wiederum nicht verfügbar war. Diese Auswahl wird als voreingenommen bezeichnet.

Auswahl des richtigen Durchschnitts (gut gewählter Durchschnitt)

Stellen Sie sich ein Unternehmen vor, in dem ein Manager 25.000, sein Stellvertreter 7,6.000, Top-Manager 5,5.000, mittlere Manager 3,5.000, Junior-Manager 2,5.000 und normale Arbeiter 1,4.000 (abstrakte Pfund) pro Monat erhält.
Und unsere Aufgabe ist es, Informationen über das Unternehmen in einem positiven Licht zu präsentieren. Wir können schreiben, dass das durchschnittliche Gehalt in der Firma X ist, aber was bedeutet der Durchschnitt? Betrachten Sie die möglichen Optionen (siehe Abbildung unten): Das arithmetische Mittel einer endlichen Menge X = {xi} ist eine Zahl m, die dem Mittelwert (X) aus der Gleichung entspricht:
"Wie man mit Statistiken lügt" von Darell Huff. Wie man mit Statistiken lügt

"Wie man mit Statistiken lügt" von Darell Huff. Wie man mit Statistiken lügt
Dies ist aus Sicht eines Mitarbeiters die nutzloseste Information – 3,472 Durchschnittslöhne, aber was macht eine so hohe Zahl aus? Aufgrund der hohen Gehälter des Managements entsteht die Illusion, dass der Mitarbeiter den gleichen Betrag erhält. Aus Sicht des Mitarbeiters ist dieser Wert nicht besonders informativ.
Natürlich hat die Volkskunst dieses Merkmal der “Durchschnittsgröße” in Form eines arithmetischen Mittels nicht umgangen

Beamte essen Fleisch, ich esse Kohl. Im Durchschnitt essen wir Kohlrouladen.

Der Median einer Verteilung P (X) (X = {xi}) ist ein solcher Wert m, dass er die folgende Gleichung erfüllt: Einfach ausgedrückt, die Hälfte der Arbeiter erhält mehr als diesen Wert und die Hälfte weniger – genau die Mitte des Verteilung! Diese Statistiken sind für die Mitarbeiter des Unternehmens sehr informativ, da sie es ermöglichen, festzustellen, wie sich das Gehalt des Mitarbeiters auf die Mehrheit der Mitarbeiter bezieht. Der Modus einer endlichen Menge X = {xi} ist die Zahl m, die in X am häufigsten vorkommt. In diesem Fall kann Mode für eine Person, die in einem bestimmten Unternehmen anfangen wird, am informativsten sein.
"Wie man mit Statistiken lügt" von Darell Huff. Wie man mit Statistiken lügt

Somit kann der Durchschnittswert je nach Situation als einer der obigen Werte verstanden werden (im Prinzip und nicht nur von diesen). Daher ist es von grundlegender Bedeutung zu verstehen, wie dieser Durchschnitt berechnet wird.

Und 10 weitere erfolglose Experimente, über die wir nicht geschrieben haben

Lassen Sie uns eine gewöhnliche Zeitung in Schwefelsäure und das TV Park Magazin in destilliertes Wasser legen! Spüre den Unterschied? Der Zeitschrift ist nichts passiert – die Zeitung ist wie neu! Unsere Forschungsberichte Doakes Zahnpasta ist dank Dr. Cornishs Zahnpulver 23% effektiver als die Konkurrenz! (Was wahrscheinlich β-Carotin und die geheime Formel des Waldes enthielt – Anmerkung des Autors.) Sie werden vielleicht überrascht sein, aber die Forschung wurde wirklich durchgeführt und sogar ein technischer Bericht wurde veröffentlicht. Und das Experiment hat gezeigt, dass Zahnpasta 23% effektiver ist als die Konkurrenz (was auch immer das bedeutet). Aber ist das nur die ganze Geschichte?
"Wie man mit Statistiken lügt" von Darell Huff. Wie man mit Statistiken lügt

In Wirklichkeit bestand die Stichprobe für das Experiment nur aus einem Dutzend Personen (laut Darrell Huff und dem bereits erwähnten Buch). Dies ist genau das Beispiel, das Sie benötigen, um Ergebnisse zu erzielen! Nehmen wir an, wir werfen fünf Mal eine Münze. Wie hoch ist die Wahrscheinlichkeit, dass alle fünf Male Köpfe landen? (1/2) 5 = 1/32. Nur einunddreißig, es kann kein Zufall sein, dass alle fünf Köpfe auftauchen, oder? Stellen wir uns nun vor, wir wiederholen dieses Experiment 50 Mal. Mindestens einer dieser Versuche wird erfolgreich sein. Wir werden im Bericht darüber schreiben, und alle anderen Experimente werden nirgendwo hingehen. So erhalten wir ausschließlich zufällige Daten, die perfekt zu unserer Aufgabe passen.

Mit der Waage spielen

Angenommen, Sie müssen morgen bei einem Meeting zeigen, dass wir die Konkurrenz eingeholt haben, aber die Zahlen konvergieren nicht ein wenig. Was sollen wir tun? Bewegen wir die Waage ein wenig! Sogar die renommierte New York Times, die für ihre hochwertige Datenarbeit bekannt ist, hat eine völlig verwirrende Grafik wie diese veröffentlicht (beachten Sie den Sprung von 800.000 auf 1,5 m in der Mitte der Skala). (Beispiel von Howard Wainer. The American Statistician, 1984.)
"Wie man mit Statistiken lügt" von Darell Huff. Wie man mit Statistiken lügt

Wir wählen 100%

Stellen wir uns vor, dass Milch im letzten Jahr 10 Kopeken pro Liter und Brot 10 Kopeken pro Laib kostete. In diesem Jahr ist der Preis für Milch um 5 Kopeken gesunken, während das Brot um 20 gewachsen ist. Aufmerksamkeit auf die Frage, was wollen wir beweisen?
Stellen wir uns vor, das letzte Jahr ist 100%, die Grundlage für Berechnungen. Dann fiel der Milchpreis um 50% und das Brot um 200%, durchschnittlich 125%, was bedeutet, dass die Preise im Allgemeinen um 25% stiegen. Versuchen wir es noch einmal, lassen Sie das laufende Jahr 100% betragen, was bedeutet, dass die Milchpreise im letzten Jahr 200% und das Brot 50% betrugen. Dies bedeutet, dass die Preise im letzten Jahr im Durchschnitt um 25% höher waren!
"Wie man mit Statistiken lügt" von Darell Huff. Wie man mit Statistiken lügt

"Wie man mit Statistiken lügt" von Darell Huff. Wie man mit Statistiken lügt

Sammeln Sie Daten, die Ihre Schlussfolgerungen noch voreingenommener machen

Der erste Schritt beim Sammeln von Statistiken besteht darin, zu bestimmen, was Sie analysieren möchten. Statistiker nennen Informationen in dieser Phase die Bevölkerung. Anschließend definieren Sie eine Unterklasse von Daten, die bei der Analyse die gesamte Grundgesamtheit darstellen sollen. Je größer und genauer die Probe ist, desto genauer sind die Forschungsergebnisse.

Natürlich gibt es verschiedene Möglichkeiten, eine statistische Stichprobe versehentlich oder absichtlich zu verderben:

  • Auswahlbias. Dieser Fehler tritt auf, wenn sich die an der Studie teilnehmenden Personen als eine Gruppe identifizieren, die nicht die gesamte Bevölkerung repräsentiert.
  • Stichproben. Tritt auf, wenn leicht verfügbare Informationen analysiert werden, anstatt zu versuchen, repräsentative Daten zu sammeln. Beispielsweise könnte ein Nachrichtensender eine politische Umfrage unter seinen Zuschauern durchführen. Ohne Leute zu fragen, die andere Kanäle sehen (oder überhaupt nicht fernsehen), kann nicht gesagt werden, dass die Ergebnisse einer solchen Studie die Realität widerspiegeln.
  • Verweigerung der Teilnahme der Befragten. Ein solcher statistischer Fehler tritt auf, wenn einige Personen die in einer statistischen Studie gestellten Fragen nicht beantworten. Dies führt zu einer falschen Anzeige der Ergebnisse. Zum Beispiel, wenn eine Studie die Frage stellt: “Haben Sie jemals Ihren Ehepartner betrogen?” Infolgedessen scheint Untreue selten zu sein.
  • Umfragen mit freiem Zugang. Jeder kann an solchen Umfragen teilnehmen. Oft wird nicht einmal überprüft, wie oft dieselbe Person Fragen beantwortet hat. Ein Beispiel sind verschiedene Umfragen im Internet. Es ist sehr interessant, sie zu bestehen, aber sie können nicht als objektiv angesehen werden.

Das Schöne an Selektionsbias ist, dass irgendwo jemand wahrscheinlich eine unwissenschaftliche Umfrage durchführt, die Ihre Theorie unterstützt. Durchsuchen Sie einfach das Web nach der gewünschten Umfrage oder erstellen Sie Ihre eigene.

Wählen Sie Ergebnisse, die Ihre Ideen unterstützen

Da Statistiken Zahlen verwenden, scheinen sie uns jede Idee überzeugend zu beweisen. Die Statistik basiert auf komplexen mathematischen Berechnungen, die bei falscher Handhabung zu völlig entgegengesetzten Ergebnissen führen können.

Um die Mängel in der Datenanalyse aufzuzeigen, hat der englische Mathematiker Francis Anscombe das Anscombe-Quartett gegründet. Es besteht aus vier numerischen Datensätzen, die in den Diagrammen völlig unterschiedlich aussehen.

"Wie man mit Statistiken lügt" von Darell Huff. Wie man mit Statistiken lügt

Fig. X1 ist ein Standardstreudiagramm; X2 ist eine Kurve, die zuerst ansteigt und dann abfällt. X3 – eine Linie, die leicht nach oben steigt, mit einem Überschwingen auf der Y-Achse; X4 – Daten auf der X-Achse, mit Ausnahme eines Überschwingens, das sich hoch auf beiden Achsen befindet.

Für jedes der Diagramme gelten die folgenden Aussagen:

  • Der Mittelwert von x für jeden Datensatz beträgt 9.
  • Der Mittelwert von y für jeden Datensatz beträgt 7,5.
  • Die Varianz (Streuung) der x-Variablen beträgt 11 und die y-Variable beträgt 4,12.
  • Die Korrelation zwischen den Variablen x und y für jeden Datensatz beträgt 0,816.

Wenn wir diese Daten nur in Form von Text sehen würden, würden wir denken, dass die Situationen völlig gleich sind, obwohl die Grafiken dies widerlegen.

Daher schlug Enscombe vor, zuerst die Daten zu visualisieren und erst dann Schlussfolgerungen zu ziehen. Wenn Sie jemanden irreführen möchten, überspringen Sie diesen Schritt.

Erstellen Sie Diagramme, die Ihre gewünschten Ergebnisse hervorheben

Die meisten Menschen haben keine Zeit, ihre eigenen statistischen Analysen durchzuführen. Sie erwarten, dass Sie ihnen Diagramme zeigen, in denen alle Ihre Forschungsergebnisse zusammengefasst sind. Gut gestaltete Diagramme sollten Ideen widerspiegeln, die zur Realität passen. Sie können aber auch die Daten hervorheben, die Sie anzeigen möchten.

Lassen Sie die Namen einiger Parameter weg, ändern Sie die Skalierung auf der Koordinatenachse geringfügig und erläutern Sie den Kontext nicht. So können Sie alle davon überzeugen, dass Sie Recht haben.

Verstecken Sie auf jeden Fall Quellen

Wenn Sie Ihre Quellen offen zitieren, können die Leute Ihre Ergebnisse leicht überprüfen. Wenn Sie versuchen, alle an Ihren Finger zu bekommen, sagen Sie natürlich nie, wie Sie zu Ihren Schlussfolgerungen gekommen sind.

Normalerweise werden in Artikeln und Studien immer Verweise auf Quellen angegeben. Gleichzeitig werden Originalwerke möglicherweise nicht vollständig zur Verfügung gestellt. Die Hauptsache ist, dass die Quelle die folgenden Fragen beantwortet:

  • Wie wurden die Daten gesammelt? Wurden Leute telefonisch interviewt? Oder wurde es auf der Straße angehalten? Oder war es eine Twitter-Umfrage? Die Methode zum Sammeln von Informationen kann auf bestimmte Auswahlfehler hinweisen.
  • Wann haben Sie sich getroffen? Die Forschung ist schnell veraltet und Trends ändern sich, sodass der Zeitpunkt der Informationserfassung die Schlussfolgerungen beeinflusst.
  • Wer hat sie gesammelt? Die Forschung des Tabakunternehmens zur Sicherheit des Rauchens ist wenig glaubwürdig.
  • Wer wurde interviewt? Dies ist besonders wichtig für Meinungsumfragen. Wenn ein Politiker eine Umfrage unter denjenigen durchführt, die mit ihm sympathisieren, spiegeln die Ergebnisse nicht die Meinung der gesamten Bevölkerung wider.

Wie man mit Statistiken lügt – Teil 2

Wir analysieren weiterhin, wie Sie Menschen durch falsche Verwendung von Statistiken irreführen können. Vorherigen Post

Mittlere Auswahl

In Nachrichten und Anzeigen ist häufig das Wort „Durchschnitt” zu hören. Aber was ist gemein? Es gibt ein arithmetisches Mittel, ein geometrisches Mittel, ein harmonisches Mittel und die Liste geht weiter! Und eine unangemessene (versehentliche oder absichtliche) Wahl des Mittelwerts kann die Ergebnisse erheblich verzerren.

Betrachten wir ein Beispiel. Angenommen, wir haben drei Personen: Großmutter Elena Anatolyevna mit einer Rente von 8.000, Systemadministrator Vasya mit einem Gehalt von 40.000 und Millionär Pavel Umnov, der genau eine Million im Monat verdient

Wenn wir einfach das arithmetische Mittel berechnen, indem wir ihre Gehälter addieren und durch 3 dividieren, erhalten wir, dass es 350 Tausend Rubel entspricht! Es bleibt Großmutter mit dieser Nachricht zu gefallen

Auf einer logarithmischen Skala sehen diese Werte nicht einmal zu weit auseinander. Rote Linie – arithmetisches Mittel

Für solche Fälle ist ein Mittelwert wie der Median besser geeignet. Dies ist der Wert, der alle unsere Daten in zwei gleiche Teile (in Bezug auf die Menge) aufteilt. Der Medianwert für dieses Beispiel wäre das Gehalt des Systemadministrators Vasya – 40.000. Vor und nach ihr gibt es die gleiche Anzahl von Personen (eine nach der anderen). Dann könnten wir Vasya eine Person mit einem Durchschnittsgehalt nennen, jeder, der weniger als Vasya erhält – mit einem kleinen Einkommen, mehr – reich.

Mit Hilfe des Medians wäre es jedoch im Gegenteil möglich, sehr markante (Auf- oder Ab-) Werte zu verbergen

Falten nicht falten

Denken Sie an das Fünf-Punkte-Bewertungssystem in der Schule. Stellen Sie sich vor, der Siebtklässler Danil schrieb ein Diktat für 5, und sein Klassenkamerad Leonardo beschloss, es von rechts nach links zu schreiben, und erhielt eine Zwei. Wir teilen 5 durch 2 und wir bekommen, dass Danil das Diktat 2,5-mal besser geschrieben hat! Recht?

Falsch. Scores sind eine erfundene nominelle Variable, die verbale Noten von ausgezeichnet, gut usw. numerisch ausdrückt. Ist “unbefriedigend” genau 2,5-mal schlechter als “ausgezeichnet”?

Daher ist es mathematisch nicht sinnvoll, Durchschnittswerte für Noten oder Tests zu berechnen.

Voreingenommene Abtastung

Laut Internet-Abstimmungsdaten nutzen 100% der Menschen das Internet

Vor jeder Statistik können Sie lügen, wenn Sie die Daten falsch erfassen. Ein klassisches Beispiel ist das Rennen des US-Präsidenten von 1948: Dewey vs. Truman. Die Chicago Tribune führte unmittelbar nach Schließung der Wahllokale eine Umfrage durch, bei der eine große Anzahl von Personen angerufen wurde. Und laut den Ergebnissen, die einen durchschlagenden Erfolg vorhersagten, veröffentlichte Dewey eine Zeitung mit der Überschrift ” DEWEY Wins Truman “. Das Foto zeigt einen lachenden Truman, Gewinner der Wahlen von 1948, mit genau dieser Zeitung in den Händen

Etwas ist schief gelaufen? Die Zeitung rief eine ausreichende Anzahl von Wählern für die Stichprobe an, und zwar zufällige. Nur der Ansatz selbst war falsch – das Telefon war zu dieser Zeit für die arme Bevölkerung nicht verfügbar, der größte Teil davon war Trumans Unterstützung.

Ein weiteres Beispiel sind die von den Universitäten versprochenen Gehälter der Absolventen. In den Vereinigten Staaten ging es sogar vor Gericht – Absolventen argumentierten, dass die Daten zu Gehältern künstlich hoch seien. Aber der Punkt ist ganz anders: Es ist nur so, dass nur Menschen, die mit ihnen zufrieden sind, Daten über ihre Einnahmen mit der Universität teilen.

“Visuelle” Visualisierung

Es gibt tausend und eine Möglichkeit, die Daten zu verschönern. Visualisieren Sie sie beispielsweise visuell. Es kann helfen, langweilige Diagramme zu lesen, und wenn Sie mit ein wenig Trick fertig sind, ist es rentabler, sie zu präsentieren.

Hier ist eine Grafik des US-Bierkonsums in Millionen Barrel und des Schlitz-Anteils. Er ist wirklich beeindruckend!

Aber lassen Sie uns dieses Diagramm in eine strengere Form bringen: Zeigen Sie die Daten mit Punkten an und beginnen Sie die y-Achse bei Null:

Scheint nicht mehr so ​​beeindruckend. Beim Zeichnen von Punkten in der Grafik in Form von Fässern nehmen die Menschen nicht die Oberseite der Fässer, sondern deren Volumen visuell wahr. Und wenn die Seite des Laufs um das 2-fache vergrößert wird, erhöht sich das Volumen um das 8-fache! Auf dieser Skala hilft die bei 100 beginnende y-Achse.

Hier ist ein weiteres Beispiel. Wunderbare Infografiken, die zeigen, wie viel Geld für den Kampf gegen Krankheiten und Todesfälle ausgegeben wird

Die Idee ist großartig. Schauen Sie sich die Zahlen jedoch genauer an. Der Preis mit einem orangefarbenen Kreis ist ungefähr zweimal niedriger als mit einem rosa. Aber der rosa Kreis ist viermal größer!

Die Autoren zogen es vor, den Radius des Kreises vom Preis abhängig zu machen. Aber wir nehmen visuell nicht den Radius wahr, sondern den Bereich der Figur! Und die Formel für die Fläche eines Kreises hängt quadratisch vom Radius ab

Diese Infografik kann noch besser gemacht werden, indem dieselben Krankheiten auf derselben Linie platziert werden. So sieht die überarbeitete Version aus:

Visualisierung ist nicht nur glaubwürdiger, sondern vermittelt auch deutlich die Idee: Einige Krankheiten sind nicht so gefährlich, wie Geld für sie ausgegeben wird, und der Kampf gegen andere ist unterfinanziert.

Ein Beispiel für eine qualitativ hochwertige Visualisierung

Die Grafik zeigt die Größe von Napoleons Armee. Der äußerste rechte Punkt ist Moskau, von wo aus der Rückzug beginnt, dargestellt durch einen schwarzen Streifen. Das Zeit- und Temperaturdiagramm ist auch mit dem Rückzugsplan verknüpft. Sehr deutlich!

Über das Buch “Wie man mit Statistiken lügt” von Darell Huff

In diesem weltberühmten Buch diskutiert Darell Huff die verschiedenen Arten, wie Statistiken missbraucht werden, um das Publikum zu täuschen und zu manipulieren. Jeden Tag versuchen sie, Sie zu beeinflussen, um Sie zu ermutigen, ein „notwendiges” Produkt zu kaufen oder den „richtigen” Kandidaten zu wählen: „Dank der Paste„ Clean Teeth “wird die Kariesbildung um 23% reduziert!”; “N-Politik wird von 85% der Bürger unterstützt” … Wie kann man verstehen, wie zuverlässig bestimmte Daten sind? Wie werden Berechnungen durchgeführt? Was wird berücksichtigt und was bleibt hinter den Kulissen? Der Autor enthüllt die geheimen Werkzeuge von Statistikern und rüstet die aus Leser mit Wissen, das hilft, alle Feinheiten dieser Wissenschaft zu verstehen und keine Verwirrung zulässt.

Anmerkung

In diesem weltberühmten Buch diskutiert Darell Huff die verschiedenen Arten, wie Statistiken missbraucht werden, um das Publikum zu täuschen und zu manipulieren. Jeden Tag versuchen sie, Sie zu beeinflussen, um Sie zu ermutigen, ein „notwendiges” Produkt zu kaufen oder den „richtigen” Kandidaten zu wählen: „Dank der Paste„ Clean Teeth “wird die Kariesbildung um 23% reduziert!”; “N-Politik wird von 85% der Bürger unterstützt” … Wie kann man verstehen, wie zuverlässig diese oder jene Daten sind? Wie erfolgt die Berechnung? Was wird berücksichtigt und was bleibt hinter den Kulissen? Der Autor enthüllt die geheimen Werkzeuge von Statistikern und stattet den Leser mit Wissen aus, das hilft, alle Feinheiten dieser Wissenschaft zu verstehen und Sie nicht irreführen zu lassen.

Verwendete Quellen und nützliche Links zum Thema: https://habr.com/ru/post/217545/ https://Lifehacker.ru/4-sposoba-lgat-pri-pomoshhi-statistiki/ https://pikabu.ru / story / kaklgat_s_pomoshchyu_statistiki_chast_2_6113007 https://lifeinbooks.net/chto-pochitat/kak-lgat-pri-pomoshhi-statistiki-darell-haff/ https://coollib.net/b/331961-kat-plgat

Aufnahmequelle: lastici.ru

Diese Website verwendet Cookies, um Ihre Erfahrung zu verbessern. Wir gehen davon aus, dass Sie damit einverstanden sind, Sie können sich jedoch abmelden, wenn Sie möchten. Annehmen Weiterlesen