Le site contient les meilleurs conseils, astuces et solutions aux problèmes que vous pourriez rencontrer. Secrets, astuces de vie, histoires et tout ce qui touche à la vie et aux relations.

“Comment mentir avec les statistiques” par Darell Huff. Comment mentir avec les statistiques

7

Biais d’échantillonnage

En 1948, lors de la course présidentielle aux États-Unis le soir de l’élection Truman (démocrates) contre Dewey (républicains), le Chicago Tribune publie peut-être son titre le plus célèbre, DEWEY DEFEATS TRUMAN (voir photo). Immédiatement après la fermeture des bureaux de vote, le journal a mené un scrutin, appelant un nombre énorme (assez pour un échantillon) d’électeurs, et tout annonce une victoire retentissante pour Dewey. La photo montre Truman, le vainqueur de la 48e élection, en train de rire. Qu’est ce qui ne s’est pas bien passé?

Les gens ont été appelés par hasard et en nombre suffisant, mais au cours de la 48e année, le téléphone n’était disponible que pour les personnes ayant un certain revenu et était rarement trouvé chez les personnes à faible revenu. Ainsi, le mode de scrutin lui-même introduit un amendement à la répartition des voix. L’échantillon n’a pas pris en compte une strate assez large d’électeurs de Truman (en règle générale, les démocrates ont une part importante des voix parmi les pauvres), pour qui le téléphone, à son tour, n’était pas disponible. Cette sélection est appelée biaisée.

Choisissez la bonne moyenne (moyenne bien choisie)

Imaginez une entreprise dans laquelle un directeur reçoit 25 mille, son adjoint en reçoit 7,6 mille, les cadres supérieurs – 5,5 mille, les cadres moyens – 3,5 mille, les cadres subalternes – 2,5 mille et les travailleurs ordinaires – 1, 4 mille (livres abstraites) par mois.
Et notre tâche est de présenter les informations sur l’entreprise sous un jour positif. Nous pouvons écrire que le salaire moyen dans l’entreprise est X, mais que signifie la moyenne? Considérez les options possibles (voir le diagramme ci-dessous): La moyenne arithmétique d’un ensemble fini X = {xi} est un nombre m égal à la moyenne (X) de l’équation:
"Comment mentir avec les statistiques" par Darell Huff. Comment mentir avec les statistiques

"Comment mentir avec les statistiques" par Darell Huff. Comment mentir avec les statistiques
C’est l’information la plus inutile du point de vue d’un employé – 3.472 salaire moyen, mais qu’est-ce qui fait un chiffre aussi élevé? En raison des salaires élevés de la direction, ce qui crée l’illusion que l’employé recevra le même montant. Du point de vue de l’employé, cette valeur n’est pas particulièrement informative.
Bien sûr, l’art populaire n’a pas contourné cette caractéristique de la “taille moyenne” sous la forme d’une moyenne arithmétique

Les fonctionnaires mangent de la viande, je mange du chou. En moyenne, nous mangeons des rouleaux de chou.

La médiane d’une certaine distribution P (X) (X = {xi}) est une valeur m telle qu’elle satisfait l’équation suivante: En termes simples, la moitié des travailleurs obtiennent plus que cette valeur, et la moitié moins – exactement le milieu de la Distribution! Ces statistiques sont assez informatives pour les employés de l’entreprise, car elles permettent de déterminer comment le salaire de l’employé se rapporte à la majorité des employés. Le mode d’un ensemble fini X = {xi} est le nombre m qui apparaît le plus souvent dans X. Dans ce cas, la mode peut être la plus informative pour une personne qui va commencer à travailler dans une entreprise donnée.
"Comment mentir avec les statistiques" par Darell Huff. Comment mentir avec les statistiques

Ainsi, selon la situation, la valeur moyenne peut être comprise comme n’importe laquelle des valeurs ci-dessus (en principe et pas seulement d’elles). Par conséquent, il est fondamental de comprendre comment cette moyenne est calculée.

Et 10 autres expériences infructueuses sur lesquelles nous n’avons pas écrit

Mettons un journal ordinaire dans de l’acide sulfurique et le magazine TV Park dans de l’eau distillée! Sentir la différence? Rien n’est arrivé au magazine – le papier est comme neuf! Nos recherches rapportent que le dentifrice Doake est 23% plus efficace que la concurrence, grâce à la poudre dentaire du Dr Cornish! (Qui contenait probablement du β-carotène et la formule secrète de la forêt – note de l’auteur.) Vous pourriez être surpris, mais la recherche a en fait été menée et a même publié un rapport technique. Et l’expérience a montré que le dentifrice est 23% plus efficace que la concurrence (quoi que cela signifie). Mais est-ce juste toute l’histoire?
"Comment mentir avec les statistiques" par Darell Huff. Comment mentir avec les statistiques

En réalité, l’échantillon pour l’expérience n’était qu’une douzaine de personnes (selon Darrell Huff et le livre déjà mentionné). C’est exactement l’exemple dont vous avez besoin pour obtenir des résultats! Disons que nous lançons une pièce cinq fois. Quelle est la probabilité qu’il atterrira des têtes toutes les cinq fois? (1/2) 5 = 1/32. Juste une heure trente-deux, ça ne peut pas être une simple coïncidence que les cinq têtes se lèvent, n’est-ce pas? Imaginons maintenant que nous répétions cette expérience 50 fois. Au moins une de ces tentatives réussira. Nous en parlerons dans le rapport, et toutes les autres expériences ne mèneront nulle part. Ainsi, nous recevrons exclusivement des données aléatoires qui s’intègrent parfaitement dans notre tâche.

Jouer avec la balance

Supposons que demain vous ayez besoin de montrer lors d’une réunion que nous avons rattrapé la concurrence, mais que les chiffres ne convergent pas un peu, que devons-nous faire? Déplaçons un peu l’échelle! Même le célèbre New York Times, réputé pour son travail de données de qualité, a publié un graphique complètement déroutant comme celui-ci (notez le saut de 800k à 1,5 m au centre de l’échelle). (exemple de Howard Wainer. The American Statistician, 1984.)
"Comment mentir avec les statistiques" par Darell Huff. Comment mentir avec les statistiques

Nous choisissons 100%

Imaginons que l’année dernière, le lait coûtait 10 kopecks par litre et le pain 10 kopecks par pain. Cette année, le prix du lait a baissé de 5 kopecks, tandis que le pain a augmenté de 20. Attention à la question, que voulons-nous prouver?
Imaginons que l’année dernière soit à 100%, la base des calculs. Ensuite, le prix du lait a chuté de 50% et le pain a augmenté de 200%, une moyenne de 125%, ce qui signifie que les prix ont augmenté en général de 25%. Essayons à nouveau, que l’année en cours soit à 100%, ce qui signifie que les prix du lait étaient de 200% l’année dernière et du pain de 50%. Cela signifie que les prix de l’année dernière étaient en moyenne 25% plus élevés!
"Comment mentir avec les statistiques" par Darell Huff. Comment mentir avec les statistiques

"Comment mentir avec les statistiques" par Darell Huff. Comment mentir avec les statistiques

Collectez des données qui rendront vos conclusions encore plus biaisées

La première étape de la collecte de statistiques consiste à déterminer ce que vous souhaitez analyser. Les statisticiens appellent des informations à ce stade la population. Ensuite, vous devez définir une sous-classe de données qui, une fois analysée, doit représenter la population entière dans son ensemble. Plus l’échantillon est volumineux et précis, plus les résultats de la recherche seront précis.

Bien sûr, il existe différentes manières de gâcher un échantillon statistique par accident ou intentionnellement:

  • Biais de séléction. Cette erreur survient lorsque les personnes participant à l’étude s’identifient comme un groupe qui ne représente pas l’ensemble de la population.
  • Échantillonnage aléatoire. Se produit lorsque des informations facilement disponibles sont analysées plutôt que d’essayer de collecter des données représentatives. Par exemple, une chaîne d’information peut mener une enquête politique auprès de ses téléspectateurs. Sans demander aux gens qui regardent d’autres chaînes (ou ne regardent pas du tout la télévision), on ne peut pas dire que les résultats d’une telle étude refléteront la réalité.
  • Refus des répondants de participer. Une telle erreur statistique se produit lorsque certaines personnes ne répondent pas aux questions posées dans une étude statistique. Cela conduit à un affichage incorrect des résultats. Par exemple, si une étude pose la question «Avez-vous déjà trompé votre conjoint?» En conséquence, il semblera que la tricherie est rare.
  • Sondages en accès libre. Tout le monde peut participer à de telles enquêtes. Souvent, on ne vérifie même pas combien de fois la même personne a répondu aux questions. Un exemple est diverses enquêtes sur Internet. Il est très intéressant de les passer, mais ils ne peuvent être considérés comme objectifs.

La beauté du biais de sélection est que quelqu’un, quelque part, est susceptible de mener une enquête non scientifique qui soutiendra la théorie que vous avez. Il vous suffit donc de rechercher sur le Web le sondage que vous souhaitez ou de créer le vôtre.

Choisissez des résultats qui soutiennent vos idées

Puisque les statistiques utilisent des nombres, il nous semble qu’elles prouvent de manière convaincante toute idée. Les statistiques reposent sur des calculs mathématiques complexes qui, s’ils sont mal gérés, peuvent conduire à des résultats complètement opposés.

Pour démontrer les failles de l’analyse des données, le mathématicien anglais Francis Anscombe a créé le quatuor Anscombe. Il se compose de quatre ensembles de données numériques qui semblent complètement différents sur les graphiques.

"Comment mentir avec les statistiques" par Darell Huff. Comment mentir avec les statistiques

La figure X1 est un nuage de points standard; X2 est une courbe qui monte d’abord puis redescend; X3 – une ligne qui monte légèrement vers le haut, avec un dépassement sur l’axe Y; X4 – données sur l’axe X, à l’exception d’un dépassement situé en hauteur sur les deux axes.

Pour chacun des graphiques, les affirmations suivantes sont vraies:

  • La moyenne de x pour chaque ensemble de données est de 9.
  • La moyenne de y pour chaque ensemble de données est de 7,5.
  • La variance (dispersion) de la variable x est de 11 et la variable y est de 4,12.
  • La corrélation entre les variables x et y pour chaque ensemble de données est de 0,816.

Si nous ne voyions ces données que sous forme de texte, nous penserions que les situations sont complètement les mêmes, bien que les graphiques le réfutent.

Par conséquent, Enscombe vous a suggéré de visualiser d’abord les données, puis de tirer des conclusions seulement. Bien sûr, si vous voulez induire quelqu’un en erreur, sautez cette étape.

Créez des graphiques qui mettent en évidence les résultats souhaités

La plupart des gens n’ont pas le temps de faire leur propre analyse statistique. Ils s’attendent à ce que vous leur montriez des graphiques résumant l’ensemble de vos recherches. Des graphiques bien conçus doivent refléter des idées qui correspondent à la réalité. Mais ils peuvent également mettre en évidence les données que vous souhaitez afficher.

Omettez les noms de certains paramètres, modifiez légèrement l’échelle sur l’axe des coordonnées, n’expliquez pas le contexte. Ainsi, vous pouvez convaincre tout le monde que vous avez raison.

Par tous les moyens, cachez les sources

Si vous citez ouvertement vos sources, il est facile pour les gens de vérifier vos découvertes. Bien sûr, si vous essayez de mettre tout le monde autour de votre doigt, ne dites jamais comment vous en êtes arrivé à vos conclusions.

Habituellement, dans les articles et les études, les sources sont toujours citées. Dans le même temps, les œuvres originales peuvent ne pas être fournies dans leur intégralité. L’essentiel est que la source réponde aux questions suivantes:

  • Comment les données ont-elles été collectées? Les gens ont-ils été interviewés par téléphone? Ou a-t-il été arrêté dans la rue? Ou était-ce un sondage Twitter? La méthode de collecte des informations peut indiquer certaines erreurs de sélection.
  • Quand se sont-ils rencontrés? La recherche devient rapidement dépassée et les tendances changent, de sorte que le moment de la collecte des informations influence les conclusions.
  • Qui les a collectés? Les recherches de la société de tabac sur l’innocuité du tabagisme sont peu crédibles.
  • Qui a été interviewé? Ceci est particulièrement important pour les sondages d’opinion publique. Si un politicien mène une enquête parmi ceux qui sympathisent avec lui, les résultats ne refléteront pas l’opinion de l’ensemble de la population.

Comment mentir en utilisant les statistiques – Partie 2

Nous continuons à analyser comment vous pouvez induire les gens en erreur en utilisant des statistiques de manière incorrecte. Post précédent

Sélection moyenne

Vous pouvez souvent entendre le mot «moyen» dans les nouvelles et les publicités. Mais qu’est-ce que c’est méchant? Il y a la moyenne arithmétique, la moyenne géométrique, la moyenne harmonique et la liste est longue! Et un choix inapproprié (accidentellement ou délibérément) de la moyenne peut fausser considérablement les résultats.

Prenons un exemple. Supposons que nous ayons trois personnes: la grand-mère Elena Anatolyevna avec une pension de 8000, l’administrateur système Vasya avec un salaire de 40000 et le millionnaire Pavel Umnov, qui gagne exactement un million par mois.

Si nous calculons simplement la moyenne arithmétique en additionnant leurs salaires et en divisant par 3, nous obtenons qu’elle est égale à 350 mille roubles! Reste à faire plaisir à grand-mère avec cette nouvelle

Sur une échelle logarithmique, ces valeurs ne semblent même pas trop éloignées. Ligne rouge – moyenne arithmétique

Pour de tels cas, une moyenne telle que la médiane convient mieux. C’est la valeur qui divise toutes nos données en deux parties égales (en termes de quantité). La valeur médiane pour cet exemple serait le salaire de l’administrateur système Vasya – 40 000. Avant et après elle, il y a le même nombre de personnes (une à la fois). Ensuite, nous pourrions appeler Vasya une personne avec un salaire moyen, toute personne qui reçoit moins que Vasya – avec un petit revenu, plus – riche

Cependant, à l’aide de la médiane, il serait possible, au contraire, de masquer des valeurs très importantes (à la hausse ou à la baisse)

Pliant non pliable

Pensez au système de notation en cinq points à l’école. Imaginez qu’un élève de septième Danil ait écrit une dictée pour 5, et que son camarade de classe Leonardo ait décidé de l’écrire de droite à gauche et en ait reçu deux. Nous divisons 5 par 2 et nous obtenons que Danil a écrit la dictée 2,5 fois mieux! Droite?

Tort. Les scores sont une variable nominale artificielle qui exprime numériquement les notes verbales d’excellence, de bonne, etc. Est-ce que «insatisfaisant» est exactement 2,5 fois pire que «excellent»?

Ainsi, il n’est pas mathématiquement significatif de calculer les notes moyennes pour les notes ou pour tout test.

Échantillonnage biaisé

Selon les données de vote par Internet, 100% des personnes utilisent Internet

Avant toute statistique, vous pouvez mentir si vous collectez les données de manière incorrecte. Un exemple classique est la course présidentielle américaine de 1948: Dewey contre Truman. Le Chicago Tribune a mené un sondage immédiatement après la fermeture des bureaux de vote, appelant un grand nombre de personnes. Et selon les résultats prédisant un succès retentissant, Dewey a publié un journal avec le titre «DEWEY Wins Truman ». La photo montre un Truman en riant, vainqueur des élections de 1948, avec ce journal même entre ses mains

Un problème est survenu? Le journal a téléphoné à un nombre suffisant d’électeurs pour l’échantillon, et même au hasard. Seule l’approche elle-même était erronée – le téléphone à l’époque n’était pas disponible pour la population pauvre, dont la majeure partie était le soutien de Truman.

Un autre exemple est le salaire des diplômés promis par les universités. Aux États-Unis, il est même allé aux tribunaux – les diplômés ont fait valoir que les données sur les salaires étaient artificiellement élevées. Mais le point est complètement différent: c’est juste que seules les personnes qui en sont satisfaites partagent des données sur leurs revenus avec l’université.

Visualisation “visuelle”

Il existe mille et une façons d’enrichir les données. Par exemple, visualisez-les visuellement. Cela peut aider à lire des graphiques ennuyeux, et si cela est fait avec un peu de ruse, il est plus rentable de les présenter.

Voici un graphique de la consommation de bière américaine en millions de barils et de la part de Schlitz. Il est vraiment impressionnant!

Mais mettons ce graphique sous une forme plus rigoureuse: affichez les données avec des points et démarrez l’axe des y à partir de zéro:

Cela ne semble plus si impressionnant. Lors du traçage des points sur le graphique sous forme de barils, les gens ne perçoivent pas visuellement le dessus des barils, mais leur volume. Et lorsque le côté du canon est agrandi de 2 fois, le volume augmente de 8 fois! Sur une telle échelle, l’axe des y commençant à 100 aide.

Voici un autre exemple. De merveilleuses infographies qui montrent combien d’argent est dépensé pour lutter contre les maladies et leurs décès

L’idée est géniale. Cependant, regardez de plus près les chiffres. Le prix avec un cercle orange est environ 2 fois moins élevé qu’avec un rose. Mais le cercle rose est 4 fois plus grand!

Les auteurs ont préféré faire dépendre le rayon du cercle du prix. Mais nous ne percevons pas du tout le rayon, mais l’aire de la figure! Et la formule de l’aire d’un cercle dépend du rayon quadratiquement

Cette infographie peut être encore meilleure en plaçant les mêmes maladies sur la même ligne. Voici à quoi ressemble la version révisée:

La visualisation est non seulement plus crédible, mais transmet également clairement l’idée: certaines maladies ne sont pas aussi dangereuses que de l’argent y est dépensé, et la lutte contre d’autres est sous-financée.

Un exemple de visualisation de haute qualité

Le graphique montre la taille de l’armée de Napoléon. Le point d’extrême droite est Moscou, d’où commence la retraite, représentée par une bande noire. Le graphique de temps et de température est également lié au programme de retraite. Très clair!

À propos du livre “Comment mentir en utilisant les statistiques” de Darell Huff

Dans ce livre de renommée mondiale, Darell Huff discute des différentes façons dont les statistiques sont utilisées à mauvais escient pour tromper et manipuler le public. Chaque jour, ils essaient de vous influencer pour vous inciter à acheter un produit «nécessaire» ou à choisir le «bon» candidat: «Grâce à la pâte« Clean Teeth », la formation de caries est réduite de 23%!»; «La politique N est soutenue par 85% des citoyens»… Comment comprendre la fiabilité de certaines données? Comment sont les calculs? Ce qui est pris en compte et ce qui reste dans les coulisses? L’auteur révèle les outils secrets des statisticiens et équipe le lecteur avec des connaissances qui aideront à comprendre toutes les subtilités de cette science et ne permettront pas la confusion.

annotation

Dans ce livre de renommée mondiale, Darell Huff discute des différentes façons dont les statistiques sont utilisées à mauvais escient pour tromper et manipuler le public. Chaque jour, ils essaient de vous influencer pour vous inciter à acheter un produit «nécessaire» ou à choisir le «bon» candidat: «Grâce à la pâte« Clean Teeth », la formation de caries est réduite de 23%!»; «La politique N est soutenue par 85% des citoyens»… Comment comprendre la fiabilité de certaines données? Comment se fait le calcul? Qu’est-ce qui est pris en compte et que reste-t-il dans les coulisses? L’auteur révèle les outils secrets des statisticiens et dote le lecteur de connaissances qui aideront à comprendre toutes les subtilités de cette science et ne vous permettront pas de vous tromper.

Sources utilisées et liens utiles sur le sujet: https://habr.com/ru/post/217545/ https://Lifehacker.ru/4-sposoba-lgat-pri-pomoshhi-statistiki/ https://pikabu.ru / story / kaklgat_s_pomoshchyu_statistiki_chast_2_6113007 https://lifeinbooks.net/chto-pochitat/kak-lgat-pri-pomoshhi-statistiki-darell-haff/ https://coollib.net/b/331961-kat-

Source d’enregistrement: lastici.ru

Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Plus de détails