Die Website enthält die besten Tipps, Tricks und Lösungen für Probleme, auf die Sie möglicherweise stoßen. Geheimnisse, Lifehacks, Geschichten und alles, was mit Leben und Beziehungen zu tun hat.

«Як брехати за допомогою статистики» Дарелл Хафф. Як брехати за допомогою статистики

8

Упереджена вибірка (Sampling bias)

У 1948 році під час президентських перегонів в США в ніч на оголошення результатів виборів Труман (демократи) проти Дьюї (республіканці) газета Chicago Tribune опублікувала свій, мабуть, найвідоміший заголовок DEWEY DEFEATS TRUMAN (див. Фото). Відразу після закриття дільниць газета провела опитування, зателефонувавши величезна (достатня для вибірки) число виборців, і все віщувало приголомшливу перемогу Дьюї. На фото ми бачимо що сміється Трумана, переможця виборів 48го року. Що ж пішло не так?

Людей обдзвонювали дійсно випадково і в достатній кількості, але в 48-му році телефон був доступний тільки людям певного достатку і рідко зустрічався у людей з невеликим заробітком. Таким чином, сам метод опитування вносить поправку в розподіл голосів. Вибірка не враховувала досить широкий пласт виборців Трумана (як правило демократи мають велику частку голосів серед бідного населення), яким телефон в свою чергу був недоступний. Така вибірка і називається упередженої

Правильно вибираємо середнє (Well-chosen average)

Уявімо собі компанію, в якій керівник отримує 25 тисяч, його заступник 7,6 тисячі, топ-менеджери по 5,5 тисячі, менеджери середньої ланки по 3,5 тисячі, молодші менеджери по 2,5 тисячі, а звичайні працівники по 1, 4 тисячі (абстрактних кульків) в місяць.
І наше завдання представити інформацію про компанію в позитивному світлі. Ми можемо написати середня заробітна плата в компанії складає X, але що означає середнє? Розглянемо можливі варіанти (див. Схему нижче): Арифметичне середнє деякого кінцевого безлічі X = {xi} – це таке число m рівне mean (X) з рівняння:
«Як брехати за допомогою статистики» Дарелл Хафф. Як брехати за допомогою статистики

«Як брехати за допомогою статистики» Дарелл Хафф. Як брехати за допомогою статистики
Це сама марна інформація з точки зору працівника – 3,472 середня зарплата, але за рахунок чого виходить така висока цифра? За рахунок високих зарплат керівництва, що створює ілюзію, що працівник буде отримувати стільки ж. З точки зору працівника дана величина не є особливо інформативною.
Звичайно ж народна творчість не оминуло цю особливість «середньої величини» у вигляді середньо арифметичного

Чиновники їдять м’ясо, я – капусту. В середньому ми їмо голубці.

Медіана деякого розподілу P (X) (X = {xi}), це така величина m, що вона задовольняє наступному рівнянню: Простіше кажучи, половина працівників отримує більше цієї величини, а половина менше – рівно середина розподілу! Дана статистика досить інформативна для працівників компанії, так як вона дозволяє визначити як зарплата співробітника співвідноситься з більшістю співробітників. Мода кінцевого безлічі X = {xi}, це число m, яке зустрічається в X найчастіше. В даному випадку, мода може бути найбільш інформативна для людини, який збирається почати працювати в даній компанії.
«Як брехати за допомогою статистики» Дарелл Хафф. Як брехати за допомогою статистики

Таким чином в залежності від ситуації під середнім значенням може розумітися будь-яка із зазначених вище величин (в принципі і не тільки з них). Тому принципово важливо зрозуміти, як же розраховується це середнє значення.

І ще 10 невдалих експериментів, про які ми не написали

Опустимо звичайну газету в сірчану кислоту, а журнал ТВ Парк – в дистильовану воду! Відчули різницю? З журналом нічого не сталося – папір як нова! Наші дослідження повідомляють, що зубна паста Doake’s на 23% відсотка ефектніше конкурентів, і все це завдяки Dr Cornish’s Tooth Powder! (Який напевно містив β-каротин і секретну формулу лісу – прим. Автора.) Ви напевно здивуєтеся, але дослідження дійсно провели і навіть випустили технічний звіт. І експеримент дійсно показав, що зубна паста на 23% відсотка ефективніше конкурентів (щоб це не значило). Але тільки вся чи це історія?
«Як брехати за допомогою статистики» Дарелл Хафф. Як брехати за допомогою статистики

Насправді вибірка для експерименту складала всього лише дюжину чоловік (згідно Darrell Huff і вже згаданій книзі). Це саме та вибірка, яка потрібна, щоб отримати будь-які результати! Уявімо, що ми підкидаємо монетку п’ять разів. Яка ймовірність, що всі п’ять разів випаде орел? (1/2) 5 = 1/32. Всього лише одна тридцять друга, це не може бути просто збігом, якщо випадуть всі п’ять орлів, адже так? А тепер уявімо, що ми повторюємо цей експеримент 50 разів. Хоч одна з цих спроб увінчається успіхом. Про неї-то ми і напишемо в звіті, а всі інші експерименти нікуди не підуть. Таким чином ми отримаємо виключно випадкові дані, які відмінно вписуються в нашу задачу.

Граємо зі шкалою

Припустимо, завтра потрібно показати на нараді, що ми наздогнали конкурентів, але числа трохи не сходяться, що ж робити? Давайте трохи посуваємо шкалою! Навіть відомий своєю якісною роботою з даними New York Times випустив подібний зовсім збиває з пантелику графік (зверніть увагу на стрибок з 800К до 1,5 м в центрі шкали). (приклад з Howard Wainer. The American Statistician, 1984.)
«Як брехати за допомогою статистики» Дарелл Хафф. Як брехати за допомогою статистики

Вибираємо 100%

Уявімо, що в минулому році молоко коштувало 10 копійок за літр і хліб був 10 копійок за буханець. Цього року молоко впало в ціні на 5 копійок, а хліб виріс на 20. Увага питання, що ми хочемо довести?
Уявімо, що минулий рік – це 100%, підстава для розрахунків. Тоді молоко впало в ціні на 50% відсотків, а хліб виріс на 200%, середнє 125%, а значить в цілому ціни зросли на 25%. Давайте спробуємо ще разок, хай поточний рік – 100%, значить ціни на молоко становили 200% в минулому році, а хліб 50%. А значить, в минулому році ціни в середньому були на 25% вище!
«Як брехати за допомогою статистики» Дарелл Хафф. Як брехати за допомогою статистики

«Як брехати за допомогою статистики» Дарелл Хафф. Як брехати за допомогою статистики

Збирайте ті дані, які зроблять ваші висновки ще більш упередженими

Перший крок при зборі статистичних даних – визначити, що ви хочете аналізувати. Фахівці за статистикою називають інформацію на цьому етапі генеральною сукупністю. Потім потрібно визначити підклас даних, які при аналізі повинні представляти все населення в цілому. Чим більше і точніше вибірка, тим вірніше будуть результати дослідження.

Звичайно, є різні способи зіпсувати статистичну вибірку випадково або навмисно:

  • Систематична помилка відбору. Така помилка відбувається, коли люди, які беруть участь в дослідженні, самі відносять себе до групи, що не представляє все населення.
  • Випадкова вибірка. Має місце, коли аналізують доступну інформацію, а не намагаються зібрати репрезентативні дані. Наприклад, новинний канал може провести політичний опитування серед своїх глядачів. Чи не опитавши людей, які дивляться інші канали (або взагалі не дивляться телевізор), не можна сказати, що результати такого дослідження будуть відображати дійсність.
  • Відмова респондентів від участі. Така статистична помилка трапляється, коли частина людей не відповідає на питання, що задаються в статистичному дослідженні. Це призводить до невірного відображення результатів. Наприклад, якщо в дослідженні задається питання: «Чи змінювали ви коли-небудь чоловікові / дружині?», Деякі просто не захочуть зізнатися. В результаті буде здаватися, що зради відбуваються рідко.
  • Опитування з вільним доступом. У таких опитуваннях може взяти участь будь-яка людина. Часто навіть не перевіряється, скільки разів один і той же чоловік відповідав на питання. Прикладом служать різні опитування в інтернеті. Проходити їх дуже цікаво, але вони не можуть вважатися об’єктивними.

Принадність помилок відбору в тому, що хто-небудь де-небудь напевно проводить ненауковий опитування, який підтвердить будь-яку вашу теорію. Так що просто пошукайте потрібний опитування в Мережі або створіть свій власний.

Вибирайте результати, які підтверджують ваші ідеї

Так як статистика використовує числа, нам здається, що вона переконливо доводить будь-яку ідею. Статистика спирається на складні математичні обчислення, які при неправильному поводженні можуть привести до абсолютно протилежних результатів.

Щоб продемонструвати вади аналізу даних, англійський математик Френсіс Енскомб создалквартет Енскомба. Він складається з чотирьох наборів числових даних, які на графіках виглядають абсолютно по-різному.

«Як брехати за допомогою статистики» Дарелл Хафф. Як брехати за допомогою статистики

На малюнку X1 – стандартна діаграма розсіювання; X2 – крива, яка спочатку піднімається вгору, а потім опускається вниз; X3 – лінія, трохи піднімається вгору, з одним викидом на осі Y; X4 – дані на осі X, крім одного викиду, розташованого високо на обох осях.

Для кожного з графіків вірні такі висловлювання:

  • Середнє значення змінної x для кожного набору даних дорівнює 9.
  • Середнє значення змінної y для кожного набору даних одно 7,5.
  • Дисперсія (розкид) змінної x – 11, змінної y – 4,12.
  • Кореляція між змінними x і y для кожного набору даних дорівнює 0,816.

Якби ми бачили ці дані тільки в формі тексту, ми б подумали, що ситуації повністю однакові, хоча графіки це спростовують.

Тому Енскомб запропонував спочатку візуалізувати дані, а тільки потім робити висновки. Звичайно, якщо ви хочете ввести кого-то в оману, пропустіть цей крок.

Складайте графіки, які підкреслять бажані результати

У більшості людей немає часу проводити власний статистичний аналіз. Вони чекають, що ви пред’явіть їм графіки, узагальнюючі всі ваші дослідження. Правильно складені графіки повинні відображати ідеї, які відповідають реальності. Але також вони можуть підкреслити ті дані, які ви хочете показати.

Опускайте назви деяких параметрів, трохи поміняйте шкалу на осі координат, що не пояснюйте контекст. Так ви зможете переконати всіх в свій правоті.

Всіма засобами приховуйте джерела

Якщо ви відкрито вказуєте свої джерела, людям легко перевірити ваші висновки. Звичайно, якщо ви прагнете обвести всіх навколо пальця, ні за що не розповідайте, як ви прийшли до своїх висновків.

Зазвичай в статтях і дослідженнях завжди вказують посилання на джерела. При цьому оригінальні роботи можуть надаватися в повному обсязі. Головне, щоб джерело відповідав на наступні питання:

  • Як збиралися дані? Людей опитували по телефону? Або зупиняли на вулиці? Або це було опитування в Twitter? Метод збору інформації може вказати на ті чи інші помилки відбору.
  • Коли вони збиралися? Дослідження швидко застарівають, а тенденції змінюються, тому тимчасові рамки збору інформації впливають на висновки.
  • Хто їх збирав? Дослідження про безпеку куріння, яке проводилося тютюновою компанією, викликає мало довіри.
  • Кого опитували? Це особливо важливо для соцопитувань. Якщо політик проводить опитування серед тих, хто йому симпатизує, результати не відображатимуть думку всього населення

Як брехати за допомогою статистики – частина 2

Продовжуємо розбирати, як можна ввести в оману людей, некоректно використовуючи статистику. попередній пост

вибір середнього

Часто в новинах і рекламі можна почути слово «середньостатистичний». Але що таке середнє? Існує середнє арифметичне, середнє геометричне, середнє гармонійне і список можна продовжувати! А невідповідний (випадково чи свідомо) вибір середнього може істотно спотворити результати

Розглянемо такий приклад. Нехай у нас є три людини: бабуся Олена Анатоліївна з пенсією 8000, системний адміністратор Вася з зарплатою 40000 і мільйонер Павло Умнов, який заробляє в місяць рівно мільйон

Якщо ми просто обчислимо середнє арифметичне, склавши їх зарплати і поділивши на 3, то отримаємо, що воно дорівнює 350 тисяч рублів! Залишилося порадувати цією новиною бабусю

На логарифмічною шкалою ці значення навіть не виглядають занадто далекими один від одного. Червона лінія – середнє арифметичне

Для таких випадків краще підходить таке середнє, як медіана. Це значення, яке ділить всі наші дані на дві рівні частини (за кількістю). Медіанного значенням для цього прикладу була б зарплата сисадміна Васі – 40000. До неї і після неї знаходиться однакова кількість людей (по одному). Тоді Васю ми могли б назвати людиною з середньостатистичною зарплатою, всіх отримують менше Васі – з невеликим достатком, більше – багатими

Однак, за допомогою медіани можна було б навпаки приховати дуже видатні (в більшу або меншу сторону) значення

додавання не складаються

Згадайте п’ятибальну систему оцінювання в школі. Уявіть, що семикласник Данило написав диктант на 5, а його однокласник Леонардо вирішив написати його справа наліво і отримав двійку. Ділимо 5 на 2 і отримуємо, що Данило написав диктант в 2,5 рази краще! Вірно?

Невірно. Бали – це придумана номінальна змінна, яка виражає цифрами словесні оцінки відмінно, добре і так далі. «Незадовільно» рівно в 2,5 рази гірше, ніж «відмінно»?

Таким чином, вважати середні бали за оцінками або для яких-небудь тестів математично не має сенсу

упереджена вибірка

За даними інтернет-голосування 100% людей користуються інтернетом

Ще до всякої статистики можна збрехати, якщо неправильно зібрати дані. Класичний приклад – президентські перегони США 1948: Дьюї проти Трумана. Газета Chicago Tribune відразу після закриття виборчих дільниць провела опитування, зателефонувавши величезна кількість людей. А за результатами, що пророчить оглушливий успіх Дьюї випустила газету з заголовком «ДЬЮЇ ПЕРЕМАГАЄ Трумана ». На фото – сміється Труман, переможець виборів 1948 року народження, з цієї самої газетою в руках

Що пішло не так? Газета обдзвонила достатню для вибірки число виборців, причому дійсно випадкових. Неправильним було лише сам підхід – телефон у той час не був доступний небагатому населенню, основна маса якого і становила підтримку Трумана

Ще одним прикладом є зарплати випускників, обіцяні вузами. У США справа доходила навіть до судів – випускники стверджували, що дані по зарплатах штучно завищені. Але справа зовсім в іншому: просто даними про своє заробіток з вузом діляться тільки люди, задоволені ним

«Наочна» візуалізація

Є тисяча й один спосіб прикрасити дані. Наприклад, наочно їх візуалізувати. Це може допомогти читання нудних графіків, а якщо зробити це з часткою хитрості, то і вигідніше їх піднести

Ось графік споживання кількості пива в США в мільйонах барелів і частки компанії Schlitz. Він дійсно вражає!

Але наведемо цей графік в більш суворий вид: відобразимо дані точками і почнемо вісь y від нуля:

Вже не здається таким значним. При зображенні точок графіка у вигляді бочок, люди візуально можуть сприйматися верхівки бочок, а їх обсяг. А при збільшенні боку бочки в 2 рази обсяг збільшується в 8 разів! З таким розмахом допомагає починається зі 100 вісь y

Ось ще один приклад. Чудова інфографіка, яка показує скільки грошей витрачається на боротьбу із захворюваннями і смертність від них

Ідея чудова. Однак придивіться уважніше до цифр. Ціна при помаранчевому колі приблизно в 2 рази менше, ніж при рожевому. Але рожевий коло більше в 4 рази!

Автори вважали за краще зробити залежним від ціни радіус кола. Але ми візуально сприймаємо зовсім не радіус, а площа фігури! А формула площі кола залежить від радіуса квадратично

Ще краще цю інфографіку можна зробити, якщо розташувати однакові хвороби на одній лінії. Так виглядає виправлена ​​версія:

Візуалізація не тільки більш правдоподібна, але і явно доносить думка: деякі хвороби не такі небезпечні, скільки грошей на них витрачається, а боротьба з іншими фінансується недостатньо

Приклад якісної візуалізації

На графіку розмір армії Наполеона. Найправіша – Москва, звідки починається відступ, показане чорною смугою. До графіку відступу також прив’язаний графік часу і температури. Вкрай наочно!

Про книгу «Як брехати за допомогою статистики» Дарелл Хафф

У цій всесвітньо відомій книзі Дарелл Хафф розповідає про різні способи зловживання статистикою з метою обману аудиторії і маніпулювання її думкою. Кожен день на вас намагаються вплинути, щоб надихнути на покупку якогось «потрібного» продукту або на вибір «правильного» кандидата: «Завдяки пасті” Чисті зуби “утворення карієсу знижується на 23%!»; «Політика N підтримує 85% громадян»… Як зрозуміти, наскільки достовірні ті чи інші дані? Яким чином відбуваються підрахунки? що враховується, а що залишається за кадром? Автор розкриває секретні інструменти статистиків і озброює читача знаннями, які допоможуть розібратися в усіх хитросплетіннях цієї науки і не дозволять ввести в оману.

анотація

У цій всесвітньо відомій книзі Дарелл Хафф розповідає про різні способи зловживання статистикою з метою обману аудиторії і маніпулювання її думкою. Кожен день на вас намагаються вплинути, щоб надихнути на покупку якогось «потрібного» продукту або на вибір «правильного» кандидата: «Завдяки пасті” Чисті зуби “утворення карієсу знижується на 23%!»; «Політика N підтримує 85% громадян»… Як зрозуміти, наскільки достовірні ті чи інші дані? Яким чином відбуваються підрахунки? Що враховується, а що залишається за кадром? Автор розкриває секретні інструменти статистиків і озброює читача знаннями, які допоможуть розібратися в усіх хитросплетіннях цієї науки і не дозволять ввести в оману.

Використані джерела і корисні посилання по темі: https://habr.com/ru/post/217545/ https://Lifehacker.ru/4-sposoba-lgat-pri-pomoshhi-statistiki/ https://pikabu.ru/ story / kaklgat_s_pomoshchyu_statistiki_chast_2_6113007 https://lifeinbooks.net/chto-pochitat/kak-lgat-pri-pomoshhi-statistiki-darell-haff/ https://coollib.net/b/331961-kak-lgat-pri-pomoschi-statistiki

Джерело запису: lastici.ru

Цей веб -сайт використовує файли cookie, щоб покращити ваш досвід. Ми припустимо, що з цим все гаразд, але ви можете відмовитися, якщо захочете. Прийняти Читати далі