O site contém as melhores dicas, truques e soluções para problemas que você possa encontrar. Segredos, hacks de vida, histórias e tudo relacionado à vida e aos relacionamentos.

“How to Lie with Statistics”, de Darell Huff. Como mentir com estatísticas

7

Viés de amostragem

Em 1948, durante a corrida presidencial nos Estados Unidos na noite da eleição Truman (democratas) contra Dewey (republicanos), o Chicago Tribune publicou sua manchete mais famosa, DEWEY DERROTA TRUMAN (veja a foto). Imediatamente após o fechamento das seções eleitorais, o jornal conduziu uma votação, chamando um número enorme (o suficiente para uma amostra) de eleitores, e tudo isso anuncia uma vitória retumbante para Dewey. A foto mostra Truman, o vencedor da 48ª eleição, rindo. O que deu errado?

As pessoas eram telefonadas por acaso e em número suficiente, mas no 48º ano o telefone estava disponível apenas para pessoas com uma determinada renda e raramente era encontrado entre pessoas com pouca renda. Assim, o próprio método de votação introduz uma emenda à distribuição de votos. A amostra não levou em consideração um estrato bastante amplo de eleitores de Truman (via de regra, os democratas têm uma grande parcela de votos entre os pobres), para os quais o telefone, por sua vez, não estava disponível. Essa seleção é chamada de enviesada.

Escolhendo a média certa (média bem escolhida)

Imagine uma empresa em que um gerente recebe 25 mil, seu substituto recebe 7,6 mil, gerentes de topo – 5,5 mil, gerentes médios – 3,5 mil, gerentes juniores – 2,5 mil e trabalhadores comuns – 1,4 mil (libras abstratas) por mês.
E a nossa tarefa é apresentar as informações sobre a empresa de forma positiva. Podemos escrever que o salário médio na empresa é X, mas o que significa média? Considere as opções possíveis (veja o diagrama abaixo): A média aritmética de algum conjunto finito X = {xi} é um número m igual a média (X) da equação:
"How to Lie with Statistics", de Darell Huff. Como mentir com estatísticas

"How to Lie with Statistics", de Darell Huff. Como mentir com estatísticas
Esta é a informação mais inútil do ponto de vista de um funcionário – 3,472 salários médios, mas o que torna um número tão alto? Devido aos altos salários da diretoria, o que cria a ilusão de que o funcionário receberá a mesma quantia. Do ponto de vista do funcionário, esse valor não é particularmente informativo.
Claro, a arte popular não contornou essa característica do “tamanho médio” na forma de uma média aritmética

Funcionários comem carne, eu como repolho. Em média, comemos rolinhos de repolho.

A mediana de alguma distribuição P (X) (X = {xi}) é tal valor m que satisfaz a seguinte equação: Simplificando, metade dos trabalhadores obtém mais do que este valor, e metade menos – exatamente no meio do distribuição! Estas estatísticas são bastante informativas para os colaboradores da empresa, pois permitem determinar como o salário do colaborador se relaciona com a maioria dos colaboradores. O modo de um conjunto finito X = {xi} é o número m que ocorre com mais frequência em X. Nesse caso, a moda pode ser o mais informativo para quem vai começar a trabalhar em uma determinada empresa.
"How to Lie with Statistics", de Darell Huff. Como mentir com estatísticas

Assim, dependendo da situação, o valor médio pode ser entendido como qualquer um dos valores acima (em princípio e não apenas deles). Portanto, é de fundamental importância entender como essa média é calculada.

E mais 10 experimentos malsucedidos sobre os quais não escrevemos

Vamos colocar um jornal comum em ácido sulfúrico e a revista TV Park em água destilada! Sinta a diferença? Nada aconteceu com a revista – o papel está como novo! Nossa pesquisa relata que a pasta de dente Doake’s é 23% mais eficaz do que a concorrência, graças ao pó de dente do Dr. Cornish! (Que provavelmente continha β-caroteno e a fórmula secreta da floresta – nota do autor.) Você pode se surpreender, mas a pesquisa foi realmente realizada e até divulgou um relatório técnico. E o experimento mostrou que a pasta de dente é 23% mais eficaz do que a concorrência (seja lá o que isso signifique). Mas essa é apenas a história toda?
"How to Lie with Statistics", de Darell Huff. Como mentir com estatísticas

Na realidade, a amostra do experimento foi de apenas uma dúzia de pessoas (de acordo com Darrell Huff e o livro já mencionado). Esta é exatamente a amostra de que você precisa para obter quaisquer resultados! Digamos que jogamos uma moeda cinco vezes. Qual é a probabilidade de cair cara todas as cinco vezes? (1/2) 5 = 1/32. Apenas um trinta e dois, não pode ser apenas uma coincidência que todas as cinco cabeças surgirem, pode? Agora vamos imaginar que repetimos esta experiência 50 vezes. Pelo menos uma dessas tentativas será bem-sucedida. Vamos escrever sobre isso no relatório, e todos os outros experimentos não irão a lugar nenhum. Assim, receberemos dados exclusivamente aleatórios que se encaixam perfeitamente em nossa tarefa.

Brincando com a balança

Suponha que amanhã você precise mostrar em uma reunião que alcançamos a concorrência, mas os números não convergem um pouco, o que devemos fazer? Vamos mudar um pouco a escala! Até mesmo o renomado New York Times, conhecido por seu trabalho de dados de qualidade, lançou um gráfico completamente confuso como este (observe o salto de 800k para 1,5m no centro da escala). (exemplo de Howard Wainer. The American Statistician, 1984.)
"How to Lie with Statistics", de Darell Huff. Como mentir com estatísticas

Nós escolhemos 100%

Vamos imaginar que no ano passado o leite custou 10 copeques por litro e o pão 10 copeques por pão. Este ano, o preço do leite caiu 5 copeques e o pão cresceu 20. Atenção à pergunta, o que queremos provar?
Vamos imaginar que o ano passado seja 100%, a base de cálculo. Depois, o preço do leite caiu 50% e o pão aumentou 200%, uma média de 125%, o que significa que os preços em geral aumentaram 25%. Vamos tentar de novo, deixe o ano atual ser 100%, o que significa que os preços do leite foram 200% no ano passado e o pão 50%. Isso significa que os preços do ano passado foram em média 25% mais altos!
"How to Lie with Statistics", de Darell Huff. Como mentir com estatísticas

"How to Lie with Statistics", de Darell Huff. Como mentir com estatísticas

Colete dados que farão suas conclusões ainda mais tendenciosas

A primeira etapa na coleta de estatísticas é determinar o que você deseja analisar. Os estatísticos chamam informações nesta fase da população. Em seguida, você precisa definir uma subclasse de dados que, quando analisada, deve representar toda a população como um todo. Quanto maior e mais precisa a amostra, mais precisos serão os resultados da pesquisa.

Claro, existem diferentes maneiras de estragar uma amostra estatística por acidente ou intencionalmente:

  • Viés de seleção. Esse erro ocorre quando os participantes do estudo se identificam como um grupo que não representa toda a população.
  • Amostragem aleatória. Ocorre quando as informações prontamente disponíveis são analisadas, em vez de tentar coletar dados representativos. Por exemplo, um canal de notícias pode conduzir uma pesquisa política entre seus telespectadores. Sem perguntar às pessoas que assistem a outros canais (ou não assistem à TV), não se pode dizer que os resultados de tal estudo refletirão a realidade.
  • Recusa dos entrevistados em participar. Esse erro estatístico ocorre quando algumas pessoas não respondem às perguntas feitas em um estudo estatístico. Isso leva à exibição incorreta dos resultados. Por exemplo, se um estudo fizer a pergunta: “Você já traiu seu cônjuge?” Como resultado, parecerá que trapacear é raro.
  • Pesquisas de acesso gratuito. Qualquer pessoa pode participar dessas pesquisas. Muitas vezes não é nem verificado quantas vezes a mesma pessoa respondeu às perguntas. Um exemplo são várias pesquisas na Internet. É muito interessante passá-los, mas não podem ser considerados objetivos.

A beleza do viés de seleção é que alguém, em algum lugar, provavelmente fará uma pesquisa não científica que apoiará qualquer teoria que você tenha. Portanto, basta pesquisar na web a enquete que você deseja ou criar a sua própria.

Escolha resultados que apóiem ​​suas ideias

Visto que as estatísticas usam números, parece-nos que elas comprovam qualquer ideia de forma convincente. A estatística depende de cálculos matemáticos complexos que, se maltratados, podem levar a resultados completamente opostos.

Para demonstrar as falhas na análise de dados, o matemático inglês Francis Anscombe criou o quarteto Anscombe. Ele consiste em quatro conjuntos de dados numéricos que parecem completamente diferentes nos gráficos.

"How to Lie with Statistics", de Darell Huff. Como mentir com estatísticas

A Figura X1 é um gráfico de dispersão padrão; X2 é uma curva que primeiro sobe e depois desce; X3 – uma linha que sobe ligeiramente para cima, com um overshoot no eixo Y; X4 – dados no eixo X, exceto para um outlier localizado alto em ambos os eixos.

Para cada um dos gráficos, as seguintes afirmações são verdadeiras:

  • A média de x para cada conjunto de dados é 9.
  • A média de y para cada conjunto de dados é 7,5.
  • A variância (dispersão) da variável x é 11 e a variável y é 4,12.
  • A correlação entre as variáveis ​​xey para cada conjunto de dados é 0,816.

Se víssemos esses dados apenas na forma de texto, pensaríamos que as situações são completamente as mesmas, embora os gráficos refutem isso.

Portanto, Enscombe sugeriu que você primeiro visualize os dados, e só então tire as conclusões. Claro, se você quiser enganar alguém, pule esta etapa.

Crie gráficos que destacam os resultados desejados

A maioria das pessoas não tem tempo para fazer suas próprias análises estatísticas. Eles esperam que você mostre gráficos resumindo todas as suas pesquisas. Gráficos bem projetados devem refletir ideias que se encaixam na realidade. Mas eles também podem destacar os dados que você deseja mostrar.

Omita os nomes de alguns parâmetros, altere ligeiramente a escala no eixo das coordenadas, não explique o contexto. Assim, você pode convencer a todos de que está certo.

Por suposto, esconda as fontes

Se você citar abertamente suas fontes, será fácil para as pessoas verificarem suas descobertas. Claro, se você está tentando fazer com que todos estejam em volta de seu dedo, nunca diga como chegou às suas conclusões.

Normalmente, em artigos e estudos, as referências às fontes são sempre indicadas. Ao mesmo tempo, as obras originais podem não ser fornecidas na íntegra. O principal é que a fonte responda às seguintes questões:

  • Como os dados foram coletados? As pessoas foram entrevistadas por telefone? Ou foi parado na rua? Ou foi uma enquete do Twitter? O método de coleta de informações pode indicar certos erros de seleção.
  • Quando eles se conheceram? A pesquisa fica rapidamente desatualizada e as tendências mudam, de modo que o momento da coleta de informações influencia as conclusões.
  • Quem os recolheu? Há pouca credibilidade nas pesquisas da empresa de tabaco sobre a segurança do fumo.
  • Quem foi entrevistado? Isso é especialmente importante para pesquisas de opinião pública. Se um político fizer uma pesquisa entre os que simpatizam com ele, o resultado não refletirá a opinião de toda a população.

Como mentir usando estatísticas – Parte 2

Continuamos a analisar como você pode enganar as pessoas usando estatísticas incorretamente. Postagem anterior

Seleção média

Muitas vezes você pode ouvir a palavra “média” em notícias e anúncios. Mas o que isso significa? Existe média aritmética, média geométrica, média harmônica e a lista continua! E a escolha inadequada (acidental ou deliberadamente) do meio pode distorcer significativamente os resultados.

Vamos considerar um exemplo. Suponha que tenhamos três pessoas: a avó Elena Anatolyevna com uma pensão de 8.000, o administrador do sistema Vasya com um salário de 40.000 e o milionário Pavel Umnov, que ganha exatamente um milhão por mês

Se simplesmente calcularmos a média aritmética somando seus salários e dividindo por 3, teremos que é igual a 350 mil rublos! Resta agradar a avó com esta notícia

Em uma escala logarítmica, esses valores nem parecem muito distantes. Linha vermelha – média aritmética

Para esses casos, uma média como a mediana é mais adequada. Este é o valor que divide todos os nossos dados em duas partes iguais (em termos de quantidade). O valor médio para este exemplo seria o salário do administrador do sistema Vasya – 40.000. Antes e depois dela, há o mesmo número de pessoas (uma de cada vez). Então poderíamos chamar Vasya de uma pessoa com um salário médio, todo mundo que recebe menos do que Vasya – com uma renda pequena, mais – rico.

Porém, com a ajuda da mediana, ao contrário, seria possível ocultar valores muito proeminentes (para cima ou para baixo)

Dobrável não dobrável

Pense no sistema de notas de cinco pontos da escola. Imagine que um Danil do sétimo ano escreveu um ditado para 5 e seu colega Leonardo decidiu escrevê-lo da direita para a esquerda e recebeu um dois. Dividimos 5 por 2 e obtemos que Danil escreveu o ditado 2,5 vezes melhor! Direito?

Errado. As pontuações são uma variável nominal inventada que expressa numericamente as notas verbais de excelente, bom e assim por diante. É “insatisfatório” exatamente 2,5 vezes pior do que “excelente”?

Portanto, não é matematicamente significativo calcular as pontuações médias das notas ou de quaisquer testes.

Amostragem enviesada

De acordo com dados de votação da Internet, 100% das pessoas usam a Internet

Antes de qualquer estatística, você pode mentir se coletar os dados incorretamente. Um exemplo clássico é a corrida presidencial dos Estados Unidos de 1948: Dewey vs. Truman. O Chicago Tribune conduziu uma votação imediatamente após o fechamento das assembleias de voto, ligando para um grande número de pessoas. E de acordo com os resultados que previam um sucesso retumbante, Dewey publicou um jornal com a manchete ” DEWEY ganha Truman “. A foto mostra um Truman sorridente, vencedor das eleições de 1948, com este mesmo jornal nas mãos

Algo deu errado? O jornal telefonou para um número suficiente de eleitores para a amostra, e na verdade alguns eleitores aleatórios. Apenas a abordagem em si estava errada – o telefone naquela época não estava disponível para a população pobre, a maior parte do qual era o apoio de Truman.

Outro exemplo são os salários dos graduados prometidos pelas universidades. Nos Estados Unidos, chegou a ir aos tribunais – os graduados argumentaram que os dados sobre salários eram artificialmente altos. Mas a questão é completamente diferente: apenas as pessoas que estão satisfeitas com eles compartilham dados sobre seus ganhos com a universidade.

Visualização “visual”

Existem mil e uma maneiras de embelezar os dados. Por exemplo, visualize-os visualmente. Pode ajudar a ler gráficos enfadonhos e, se feito com um pouco de malandragem, é mais lucrativo apresentá-los.

Aqui está um gráfico do consumo de cerveja nos Estados Unidos em milhões de barris e a participação da Schlitz. Ele é realmente impressionante!

Mas vamos colocar este gráfico de uma forma mais rigorosa: exiba os dados com pontos e comece o eixo y do zero:

Não parece mais tão impressionante. Ao traçar pontos no gráfico na forma de barris, as pessoas percebem visualmente não os topos dos barris, mas seu volume. E quando a lateral do cano é aumentada 2 vezes, o volume aumenta 8 vezes! Nesta escala, o eixo y começando em 100 ajuda.

Aqui está outro exemplo. Infográficos maravilhosos que mostram quanto dinheiro é gasto na luta contra doenças e mortes por elas

A ideia é ótima. No entanto, observe os números mais de perto. O preço com um círculo laranja é cerca de 2 vezes menor do que com um rosa. Mas o círculo rosa é 4 vezes maior!

Os autores preferiram tornar o raio do círculo dependente do preço. Mas percebemos visualmente não o raio, mas a área da figura! E a fórmula para a área de um círculo depende do raio quadraticamente

Este infográfico pode ser ainda melhor colocando as mesmas doenças na mesma linha. Esta é a aparência da versão revisada:

A visualização não só é mais verossímil, mas também transmite claramente a ideia: algumas doenças não são tão perigosas quanto se gasta dinheiro com elas, e a luta contra outras é insuficiente.

Um exemplo de visualização de alta qualidade

O gráfico mostra o tamanho do exército de Napoleão. O ponto da extrema direita é Moscou, de onde começa a retirada, representada por uma faixa preta. O gráfico de tempo e temperatura também está vinculado à programação de retirada. Muito claro!

Sobre o livro “How to Lie Using Statistics” de Darell Huff

Neste livro mundialmente famoso, Darell Huff discute as várias maneiras pelas quais as estatísticas são mal utilizadas para enganar e manipular o público. Todos os dias tentam influenciá-lo para o encorajar a comprar algum produto “necessário” ou a escolher o candidato “certo”: “Graças à pasta” Dentes limpos “, a formação de cáries é reduzida em 23%!”; “A política N é apoiada por 85% dos cidadãos” … Como perceber a fiabilidade de determinados dados? Como são os cálculos? O que é levado em consideração e o que resta nos bastidores? O autor revela as ferramentas secretas dos estatísticos e das equipas o leitor com conhecimentos que o ajudarão a compreender todos os meandros desta ciência e não permitirão confusões.

anotação

Neste livro mundialmente famoso, Darell Huff discute as várias maneiras pelas quais as estatísticas são mal utilizadas para enganar e manipular o público. Todos os dias tentam influenciá-lo para o encorajar a comprar algum produto “necessário” ou a escolher o candidato “certo”: “Graças à pasta” Dentes limpos “, a formação de cáries é reduzida em 23%!”; “A política N é apoiada por 85% dos cidadãos” … Como perceber a fiabilidade deste ou daquele dado? Como o cálculo é feito? O que é levado em consideração e o que fica nos bastidores? O autor revela as ferramentas secretas dos estatísticos e dota o leitor de conhecimentos que o ajudarão a compreender todos os meandros desta ciência e não permitirão que se engane.

Fontes usadas e links úteis sobre o tema: https://habr.com/ru/post/217545/ https://Lifehacker.ru/4-sposoba-lgat-pri-pomoshhi-statistiki/ https://pikabu.ru / story / kaklgat_s_pomoshchyu_statistiki_chast_2_6113007 https://lifeinbooks.net/chto-pochitat/kak-lgat-pri-pomoshhi-statistiki-darell-haff/ https://coollib.net/b/331961-kat-plgat-

Fonte de gravação: lastici.ru

Este site usa cookies para melhorar sua experiência. Presumiremos que você está ok com isso, mas você pode cancelar, se desejar. Aceitar Consulte Mais informação