Blog: Carreira na Área de Dados

 

Fala, galera! Nesse blog irei contar um pouco sobre minha trajetória: dificuldades, cursos, parte técnica, soft skills, experiências no mercado de trabalho e muito mais!

Qual a diferença entre Teorema de Limite Central e o Bootstrap?

Aug 16, 2024
TLC

Enquanto preparo o curso de "Estatística para Ciência de Dados", aproveito para complementar alguns conceitos das aulas.

Uma das coisas que vou abordar é Teorema de Limite Central e Bootstrap. Tem que tomar cuidado, não são a mesma coisa e não são aplicados com os mesmos objetivos e premissas!

Aqui vai um exemplo real de cada um:

 

TLC: Avaliação de MÉDIA de renda familiar em um país

Suponha que um governo queira estimar a média de renda familiar em um país grande, como o Brasil. Em vez de coletar dados de cada família, o governo realiza uma pesquisa com várias amostras (exemplo 100) aleatórias de 1000 famílias.

De acordo com o TLC, mesmo que a distribuição da renda familiar seja muito assimétrica ou tenha caudas longas, a distribuição das médias das 100 amostras se aproximará de uma distribuição normal.

Usando essa propriedade, os pesquisadores podem estimar a média da renda familiar de toda a população e calcular um intervalo de confiança para essa média, assumindo uma distribuição normal das médias amostrais.

O TLC permite que façamos inferências sobre a média da renda de toda a população a partir da média das amostras, mesmo que a distribuição original da renda não seja normal. Isso é particularmente útil porque a distribuição de renda é geralmente assimétrica e com caudas longas, mas a média das amostras grandes ainda pode ser usada para inferir sobre a população.

Só vale lembrar que na prática pode ser difícil coletar várias amostras por conta de tempo e custo, assim, muitas vezes a inferência é feita sobre uma única grande amostra.

Bootstrap: Estimativa de intervalo de confiança para a MEDIANA de preços de casas

Imagine que você é um analista de mercado imobiliário e deseja estimar a mediana dos preços de casas em uma cidade pequena. Você tem uma amostra de 150 preços de casas, mas a distribuição dos preços é muito assimétrica, com algumas casas muito caras puxando a média para cima. Então você reamostra, com reposição, da amostra original 10 mil vezes, criando 10 mil amostras de 150 preços cada. Calcula a mediana de cada amostra, cria a distribuição dessas medianas e aí pode calcular o intervalo de confiança.

O bootstrap é usado aqui porque a mediana é uma estatística robusta que não é facilmente inferida usando métodos paramétricos tradicionais, especialmente quando a distribuição é assimétrica. O bootstrap permite que você estime a variabilidade da mediana sem precisar assumir que a distribuição dos preços segue uma forma específica. Isso é particularmente útil para evitar suposições erradas sobre a distribuição dos preços das casas e para fornecer uma estimativa mais precisa e confiável do intervalo de confiança.

 

Resumo das Aplicações:

  • TLC: Ideal para inferir sobre a média de grandes populações, mesmo quando a distribuição dos dados é desconhecida ou não normal.
  • Bootstrap: Perfeito para estimativas de variabilidade ou intervalos de confiança para estatísticas complexas ou robustas, especialmente com distribuições assimétricas ou amostras menores.
NEWSLETTER

Quer ficar por dentro de novidades, dicas e conteúdos da área de dados?

Inscreva-se, então, em nossa newsletter e não perca as novidades do blog.

Você está seguro. Nunca te mandaremos spams ou venderemos seu contato.