Enquanto preparo o curso de "Estatística para Ciência de Dados", aproveito para complementar alguns conceitos das aulas.
Uma das coisas que vou abordar é Teorema de Limite Central e Bootstrap. Tem que tomar cuidado, não são a mesma coisa e não são aplicados com os mesmos objetivos e premissas!
Aqui vai um exemplo real de cada um:
TLC: Avaliação de MÉDIA de renda familiar em um país
Suponha que um governo queira estimar a média de renda familiar em um país grande, como o Brasil. Em vez de coletar dados de cada família, o governo realiza uma pesquisa com várias amostras (exemplo 100) aleatórias de 1000 famílias.
De acordo com o TLC, mesmo que a distribuição da renda familiar seja muito assimétrica ou tenha caudas longas, a distribuição das médias das 100 amostras se aproximará de uma distribuição normal.
Usando essa propriedade, os pesquisadores podem estimar a média da renda familiar de toda a população e calcular um intervalo de confiança para essa média, assumindo uma distribuição normal das médias amostrais.
O TLC permite que façamos inferências sobre a média da renda de toda a população a partir da média das amostras, mesmo que a distribuição original da renda não seja normal. Isso é particularmente útil porque a distribuição de renda é geralmente assimétrica e com caudas longas, mas a média das amostras grandes ainda pode ser usada para inferir sobre a população.
Só vale lembrar que na prática pode ser difícil coletar várias amostras por conta de tempo e custo, assim, muitas vezes a inferência é feita sobre uma única grande amostra.
Bootstrap: Estimativa de intervalo de confiança para a MEDIANA de preços de casas
Imagine que você é um analista de mercado imobiliário e deseja estimar a mediana dos preços de casas em uma cidade pequena. Você tem uma amostra de 150 preços de casas, mas a distribuição dos preços é muito assimétrica, com algumas casas muito caras puxando a média para cima. Então você reamostra, com reposição, da amostra original 10 mil vezes, criando 10 mil amostras de 150 preços cada. Calcula a mediana de cada amostra, cria a distribuição dessas medianas e aí pode calcular o intervalo de confiança.
O bootstrap é usado aqui porque a mediana é uma estatística robusta que não é facilmente inferida usando métodos paramétricos tradicionais, especialmente quando a distribuição é assimétrica. O bootstrap permite que você estime a variabilidade da mediana sem precisar assumir que a distribuição dos preços segue uma forma específica. Isso é particularmente útil para evitar suposições erradas sobre a distribuição dos preços das casas e para fornecer uma estimativa mais precisa e confiável do intervalo de confiança.
Resumo das Aplicações:
- TLC: Ideal para inferir sobre a média de grandes populações, mesmo quando a distribuição dos dados é desconhecida ou não normal.
- Bootstrap: Perfeito para estimativas de variabilidade ou intervalos de confiança para estatísticas complexas ou robustas, especialmente com distribuições assimétricas ou amostras menores.