Outliers são valores que se desviam significativamente do restante dos dados em um conjunto. Identificar e tratar esses valores é importante, pois eles podem influenciar drasticamente os resultados de análises estatísticas e modelagem preditiva.
Existem várias técnicas para detectar outliers, dependendo do tipo de dado e da natureza do conjunto de dados. Abaixo, estão algumas das técnicas mais comuns:
1. Análise Visual
- Boxplot: O boxplot é uma ferramenta eficaz para visualizar outliers. Qualquer ponto fora dos "bigodes" do boxplot é considerado um outlier (deixe nos comentários se você quer entender melhor como funciona um boxplot).
- Gráfico de Dispersão: Pode ser usado para detectar outliers em dados bidimensionais. Valores que se distanciam visivelmente dos demais pontos podem ser outliers.
2. Estatísticas Descritivas
- Intervalo Interquartil (IQR): É uma das técnicas mais comuns para detectar outliers.
- Cálculo:
- Calcule o primeiro quartil (Q1) e o terceiro quartil (Q3).
- IQR = Q3 - Q1.
- Um outlier é definido como qualquer ponto que esteja abaixo de Q1−1,5×IQR ou acima de Q3+1,5×IQR.
- Z-Score: O Z-score mede o número de desvios padrão que um ponto de dados está afastado da média.
- Cálculo:
- Para um dado xi o Z-score é calculado conforme fórmula abaixo.
- Onde μ é a média e σ é o desvio padrão do conjunto de dados.
- Valores de Z acima de 3 ou abaixo de -3 são frequentemente considerados outliers.
3. Técnicas Baseadas em Modelos
- Regressão Linear: Em um modelo de regressão linear, outliers podem ser identificados como pontos que possuem um residual elevado, ou seja, a diferença entre o valor real e o valor previsto pelo modelo é grande.
- Clusterização (K-Means): Após agrupar os dados em clusters, qualquer ponto que esteja longe do centro de seu cluster pode ser considerado um outlier.
- Isolation Forest: É um algoritmo específico para detectar outliers baseado em árvores de decisão. Ele isola pontos de dados que estão "sozinhos" no espaço dos dados, marcando-os como outliers.
4. Técnicas Estatísticas Avançadas
- Análise de Componentes Principais (PCA): PCA pode ser usada para reduzir a dimensionalidade dos dados e visualizar outliers em um espaço de menor dimensão. Outliers podem aparecer como pontos que se distanciam do grupo principal de dados.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Um algoritmo de clusterização que também identifica outliers como pontos que não pertencem a nenhum cluster.