Como referenciar este texto: ‘Explorando o dataset Iris com Python’. Rodrigo Terra. Publicado em: 20/12/2024. Link da postagem: https://www.makerzine.com.br/dados/explorando-o-dataset-iris-com-python/.
Conteúdos que você verá nesta postagem
Neste projeto, analiso o famoso dataset Iris, um clássico da ciência de dados, para explorar, visualizar e modelar dados de classificação multiclasse.
A seguir, descrevo o processo detalhado realizado no notebook, incluindo as principais etapas, insights e técnicas utilizadas.
1. Introdução ao Dataset Iris
O dataset Iris contém informações sobre três espécies de flores: Setosa, Versicolor e Virginica. Cada amostra inclui quatro características: comprimento e largura da sépala, e comprimento e largura da pétala. O objetivo do projeto foi analisar os dados, identificar padrões e treinar modelos de machine learning para prever a espécie com base nas características.
2. Análise Exploratória de Dados
Estatísticas Descritivas:
- Cálculo de estatísticas como média, desvio padrão, mínimo e máximo para cada variável.
- Verificação de valores ausentes, garantindo a integridade dos dados.
Visualizações:
- Histogramas: Distribuição de cada característica em relação às espécies.
- Boxplots: Identificação de outliers e variação entre características.
- Gráficos de Dispersão: Análise de relações entre pares de variáveis, separando as espécies.
Insights:
As pétalas apresentaram maior capacidade de discriminação entre espécies, enquanto as sépalas exibiram maior sobreposição.
3. Preparação dos Dados
- Padronização: Utilizou-se
StandardScaler
para escalar os dados, garantindo média zero e desvio padrão igual a 1, o que melhora o desempenho de modelos como KNN e SVM. - Divisão em Conjuntos: Os dados foram separados em 80% para treino e 20% para teste.
4. Modelagem de Machine Learning
Foram utilizados quatro algoritmos principais para classificação:
- KNN (K-Nearest Neighbors): Baseado em proximidade entre pontos.
- Decision Tree: Criação de regras de decisão a partir dos dados.
- Random Forest: Combinação de múltiplas árvores de decisão para melhorar a robustez.
- SVM (Support Vector Machine): Criação de hiperplanos para separar as classes.
Avaliação Inicial:
- Cada modelo foi avaliado no conjunto de teste, com métricas de acurácia variando de 93% a 96%.
5. Validação Cruzada
Para garantir a generalização, aplicou-se validação cruzada (5 folds) em todos os modelos.
Resultados:
- O Random Forest teve o melhor desempenho médio, seguido pela SVM.
6. Avaliação Detalhada do Melhor Modelo
Focando na Decision Tree, foram realizadas análises detalhadas:
- Relatório de Classificação: Detalhou métricas como precisão, recall e F1-score para cada classe.
- Matriz de Confusão: Mostrou a relação entre previsões corretas e incorretas, destacando maior precisão para a classe Setosa.
7. Análise de Correlações
Foi gerada uma matriz de correlação para explorar as relações entre características:
- Fortes correlações foram observadas entre as dimensões da pétala, corroborando a importância dessas variáveis na discriminação das espécies.
Conclusão
O projeto demonstrou como explorar, visualizar e modelar dados com o dataset Iris, integrando práticas robustas de análise e machine learning. Os insights obtidos sobre a separação das classes são valiosos para entender a relação entre características físicas e classificação.
Aprendizados:
- A importância da preparação e validação dos dados.
- Como diferentes modelos podem ser aplicados para resolver problemas de classificação multiclasse.
Próximos Passos:
- Experimentar modelos mais avançados, como Gradient Boosting.
- Explorar técnicas de seleção de características para melhorar a eficiência.
Para ver e/ou baixar o notebook, basta clicar aqui.
Se você acha que este conteúdo pode ser útil para alguém, compartilhe!
Ao divulgar os textos do MakerZine, você contribui para que todo o material continue acessível e gratuito para todas as pessoas.