Como referenciar este texto: Explorando o Dataset Iris: Uma jornada de classificação com Machine Learning. Rodrigo Terra. Publicado em: 10/10/2024. Link da postagem: https://www.makerzine.com.br/programacao/explorando-o-dataset-iris-uma-jornada-de-classificacao-com-machine-learning/ .
Conteúdos dessa postagem
Introdução
Neste artigo, exploramos um dos conjuntos de dados mais icônicos no mundo da ciência de dados: o dataset Iris. Com dados sobre 150 amostras de três espécies de flores, o Iris é uma base perfeita para aprender sobre algoritmos de classificação. Utilizando técnicas de aprendizado de máquina, aplicamos diversos modelos e realizamos uma análise aprofundada para prever a espécie das flores com base em suas características físicas.
Contexto do problema
O problema que resolvemos aqui é simples, mas poderoso: com base em quatro características das flores (comprimento e largura das sépalas e pétalas), podemos prever a qual espécie cada flor pertence? Aplicamos alguns dos algoritmos mais populares, como K-Nearest Neighbors (KNN), Árvore de Decisão, Random Forest, e Support Vector Machines (SVM), para resolver esse problema.
Etapas do Estudo
Análise Exploratória de Dados (EDA)
- Realizamos uma análise visual para entender melhor a distribuição das variáveis e como elas se relacionam entre si.
- Descobrimos que as variáveis relacionadas às pétalas são as mais indicativas para distinguir entre as espécies de íris.
Resumo estatístico do dataframe
Histogramas
Boxplot
Scatterplot
Matriz de Correlação
Pré-processamento dos Dados
- Aplicamos técnicas de padronização para garantir que os modelos não fossem influenciados por escalas diferentes entre as variáveis.
- Dividimos o dataset em 80% para treino e 20% para teste.
Modelagem
- Utilizamos quatro algoritmos principais: KNN, Árvore de Decisão, Random Forest e SVM.
- Treinamos cada modelo e avaliamos suas performances em termos de acurácia, precisão, recall e F1-score.
Descobertas Principais
Após treinar e avaliar cada modelo, obtivemos resultados impressionantes:
- A Árvore de Decisão e o SVM apresentaram desempenho perfeito, com 100% de acurácia no conjunto de teste.
- A validação cruzada confirmou a robustez desses modelos, com o SVM alcançando 95% de acurácia média, destacando-se ligeiramente entre os modelos.
Conclusões
Este estudo mostrou a eficiência dos algoritmos de aprendizado de máquina em um problema clássico de classificação. Embora todos os modelos tenham tido excelente desempenho, a Árvore de Decisão se destacou pela simplicidade e facilidade de interpretação, enquanto o SVM ofereceu um ajuste mais robusto com otimização de hiperparâmetros.
Para problemas mais complexos, a metodologia aplicada pode ser estendida e refinada com técnicas de ajuste de hiperparâmetros mais aprofundadas ou utilizando algoritmos mais avançados, como o XGBoost.