No momento, você está visualizando Explorando o Dataset Iris: Uma Jornada de Classificação com Machine Learning

Autor do post:Rodrigo Terra
Tempo de leitura:6 minutos de leitura
Categoria do post:Cozinha de dados / Dados / Programação / Python / Tecnologia

Como referenciar este texto: Explorando o Dataset Iris: Uma jornada de classificação com Machine Learning. Rodrigo Terra. Publicado em: 10/10/2024. Link da postagem: https://www.makerzine.com.br/programacao/explorando-o-dataset-iris-uma-jornada-de-classificacao-com-machine-learning/ .

Introdução

Neste artigo, exploramos um dos conjuntos de dados mais icônicos no mundo da ciência de dados: o dataset Iris. Com dados sobre 150 amostras de três espécies de flores, o Iris é uma base perfeita para aprender sobre algoritmos de classificação. Utilizando técnicas de aprendizado de máquina, aplicamos diversos modelos e realizamos uma análise aprofundada para prever a espécie das flores com base em suas características físicas.

Contexto do problema

O problema que resolvemos aqui é simples, mas poderoso: com base em quatro características das flores (comprimento e largura das sépalas e pétalas), podemos prever a qual espécie cada flor pertence? Aplicamos alguns dos algoritmos mais populares, como K-Nearest Neighbors (KNN), Árvore de Decisão, Random Forest, e Support Vector Machines (SVM), para resolver esse problema.

Etapas do Estudo

Análise Exploratória de Dados (EDA)

Realizamos uma análise visual para entender melhor a distribuição das variáveis e como elas se relacionam entre si.
Descobrimos que as variáveis relacionadas às pétalas são as mais indicativas para distinguir entre as espécies de íris.

Resumo estatístico do dataframe

Histogramas

Boxplot

Scatterplot

Matriz de Correlação

Pré-processamento dos Dados

Aplicamos técnicas de padronização para garantir que os modelos não fossem influenciados por escalas diferentes entre as variáveis.
Dividimos o dataset em 80% para treino e 20% para teste.

Modelagem

Utilizamos quatro algoritmos principais: KNN, Árvore de Decisão, Random Forest e SVM.
Treinamos cada modelo e avaliamos suas performances em termos de acurácia, precisão, recall e F1-score.

Descobertas Principais

Após treinar e avaliar cada modelo, obtivemos resultados impressionantes:

A Árvore de Decisão e o SVM apresentaram desempenho perfeito, com 100% de acurácia no conjunto de teste.
A validação cruzada confirmou a robustez desses modelos, com o SVM alcançando 95% de acurácia média, destacando-se ligeiramente entre os modelos.

Conclusões

Este estudo mostrou a eficiência dos algoritmos de aprendizado de máquina em um problema clássico de classificação. Embora todos os modelos tenham tido excelente desempenho, a Árvore de Decisão se destacou pela simplicidade e facilidade de interpretação, enquanto o SVM ofereceu um ajuste mais robusto com otimização de hiperparâmetros.

Para problemas mais complexos, a metodologia aplicada pode ser estendida e refinada com técnicas de ajuste de hiperparâmetros mais aprofundadas ou utilizando algoritmos mais avançados, como o XGBoost.

Acesso aos arquivos

Notebook do Google Colab

Repositório do Github

Deixe um comentário Cancelar resposta

Tags: acurácia, ajuste de hiperparâmetros, ajuste de modelos, algoritmos de classificação, algoritmos de machine learning, Análise de dados, análise exploratória de dados, análise multivariada, aprendizado de máquina, aprendizado supervisionado, árvore de decisão, árvores de decisão, Ciência de dados, classificação, comparação de modelos, dataset Iris, EDA, Estudo de caso, F1-score, flores íris, GridSearchCV, inteligência artificial, K-Nearest Neighbors, KNN, machine learning, matriz de confusão, métricas de avaliação, modelagem preditiva, modelos preditivos, normalização de dados, otimização de modelos, Overfitting, padronização de dados, performance de modelos, pré-processamento de dados, precisão, previsão de espécies, Python, random forest, recall, scikit-learn, separação treino-teste, suporte vetorial, Support Vector Machine, SVM, técnicas de classificação, tuning de hiperparâmetros, underfitting, validação cruzada, Visualização de dados

Conteúdos dessa postagem

Introdução

Contexto do problema