Você está visualizando atualmente Explorando o Dataset Iris: Uma Jornada de Classificação com Machine Learning

Como referenciar este texto: Explorando o Dataset Iris: Uma jornada de classificação com Machine Learning. Rodrigo Terra. Publicado em: 10/10/2024. Link da postagem: https://www.makerzine.com.br/programacao/explorando-o-dataset-iris-uma-jornada-de-classificacao-com-machine-learning/ .


Conteúdos dessa postagem

Introdução

Neste artigo, exploramos um dos conjuntos de dados mais icônicos no mundo da ciência de dados: o dataset Iris. Com dados sobre 150 amostras de três espécies de flores, o Iris é uma base perfeita para aprender sobre algoritmos de classificação. Utilizando técnicas de aprendizado de máquina, aplicamos diversos modelos e realizamos uma análise aprofundada para prever a espécie das flores com base em suas características físicas.

Contexto do problema

O problema que resolvemos aqui é simples, mas poderoso: com base em quatro características das flores (comprimento e largura das sépalas e pétalas), podemos prever a qual espécie cada flor pertence? Aplicamos alguns dos algoritmos mais populares, como K-Nearest Neighbors (KNN), Árvore de Decisão, Random Forest, e Support Vector Machines (SVM), para resolver esse problema.

Etapas do Estudo

Análise Exploratória de Dados (EDA)

  • Realizamos uma análise visual para entender melhor a distribuição das variáveis e como elas se relacionam entre si.
  • Descobrimos que as variáveis relacionadas às pétalas são as mais indicativas para distinguir entre as espécies de íris.

Resumo estatístico do dataframe

Histogramas

Boxplot

Scatterplot

Matriz de Correlação

Pré-processamento dos Dados

  • Aplicamos técnicas de padronização para garantir que os modelos não fossem influenciados por escalas diferentes entre as variáveis.
  • Dividimos o dataset em 80% para treino e 20% para teste.

Modelagem

  • Utilizamos quatro algoritmos principais: KNN, Árvore de Decisão, Random Forest e SVM.
  • Treinamos cada modelo e avaliamos suas performances em termos de acurácia, precisão, recall e F1-score.

Descobertas Principais

Após treinar e avaliar cada modelo, obtivemos resultados impressionantes:

  • A Árvore de Decisão e o SVM apresentaram desempenho perfeito, com 100% de acurácia no conjunto de teste.
  • A validação cruzada confirmou a robustez desses modelos, com o SVM alcançando 95% de acurácia média, destacando-se ligeiramente entre os modelos.

Conclusões

Este estudo mostrou a eficiência dos algoritmos de aprendizado de máquina em um problema clássico de classificação. Embora todos os modelos tenham tido excelente desempenho, a Árvore de Decisão se destacou pela simplicidade e facilidade de interpretação, enquanto o SVM ofereceu um ajuste mais robusto com otimização de hiperparâmetros.

Para problemas mais complexos, a metodologia aplicada pode ser estendida e refinada com técnicas de ajuste de hiperparâmetros mais aprofundadas ou utilizando algoritmos mais avançados, como o XGBoost.

Acesso aos arquivos

Notebook do Google Colab

Repositório do Github

Rodrigo Terra

Atuei como Professor de Física e Cultura Maker, por mais de 20 anos. Sou Pesquisador em Ciências Educacionais com ênfase em Tecnologia Educacional e Docência. desenvolvendo trabalhos de Consultorias Pedagógicas para diversas empresas do setor educacional. Há alguns anos, venho direcionando meus estudos para o universo dos dados e programação. Atualmente, trabalho como Líder Acadêmico de matérias técnicas, como Data Analytics, Gestão de Produtos Digitais e Mercado Financeiro. Sou um eterno curioso, apaixonado por café e por uma boa conversa. Acredito que somente com uma formação transdisciplinar é que criamos oportunidades pensar em diferentes aspectos ou ponto de vista de um mesmo assunto, e com isso, desenvolver pessoas mais conscientes e preparadas para a vida.

Deixe um comentário