No momento, você está visualizando Explorando o Preço das Casas na Califórnia com Random Forest e Análise de Dados

Autor do post:Rodrigo Terra
Tempo de leitura:1 minutos de leitura
Categoria do post:Cozinha de dados / Dados / Inteligência Artificial / Programação / Python / Tecnologia

Como referenciar este texto: Explorando o Preço das Casas na Califórnia com Random Forest e Análise de Dados. Rodrigo Terra. Publicado em: 11/10/2024. Link da postagem: https://www.makerzine.com.br/programacao/explorando-o-preco-das-casas-na-california-com-random-forest-e-analise-de-dados/.

Introdução

No mundo moderno, a análise de dados desempenha um papel fundamental para prever tendências, desde as ações em bolsas de valores até o preço das casas. Com isso em mente, neste artigo, vamos explorar um projeto de análise preditiva aplicado ao famoso California Housing Dataset. O objetivo? Prever o preço das casas na Califórnia com base em uma série de variáveis socioeconômicas e geográficas. Vamos mergulhar nas técnicas de modelagem, utilizando Random Forest e, claro, muita análise exploratória de dados.

Sobre o dataset

O California Housing Dataset é um conjunto de dados retirado do censo de 1990 da Califórnia, disponibilizado pelo Scikit-learn. Contém informações como:

Renda Média das famílias,
Idade Média das Casas,
Número Médio de Cômodos,
População do bairro, entre outros.

Nosso objetivo foi prever a variável Preço Médio das Casas utilizando um conjunto dessas variáveis explicativas.

Etapas do Projeto

Análise exploratória de dados

Descrição estatística do dataframe

Distribuição dos dados

Antes de começar a modelar, fizemos uma análise exploratória detalhada para entender a distribuição dos dados e identificar correlações. Uma das primeiras descobertas foi que a renda média (MedInc) das famílias tinha uma correlação forte com os preços das casas, o que já nos indicava um ponto de partida importante.

Utilizamos gráficos de dispersão, histogramas e correlações para capturar esses insights iniciais.

Correlações

Outliers

Distribuição geográfica

Pré-processamento e engenharia de variáveis

Na sequência, realizamos o pré-processamento dos dados, com passos essenciais como:

Padronização das variáveis, para que todas tivessem a mesma escala.
Criação de novas variáveis: Criamos métricas como densidade populacional e tamanho médio dos lares, para capturar melhor as dinâmicas dos bairros.

Modelagem com Random Forest

Optamos pelo Random Forest, um modelo de aprendizado de máquina baseado em árvores de decisão. Ele tem a capacidade de capturar padrões complexos, ao mesmo tempo que é resistente a overfitting. O modelo conseguiu alcançar um coeficiente de determinação (R²) de 0.80, o que indica que ele explicou 80% da variabilidade nos preços das casas.

Uma das principais descobertas foi a confirmação de que MedInc (renda média) é a variável mais importante para determinar o preço das casas. Além disso, variáveis como latitude e idade das casas também tiveram impactos significativos.

Importância das variáveis

Análise das Previsões e Resultados

Para validar o modelo, utilizamos um conjunto de teste e geramos gráficos comparando as previsões do modelo com os valores reais. Notamos que o modelo funciona muito bem na maior parte das previsões, mas apresenta maior variabilidade nos preços mais altos.

Gráfico de Resíduos: Mostramos que os resíduos, ou seja, os erros de previsão, estavam relativamente bem distribuídos, mas com erros um pouco maiores em preços mais altos. Isso nos sugere que futuros modelos poderiam focar em aprimorar a previsão de preços extremos.

Gráfico de resíduos

Previsões por Valores reais por renda média

Previsões de preços por localização

Importância das variáveis (refinado)

Previsões por valores reais (refinado)

Resíduos (refinado)

Relatório final

Exploração e Pré-processamento dos Dados:

O dataset California Housing foi carregado e explorado, incluindo uma análise descritiva e visualizações para entender a distribuição das variáveis.
Realizamos normalização e engenharia de variáveis, criando métricas como densidade populacional e tamanho médio das casas para capturar melhor as dinâmicas do mercado imobiliário.

Modelagem:

Iniciamos com o Random Forest, que apresentou um desempenho sólido na previsão dos preços das casas.
Refinamos o modelo ajustando hiperparâmetros para melhorar sua performance.
O coeficiente de determinação (R²) para o modelo refinado foi 0.80, indicando que ele explica aproximadamente 80% da variabilidade nos preços das casas.

Análise das Variáveis Importantes:

A variável com maior impacto foi a renda média (MedInc), que está fortemente correlacionada com os preços das casas.
Outras variáveis importantes incluem latitude e idade das casas.
A importância das variáveis foi visualizada por meio de gráficos que destacaram quais fatores têm mais peso nas previsões.

Análise das Previsões:

O modelo foi avaliado em termos de previsões vs. valores reais, e identificamos que o modelo teve um bom desempenho geral, com alguns desvios maiores em preços mais altos.
O gráfico de resíduos indicou que os erros são distribuídos de forma razoavelmente aleatória, com maior variabilidade para casas de preços mais altos.

Conclusões e Recomendações:

O Random Forest foi eficaz em capturar a dinâmica do mercado imobiliário da Califórnia.
Há oportunidades para melhorar o desempenho em valores mais extremos, talvez com a introdução de mais variáveis explicativas ou o uso de modelos como o XGBoost.
O modelo pode ser exportado e usado em aplicações de previsão de preços imobiliários.

Acesso aos arquivos

Notebook do Google Colab

Repositório do Github

Deixe um comentário Cancelar resposta

Tags: Análise de dados, análise exploratória, Análise preditiva, aprendizado de máquina, árvore de decisão, árvores de decisão, California Housing, California Housing Dataset, Ciência de dados, Correlação, Dataset, desempenho de modelo, Dispersão, EDA, engenharia de variáveis, erro quadrático médio, estatísticas descritivas, feature engineering, gráficos de resíduos, idade das casas, importância das variáveis, latitude, longitude, machine learning, média de quartos, mediana da renda, MedInc, modelagem preditiva, MSE, otimização de hiperparâmetros, Outliers, padronização, População, pré-processamento de dados, preço de imóveis, predição de imóveis, predição imobiliária, previsão de preços, Python, R², random forest, RandomForestRegressor, Regressão, renda média, scikit-learn, Sklearn, subestimativa, superestimativa, treinamento de modelo, validação cruzada, variabilidade, variáveis geográficas, XGBoost

Conteúdos dessa postagem