Como referenciar este texto: Explorando o Preço das Casas na Califórnia com Random Forest e Análise de Dados. Rodrigo Terra. Publicado em: 11/10/2024. Link da postagem: https://www.makerzine.com.br/programacao/explorando-o-preco-das-casas-na-california-com-random-forest-e-analise-de-dados/.
Conteúdos dessa postagem
Introdução
No mundo moderno, a análise de dados desempenha um papel fundamental para prever tendências, desde as ações em bolsas de valores até o preço das casas. Com isso em mente, neste artigo, vamos explorar um projeto de análise preditiva aplicado ao famoso California Housing Dataset. O objetivo? Prever o preço das casas na Califórnia com base em uma série de variáveis socioeconômicas e geográficas. Vamos mergulhar nas técnicas de modelagem, utilizando Random Forest e, claro, muita análise exploratória de dados.
Sobre o dataset
O California Housing Dataset é um conjunto de dados retirado do censo de 1990 da Califórnia, disponibilizado pelo Scikit-learn. Contém informações como:
- Renda Média das famílias,
- Idade Média das Casas,
- Número Médio de Cômodos,
- População do bairro, entre outros.
Nosso objetivo foi prever a variável Preço Médio das Casas utilizando um conjunto dessas variáveis explicativas.
Etapas do Projeto
Análise exploratória de dados
Descrição estatística do dataframe
Distribuição dos dados
Antes de começar a modelar, fizemos uma análise exploratória detalhada para entender a distribuição dos dados e identificar correlações. Uma das primeiras descobertas foi que a renda média (MedInc) das famílias tinha uma correlação forte com os preços das casas, o que já nos indicava um ponto de partida importante.
Utilizamos gráficos de dispersão, histogramas e correlações para capturar esses insights iniciais.
Correlações
Outliers
Distribuição geográfica
Pré-processamento e engenharia de variáveis
Na sequência, realizamos o pré-processamento dos dados, com passos essenciais como:
- Padronização das variáveis, para que todas tivessem a mesma escala.
- Criação de novas variáveis: Criamos métricas como densidade populacional e tamanho médio dos lares, para capturar melhor as dinâmicas dos bairros.
Modelagem com Random Forest
Optamos pelo Random Forest, um modelo de aprendizado de máquina baseado em árvores de decisão. Ele tem a capacidade de capturar padrões complexos, ao mesmo tempo que é resistente a overfitting. O modelo conseguiu alcançar um coeficiente de determinação (R²) de 0.80, o que indica que ele explicou 80% da variabilidade nos preços das casas.
Uma das principais descobertas foi a confirmação de que MedInc (renda média) é a variável mais importante para determinar o preço das casas. Além disso, variáveis como latitude e idade das casas também tiveram impactos significativos.
Importância das variáveis
Análise das Previsões e Resultados
Para validar o modelo, utilizamos um conjunto de teste e geramos gráficos comparando as previsões do modelo com os valores reais. Notamos que o modelo funciona muito bem na maior parte das previsões, mas apresenta maior variabilidade nos preços mais altos.
Gráfico de Resíduos: Mostramos que os resíduos, ou seja, os erros de previsão, estavam relativamente bem distribuídos, mas com erros um pouco maiores em preços mais altos. Isso nos sugere que futuros modelos poderiam focar em aprimorar a previsão de preços extremos.
Gráfico de resíduos
Previsões por Valores reais por renda média
Previsões de preços por localização
Importância das variáveis (refinado)
Previsões por valores reais (refinado)
Resíduos (refinado)
Relatório final
- O dataset California Housing foi carregado e explorado, incluindo uma análise descritiva e visualizações para entender a distribuição das variáveis.
- Realizamos normalização e engenharia de variáveis, criando métricas como densidade populacional e tamanho médio das casas para capturar melhor as dinâmicas do mercado imobiliário.
- Iniciamos com o Random Forest, que apresentou um desempenho sólido na previsão dos preços das casas.
- Refinamos o modelo ajustando hiperparâmetros para melhorar sua performance.
- O coeficiente de determinação (R²) para o modelo refinado foi 0.80, indicando que ele explica aproximadamente 80% da variabilidade nos preços das casas.
- A variável com maior impacto foi a renda média (MedInc), que está fortemente correlacionada com os preços das casas.
- Outras variáveis importantes incluem latitude e idade das casas.
- A importância das variáveis foi visualizada por meio de gráficos que destacaram quais fatores têm mais peso nas previsões.
- O modelo foi avaliado em termos de previsões vs. valores reais, e identificamos que o modelo teve um bom desempenho geral, com alguns desvios maiores em preços mais altos.
- O gráfico de resíduos indicou que os erros são distribuídos de forma razoavelmente aleatória, com maior variabilidade para casas de preços mais altos.
- O Random Forest foi eficaz em capturar a dinâmica do mercado imobiliário da Califórnia.
- Há oportunidades para melhorar o desempenho em valores mais extremos, talvez com a introdução de mais variáveis explicativas ou o uso de modelos como o XGBoost.
- O modelo pode ser exportado e usado em aplicações de previsão de preços imobiliários.