Como referenciar este texto: ‘Analisando o mercado imobiliário com o California Housing Dataset’. Rodrigo Terra. Publicado em: 20/12/2024. Link da postagem: https://www.makerzine.com.br/dados/analisando-o-mercado-imobiliario-com-o-california-housing-dataset/.
Conteúdos que você verá nesta postagem
Este projeto utilizou o California Housing Dataset para explorar variáveis relacionadas ao mercado imobiliário, realizar análises preditivas e entender os fatores que influenciam os preços das casas. A seguir, apresento uma visão detalhada do processo seguido no notebook, desde a análise inicial até a modelagem avançada com otimização de hiperparâmetros.
1. Introdução ao Dataset
O California Housing Dataset contém informações sobre preços medianos de casas em diferentes regiões da Califórnia, junto com variáveis como renda média, idade das casas, população e localização geográfica. O objetivo foi prever os preços das casas com base nessas características.
2. Análise Exploratória de Dados
Estatísticas Descritivas: Foi realizada uma análise inicial para entender a distribuição e os valores médios das variáveis.
Visualizações:
- Histogramas: Mostraram a distribuição de variáveis como renda média (MedInc) e idade das casas (HouseAge).
- Boxplots: Identificaram outliers em variáveis numéricas.
- Matriz de Correlação: Destacou a forte correlação positiva entre renda média e preços das casas, e relações negativas com latitude e longitude.
Insights:
Regiões com maior renda média tendem a ter preços mais elevados, enquanto localizações mais ao norte e no interior apresentam preços menores.
3. Engenharia de Variáveis
Duas variáveis derivadas foram criadas para enriquecer a análise:
- Densidade Populacional (PopDensity): Relação entre população e ocupação média.
- Tamanho Médio das Casas (AveHouseSize): Razão entre o número médio de quartos e a ocupação média.
Benefício:
Essas variáveis capturam nuances do mercado imobiliário, como a ocupação e o tamanho relativo das casas.
4. Preparação dos Dados
- Padronização: Variáveis como renda, idade e localização foram escaladas usando
StandardScaler
para uniformizar as escalas e melhorar a performance dos modelos. - Divisão em Conjuntos: Os dados foram divididos em 80% para treino e 20% para teste.
5. Modelagem e Avaliação
Foram utilizados três modelos principais para prever os preços:
- Regressão Linear: Simplicidade e interpretabilidade.
- Árvore de Decisão: Modelagem baseada em regras de decisão.
- Random Forest: Combinação de múltiplas árvores para maior robustez.
Métricas Avaliadas:
- MSE (Mean Squared Error): Erro médio quadrático.
- R²: Coeficiente de determinação, indicando a proporção da variação explicada pelo modelo.
Resultados Iniciais:
- O Random Forest superou os outros modelos em precisão, com menor MSE e maior R².
6. Visualizações e Análises
- Distribuição Geográfica dos Preços: Um mapa de dispersão revelou regiões mais caras ao longo da costa da Califórnia.
- Previsões vs. Valores Reais: Gráficos de resíduos mostraram erros uniformemente distribuídos, indicando um bom ajuste do modelo.
7. Otimização e Refinamento
O modelo Random Forest foi refinado:
- Ajuste de Hiperparâmetros: Aumentou-se o número de estimadores (n_estimators) e limitou-se a profundidade máxima das árvores (max_depth), resultando em um modelo mais eficiente.
- Importância das Variáveis: A renda média (MedInc) foi a variável mais relevante, seguida por latitude e longitude.
8. Conclusão
Este projeto demonstrou como integrar análise exploratória, engenharia de variáveis e modelagem preditiva para resolver problemas do mundo real. A aplicação do Random Forest permitiu capturar as complexidades do mercado imobiliário, enquanto as visualizações forneceram insights valiosos para tomada de decisão.
Aprendizados:
- A importância de criar variáveis derivadas para enriquecer os dados.
- Como ajustes de hiperparâmetros podem melhorar significativamente os resultados.
- O papel das visualizações na comunicação de insights.
Próximos Passos:
- Experimentar modelos avançados, como Gradient Boosting.
- Incorporar dados externos, como taxas de criminalidade ou infraestrutura, para melhorar a predição.
Para ver e/ou baixar o notebook deste projeto, clique aqui.
Se você acha que este conteúdo pode ser útil para alguém, compartilhe!
Ao divulgar os textos do MakerZine, você contribui para que todo o material continue acessível e gratuito para todas as pessoas.