No momento, você está visualizando Analisando o mercado imobiliário com o California Housing Dataset

Analisando o mercado imobiliário com o California Housing Dataset

  • Autor do post:
  • Tempo de leitura:1 minutos de leitura
  • Categoria do post:Dados

Como referenciar este texto: Analisando o mercado imobiliário com o California Housing Dataset’. Rodrigo Terra. Publicado em: 20/12/2024. Link da postagem: https://www.makerzine.com.br/dados/analisando-o-mercado-imobiliario-com-o-california-housing-dataset/.

Conteúdos que você verá nesta postagem

Este projeto utilizou o California Housing Dataset para explorar variáveis relacionadas ao mercado imobiliário, realizar análises preditivas e entender os fatores que influenciam os preços das casas. A seguir, apresento uma visão detalhada do processo seguido no notebook, desde a análise inicial até a modelagem avançada com otimização de hiperparâmetros.

1. Introdução ao Dataset

O California Housing Dataset contém informações sobre preços medianos de casas em diferentes regiões da Califórnia, junto com variáveis como renda média, idade das casas, população e localização geográfica. O objetivo foi prever os preços das casas com base nessas características.

2. Análise Exploratória de Dados

Estatísticas Descritivas: Foi realizada uma análise inicial para entender a distribuição e os valores médios das variáveis.

 

Visualizações:

  • Histogramas: Mostraram a distribuição de variáveis como renda média (MedInc) e idade das casas (HouseAge).
  • Boxplots: Identificaram outliers em variáveis numéricas.
  • Matriz de Correlação: Destacou a forte correlação positiva entre renda média e preços das casas, e relações negativas com latitude e longitude.

 

Insights:
Regiões com maior renda média tendem a ter preços mais elevados, enquanto localizações mais ao norte e no interior apresentam preços menores.

3. Engenharia de Variáveis

Duas variáveis derivadas foram criadas para enriquecer a análise:

  • Densidade Populacional (PopDensity): Relação entre população e ocupação média.
  • Tamanho Médio das Casas (AveHouseSize): Razão entre o número médio de quartos e a ocupação média.

 

Benefício:
Essas variáveis capturam nuances do mercado imobiliário, como a ocupação e o tamanho relativo das casas.

4. Preparação dos Dados

  • Padronização: Variáveis como renda, idade e localização foram escaladas usando StandardScaler para uniformizar as escalas e melhorar a performance dos modelos.
  • Divisão em Conjuntos: Os dados foram divididos em 80% para treino e 20% para teste.

5. Modelagem e Avaliação

Foram utilizados três modelos principais para prever os preços:

  1. Regressão Linear: Simplicidade e interpretabilidade.
  2. Árvore de Decisão: Modelagem baseada em regras de decisão.
  3. Random Forest: Combinação de múltiplas árvores para maior robustez.

 

Métricas Avaliadas:

  • MSE (Mean Squared Error): Erro médio quadrático.
  • R²: Coeficiente de determinação, indicando a proporção da variação explicada pelo modelo.

 

Resultados Iniciais:

  • O Random Forest superou os outros modelos em precisão, com menor MSE e maior R².

6. Visualizações e Análises

  • Distribuição Geográfica dos Preços: Um mapa de dispersão revelou regiões mais caras ao longo da costa da Califórnia.
  • Previsões vs. Valores Reais: Gráficos de resíduos mostraram erros uniformemente distribuídos, indicando um bom ajuste do modelo.

7. Otimização e Refinamento

O modelo Random Forest foi refinado:

  • Ajuste de Hiperparâmetros: Aumentou-se o número de estimadores (n_estimators) e limitou-se a profundidade máxima das árvores (max_depth), resultando em um modelo mais eficiente.
  • Importância das Variáveis: A renda média (MedInc) foi a variável mais relevante, seguida por latitude e longitude.

8. Conclusão

Este projeto demonstrou como integrar análise exploratória, engenharia de variáveis e modelagem preditiva para resolver problemas do mundo real. A aplicação do Random Forest permitiu capturar as complexidades do mercado imobiliário, enquanto as visualizações forneceram insights valiosos para tomada de decisão.

 

Aprendizados:

  • A importância de criar variáveis derivadas para enriquecer os dados.
  • Como ajustes de hiperparâmetros podem melhorar significativamente os resultados.
  • O papel das visualizações na comunicação de insights.

 

Próximos Passos:

  • Experimentar modelos avançados, como Gradient Boosting.
  • Incorporar dados externos, como taxas de criminalidade ou infraestrutura, para melhorar a predição.

Para ver e/ou baixar o notebook deste projeto, clique aqui.

Se você acha que este conteúdo pode ser útil para alguém, compartilhe!

Ao divulgar os textos do MakerZine, você contribui para que todo o material continue acessível e gratuito para todas as pessoas.

Rodrigo Terra

Com formação inicial em Física, especialização em Ciências Educacionais com ênfase em Tecnologia Educacional e Docência, e graduação em Ciências de Dados, construí uma trajetória sólida que une educação, tecnologias ee inovação. Desde 2001, dedico-me ao campo educacional, e desde 2019, atuo também na área de ciência de dados, buscando sempre encontrar soluções focadas no desenvolvimento humano. Minha experiência combina um profundo conhecimento em educação com habilidades técnicas em dados e programação, permitindo-me criar soluções estratégicas e práticas. Com ampla vivência em análise de dados, definição de métricas e desenvolvimento de indicadores, acredito que a formação transdisciplinar é essencial para preparar indivíduos conscientes e capacitados para os desafios do mundo contemporâneo. Apaixonado por café e boas conversas, sou movido pela curiosidade e pela busca constante de novas ideias e perspectivas. Minha missão é contribuir para uma educação que inspire pensamento crítico, estimule a criatividade e promova a colaboração.

Deixe um comentário