No momento, você está visualizando Previsão da qualidade de vinhos tintos com regressão linear múltipla

Previsão da qualidade de vinhos tintos com regressão linear múltipla

  • Autor do post:
  • Tempo de leitura:1 minutos de leitura
  • Categoria do post:Dados

Como referenciar este texto: Previsão da qualidade de vinhos tintos com regressão linear múltipla’. Rodrigo Terra. Publicado em: 01/04/2025. Link da postagem: https://www.makerzine.com.br/dados/previsao-da-qualidade-de-vinhos-tintos-com-regressao-linear-multipla/.

Conteúdos que você verá nesta postagem

Você já parou para pensar em como avaliamos a qualidade de um vinho? Normalmente, deixamos essa missão para sommeliers experientes ou simplesmente confiamos no nosso paladar. Mas… e se uma máquina pudesse prever essa qualidade? E mais: se ela pudesse fazer isso apenas analisando dados físico-químicos do vinho — sem sequer provar uma gota?

Foi com essa provocação em mente que decidi desenvolver este projeto. Como estudante de Ciência de Dados e curioso por aplicações reais da estatística, me interessei pelo Wine Quality Dataset, um conjunto de dados públicos com amostras de vinhos tintos portugueses, avaliados tanto em laboratório quanto por especialistas.

O desafio era claro: utilizar regressão linear múltipla para prever a nota de qualidade de um vinho com base em variáveis como acidez, teor alcoólico, pH e outras características químicas. A ideia era unir um problema do cotidiano com uma técnica clássica da ciência de dados — e, de quebra, exercitar o raciocínio analítico e a interpretação de modelos.

Explorando os Dados

O coração deste projeto é o Wine Quality Dataset, um conjunto de dados amplamente utilizado em projetos de ciência de dados e aprendizado de máquina. Ele está disponível publicamente no repositório da UCI Machine Learning, uma referência quando se trata de bases de dados confiáveis e bem documentadas.

O dataset contém 1.599 amostras de vinhos tintos portugueses, cada uma descrita por 11 variáveis físico-químicas obtidas em laboratório — como teor alcoólico, acidez volátil, densidade, sulfatos e pH. Esses dados são objetivos e medidos com precisão científica, o que torna o conjunto uma ótima base para análise preditiva.

Mas o detalhe mais interessante está na variável alvo: a qualidade do vinho. Essa nota vai de 0 a 10 e foi atribuída por um painel de degustadores, com base em critérios sensoriais. Ou seja, estamos tentando ensinar uma máquina a prever uma opinião humana a partir de dados químicos objetivos — um desafio e tanto!

Esse contraste entre o mensurável e o subjetivo é justamente o que torna esse dataset tão fascinante. Ele nos permite explorar até que ponto é possível traduzir o gosto humano em números — e o quanto nossa percepção pode (ou não) ser antecipada por modelos estatísticos.

Do Código à Previsão

Com os dados em mãos, era hora de colocar a mão no código e transformar números em previsões. A jornada seguiu um caminho clássico da ciência de dados, mas cheia de descobertas no percurso.

O primeiro passo foi separar as informações: de um lado, as variáveis independentes (como alcohol, volatile_acidity, sulphates, entre outras); do outro, a variável alvo, quality, que representa a nota atribuída ao vinho. Dividimos o conjunto em duas partes: 80% para treinar o modelo e 20% para testá-lo.

Com os dados preparados, aplicamos a regressão linear múltipla, uma técnica estatística que tenta encontrar a combinação ideal de variáveis para prever um valor numérico. No nosso caso, o modelo aprendeu a “pesar” cada uma das características químicas do vinho para estimar sua qualidade.

Depois do treinamento, veio a avaliação. Utilizamos três métricas principais:

  • MAE (Erro Médio Absoluto): 0.57

  • RMSE (Raiz do Erro Quadrático Médio): 0.74

  • R² (Coeficiente de Determinação): 0.26

Esses números mostram que o modelo acerta, em média, com um desvio de aproximadamente meio ponto na escala de qualidade. No entanto, o R² revela que apenas 26% da variação na qualidade é explicada pelas variáveis químicas. Em outras palavras: o modelo é útil, mas está longe de ser perfeito — o que faz sentido, já que o gosto humano é complexo e muitas vezes subjetivo.

As visualizações também contaram uma história. No gráfico de valores reais vs. previstos, vimos que o modelo tem uma tendência a “jogar no seguro”, prevendo notas próximas da média e errando mais nas extremidades (como nas notas 3 ou 8). Já o gráfico de resíduos mostrou uma distribuição relativamente equilibrada, indicando que os erros não seguem um padrão viciado.

No fim das contas, a regressão linear serviu como uma boa primeira tentativa. Funcionou? Sim, em parte. Mas deixou claro que modelos mais sofisticados podem — e devem — ser testados para capturar melhor a riqueza dos dados (e do vinho 🍷).

O que os Dados nos Dizem sobre Vinho

Depois de treinar o modelo, veio a parte mais divertida: interpretar os resultados. A regressão linear, além de prever, nos mostra quais variáveis mais influenciam o valor previsto. E, no caso dos vinhos tintos, alguns padrões se destacaram.

Entre os atributos físico-químicos analisados, os que mais contribuíram para prever a qualidade foram:

  • Álcool: vinhos com maior teor alcoólico tendem a receber notas mais altas. Isso faz sentido, já que o álcool influencia o corpo, aroma e sabor da bebida.

  • Sulfatos: associados à preservação e ao sabor, também tiveram peso positivo na previsão.

  • Acidez volátil: neste caso, quanto maior, pior. Altos níveis de acidez volátil são percebidos como um defeito sensorial, o que pode diminuir a nota.

Esses achados revelam que, mesmo sem provar o vinho, é possível encontrar sinais químicos que se correlacionam com a percepção de qualidade. Mas… só até certo ponto.

Aqui entra uma limitação interessante: modelos lineares são ótimos para relações matemáticas simples, mas o paladar humano é tudo, menos simples. A regressão linear não consegue captar nuances sensoriais, emoções ou preferências pessoais. Ela vê números, não experiências.

Então, será que dá pra ensinar uma máquina a ter gosto refinado? Talvez. Mas ela precisará de algo mais sofisticado: modelos não lineares, redes neurais, dados sensoriais detalhados… e talvez até uma taça na mão (mas aí já estamos entrando em ficção científica).

Por enquanto, o que conseguimos é uma aproximação objetiva de algo profundamente subjetivo. E só isso já é um baita passo.

Conheça o Projeto

Para ver e/ou baixar o notebook do projeto, basta clicar aqui.

Se você acha que este conteúdo pode ser útil para alguém, compartilhe!

Ao divulgar os textos do MakerZine, você contribui para que todo o material continue acessível e gratuito para todas as pessoas.

Rodrigo Terra

Com formação inicial em Física, especialização em Ciências Educacionais com ênfase em Tecnologia Educacional e Docência, e graduação em Ciências de Dados, construí uma trajetória sólida que une educação, tecnologias ee inovação. Desde 2001, dedico-me ao campo educacional, e desde 2019, atuo também na área de ciência de dados, buscando sempre encontrar soluções focadas no desenvolvimento humano. Minha experiência combina um profundo conhecimento em educação com habilidades técnicas em dados e programação, permitindo-me criar soluções estratégicas e práticas. Com ampla vivência em análise de dados, definição de métricas e desenvolvimento de indicadores, acredito que a formação transdisciplinar é essencial para preparar indivíduos conscientes e capacitados para os desafios do mundo contemporâneo. Apaixonado por café e boas conversas, sou movido pela curiosidade e pela busca constante de novas ideias e perspectivas. Minha missão é contribuir para uma educação que inspire pensamento crítico, estimule a criatividade e promova a colaboração.

Deixe um comentário