Como referenciar este texto: ‘Previsão da qualidade de vinhos tintos com regressão linear múltipla’. Rodrigo Terra. Publicado em: 01/04/2025. Link da postagem: https://www.makerzine.com.br/dados/previsao-da-qualidade-de-vinhos-tintos-com-regressao-linear-multipla/.
Conteúdos que você verá nesta postagem
Você já parou para pensar em como avaliamos a qualidade de um vinho? Normalmente, deixamos essa missão para sommeliers experientes ou simplesmente confiamos no nosso paladar. Mas… e se uma máquina pudesse prever essa qualidade? E mais: se ela pudesse fazer isso apenas analisando dados físico-químicos do vinho — sem sequer provar uma gota?
Foi com essa provocação em mente que decidi desenvolver este projeto. Como estudante de Ciência de Dados e curioso por aplicações reais da estatística, me interessei pelo Wine Quality Dataset, um conjunto de dados públicos com amostras de vinhos tintos portugueses, avaliados tanto em laboratório quanto por especialistas.
O desafio era claro: utilizar regressão linear múltipla para prever a nota de qualidade de um vinho com base em variáveis como acidez, teor alcoólico, pH e outras características químicas. A ideia era unir um problema do cotidiano com uma técnica clássica da ciência de dados — e, de quebra, exercitar o raciocínio analítico e a interpretação de modelos.
Explorando os Dados
O coração deste projeto é o Wine Quality Dataset, um conjunto de dados amplamente utilizado em projetos de ciência de dados e aprendizado de máquina. Ele está disponível publicamente no repositório da UCI Machine Learning, uma referência quando se trata de bases de dados confiáveis e bem documentadas.
O dataset contém 1.599 amostras de vinhos tintos portugueses, cada uma descrita por 11 variáveis físico-químicas obtidas em laboratório — como teor alcoólico, acidez volátil, densidade, sulfatos e pH. Esses dados são objetivos e medidos com precisão científica, o que torna o conjunto uma ótima base para análise preditiva.
Mas o detalhe mais interessante está na variável alvo: a qualidade do vinho. Essa nota vai de 0 a 10 e foi atribuída por um painel de degustadores, com base em critérios sensoriais. Ou seja, estamos tentando ensinar uma máquina a prever uma opinião humana a partir de dados químicos objetivos — um desafio e tanto!
Esse contraste entre o mensurável e o subjetivo é justamente o que torna esse dataset tão fascinante. Ele nos permite explorar até que ponto é possível traduzir o gosto humano em números — e o quanto nossa percepção pode (ou não) ser antecipada por modelos estatísticos.
Do Código à Previsão
Com os dados em mãos, era hora de colocar a mão no código e transformar números em previsões. A jornada seguiu um caminho clássico da ciência de dados, mas cheia de descobertas no percurso.
O primeiro passo foi separar as informações: de um lado, as variáveis independentes (como alcohol
, volatile_acidity
, sulphates
, entre outras); do outro, a variável alvo, quality
, que representa a nota atribuída ao vinho. Dividimos o conjunto em duas partes: 80% para treinar o modelo e 20% para testá-lo.
Com os dados preparados, aplicamos a regressão linear múltipla, uma técnica estatística que tenta encontrar a combinação ideal de variáveis para prever um valor numérico. No nosso caso, o modelo aprendeu a “pesar” cada uma das características químicas do vinho para estimar sua qualidade.
Depois do treinamento, veio a avaliação. Utilizamos três métricas principais:
MAE (Erro Médio Absoluto): 0.57
RMSE (Raiz do Erro Quadrático Médio): 0.74
R² (Coeficiente de Determinação): 0.26
Esses números mostram que o modelo acerta, em média, com um desvio de aproximadamente meio ponto na escala de qualidade. No entanto, o R² revela que apenas 26% da variação na qualidade é explicada pelas variáveis químicas. Em outras palavras: o modelo é útil, mas está longe de ser perfeito — o que faz sentido, já que o gosto humano é complexo e muitas vezes subjetivo.
As visualizações também contaram uma história. No gráfico de valores reais vs. previstos, vimos que o modelo tem uma tendência a “jogar no seguro”, prevendo notas próximas da média e errando mais nas extremidades (como nas notas 3 ou 8). Já o gráfico de resíduos mostrou uma distribuição relativamente equilibrada, indicando que os erros não seguem um padrão viciado.
No fim das contas, a regressão linear serviu como uma boa primeira tentativa. Funcionou? Sim, em parte. Mas deixou claro que modelos mais sofisticados podem — e devem — ser testados para capturar melhor a riqueza dos dados (e do vinho 🍷).
O que os Dados nos Dizem sobre Vinho
Depois de treinar o modelo, veio a parte mais divertida: interpretar os resultados. A regressão linear, além de prever, nos mostra quais variáveis mais influenciam o valor previsto. E, no caso dos vinhos tintos, alguns padrões se destacaram.
Entre os atributos físico-químicos analisados, os que mais contribuíram para prever a qualidade foram:
Álcool: vinhos com maior teor alcoólico tendem a receber notas mais altas. Isso faz sentido, já que o álcool influencia o corpo, aroma e sabor da bebida.
Sulfatos: associados à preservação e ao sabor, também tiveram peso positivo na previsão.
Acidez volátil: neste caso, quanto maior, pior. Altos níveis de acidez volátil são percebidos como um defeito sensorial, o que pode diminuir a nota.
Esses achados revelam que, mesmo sem provar o vinho, é possível encontrar sinais químicos que se correlacionam com a percepção de qualidade. Mas… só até certo ponto.
Aqui entra uma limitação interessante: modelos lineares são ótimos para relações matemáticas simples, mas o paladar humano é tudo, menos simples. A regressão linear não consegue captar nuances sensoriais, emoções ou preferências pessoais. Ela vê números, não experiências.
Então, será que dá pra ensinar uma máquina a ter gosto refinado? Talvez. Mas ela precisará de algo mais sofisticado: modelos não lineares, redes neurais, dados sensoriais detalhados… e talvez até uma taça na mão (mas aí já estamos entrando em ficção científica).
Por enquanto, o que conseguimos é uma aproximação objetiva de algo profundamente subjetivo. E só isso já é um baita passo.
Se você acha que este conteúdo pode ser útil para alguém, compartilhe!
Ao divulgar os textos do MakerZine, você contribui para que todo o material continue acessível e gratuito para todas as pessoas.