A Geometria da Regressão Linear
Referência : Gomes, C., (2020) A Geometria da Regressão Linear, Rev. Ciência Elem., V8(4):054
Autor: Carlos Gomes
Editor: José Ferreira Gomes
DOI: [https://doi.org/10.24927/rce2020.054]
[editar] Resumo
A regressão linear é um tema normalmente explorado (nas escolas) com recurso a uma calculadora científica gráfica ou software da moda (GeoGebra ou Desmos, por exemplo), ficando os estudantes com a tarefa aborrecida de introduzir números em listas e obter como recompensa uma equação que utilizam para fazer previsões num dado contexto. O que aqui se trata é de mostrar o grande valor didático deste problema, mobilizando conhecimentos que os alunos detêm para aclarar, do ponto de vista geométrico, o que está em causa em todo este processo que decorre nos “bastidores” da tecnologia.
A geometria do problema
O problema que consiste na determinação da reta que melhor se ajusta a uma dada nuvem de n pontos (xi,yi) é tradicionalmente tratado como o problema de encontrar os parâmetros a e b da equação y=ax+b que minimizam a soma S=∑ni=1d2i, em que os di são as diferenças entre os valores observados e os valores do modelo, isto é, di=yi−ax−b.
Sejam (x1,y1), (x2,y2),..., (xn,yn) os dados observados (nuvem de pontos na FIGURA 1). Para a determinação do parâmetro a (declive da reta), seria “simpático” que a nuvem tivesse o seu centro de massa na origem do referencial, isto é, no ponto de coordenadas (0; 0). Isto porque libertar-nos-íamos do parâmetro b da equação da reta, o que parece reduzir a dificuldade do problema, pois, nesta condições, o modelo associado à reta de regressão seria y=ax. Para fazer com que o centro de massa da nuvem se desloque para a origem, é suficiente efetuarmos uma translação de toda a nuvem de pontos segundo o vetor (−ˉx,−ˉy), ou seja, basta subtrairmos o centro de massa (ˉx,ˉy) a todos os pontos da nuvem. Obtém-se assim uma nova nuvem de pontos da forma (xi−ˉx,yi−ˉy) cujo centro de massa é (0; 0).
Fazendo xi−ˉx=˜xi e yi−ˉy=˜yi, a nuvem sobre a qual o trabalho prossegue será (˜xi,˜yi), com i=1,2,...,n, cuja reta de regressão tem o mesmo declive que a reta de regressão da nuvem original, em consequência da translação efetuada.

A nova nuvem é constituída por pontos da forma (˜xi,˜yi) e os pontos da forma (˜xi,a˜xi),i=1,2,...,n, são os pontos sobre a reta ˜y=a˜x, que coincidiriam com os primeiros caso a correlação fosse perfeita. Os n vetores →ui=(˜xi,a˜xi) determinados por estes pontos são colineares. Mas aqui, uma mudança de dimensão vai tornar o trabalho mais simples: em vez de considerarmos estes n vetores de dimensão 2, utilizamos os dados organizados em vetores de dimensão n:
→i=(˜x1,˜x2,...,˜xn),
→j=(a˜x1,a˜x2,...,a˜xn),
e
→u=(˜y1,˜y2,...,˜yn).
Os vetores →i e →j são colineares:
→j=(a˜x1,a˜x2,...,a˜xn)
=a(˜x1˜x2,...,˜xn) (1)
=a→i.
Para além do mais, o escalar a em (1) é precisamente o declive da reta procurada! Assim, determinar a será equivalente a determinar (algo sobre) =→j, agora num espaço de dimensão n, (veja-se o apêndice da versão eletrónica para clarificação deste ponto).

Repare-se que →u−→j=(˜y1−a˜x1,...,˜yn−a˜xn) não é mais do que o vetor dos resíduos, isto é, o vetor cujas componentes são as diferenças entre os dados observados e os dados teóricos da nova nuvem. Ora, o que se pretende é que a norma (ou distância) ‖→u−→j‖ seja mínima. Isto só acontecerá se →u−→j for normal a →u (como sugere a FIGURA 2). Para que tal aconteça, →j tem de ser a projeção de →u sobre →i. Logo, o produto escalar de →u−→j com →i tem de ser nulo, retirando-se desta condição o valor do multiplicador a, declive da reta de regressão:
(→u−→j)⋅→i=0⇔(→u−a→i)⋅→i=0(→j=a→i,de(1))⇔→u⋅→i−a→i=0⇔a=→u⋅→i‖→i‖(→i⋅→i=‖→i‖2). (2)
Depois de se calcular a através de (2), a determinação do parâmetro b é um simples exercício: dado que (ˉx,ˉy) pertence à reta procurada, ele terá de satisfazer a condição y=ax+b. Daqui se retira que b=ˉy−aˉx.
Exemplos de aplicação
Exemplo 1
Vejamos a aplicação destes resultados a um exercício típico de um manual escolar.
Existirá alguma relação entre a temperatura e a quantidade de chuva que cai em Amarante? Para responder a esta pergunta vamos comparar num gráfico de correlação as temperaturas médias (ºC) dos vários meses do ano com a pluviosidade média (mm).

Neste exemplo, a tabela da esquerda é dada e a da direita foi calculada por nós. O centróide da nuvem de pontos é (ˉx,ˉy)=(16.6417,64.9167). Os vetores →u e →i são as colunas da tabela da direita, depois de efetuada a translação da nuvem original: são vetores num espaço de dimensão 12.
De acordo com as conclusões da secção anterior, os parâmetros da equação da reta de regressão y=ax+b podem ser calculados do seguinte modo:
a=→u⋅→i‖→i2‖≈−1895.4583195.2692≈−9.7069,b=ˉy−aˉx≈64.9167+9.7069×16.6417≈226.4557.
Assim, y≈−9.7069x+226.4557 será a equação da reta de regressão e, com ela, podemos fazer estimativas no contexto do problema.

Note-se que o produto escalar de dois vectores de dimensão n não é mais do que a soma dos produtos das correspondentes componentes desses vectores (uma generalização do que se faz para n=2 ou n=3, na disciplina de Matemática A no Ensino Secundário), ou seja, se →a=(a1,a2,...,an) e →b=(b1,b2,...,bn),
→a⋅→b=a1×b1+a2×b2+⋯+an×bn=∑ni=1ai×bi
Também a norma de um vector de dimensão n é uma generalização da norma de vetores em 2 e 3 dimensões, isto é,
‖→a‖=√a21+a22+⋯+a2n=√∑ni=1a2i
assim, no presente exemplo, →u⋅→i corresponde a efectuar a soma dos produtos dos elementos correspondentes de cada linha da tabela da direita.
Exemplo 2
Neste exemplo, aplicaremos os conceitos anteriores à construção de um modelo linear do número de infetados pelo novo coronavírus em função do tempo decorrido no período de 8 a 31 de maio. Aqui, o centro de massa é dado pelas coordenadas do ponto (ˉx,ˉy)=(11.5,29648.583) e os vetores →i e →u habitam um espaço de dimensão 24 (colunas da tabela da direita).

O produto escalar é →u⋅→i≃261980 (soma dos produtos dos elementos de cada linha da tabela de baixo). O quadrado da norma do vetor →i (quadrância de →i) é ‖→i‖2=1150.

Assim, com a=2619801150≃227.809 e b=ˉy−aˉx≃11765.601, obtemos a equação da reta mostrada na figura acima.
O leitor pode criar uma lição no Geogebra Classroom com este exemplo, seguindo para https://www.geogebra.org/m/ncpffvne
Coeficiente de correlação linear
O coeficiente de correlação é uma medida que pretende determinar o grau de alinhamento dos dados. Sobre ele costumam ser colocadas duas questões:
- Por que razão varia no intervalo [−1,1]?
- Por que razão a correlação entre as variáveis é tanto mais forte quanto mais próximo de −1 ou de 1 se encontra o coeficiente? Não seria razoável pensarmos que quanto mais próximo de zero mais forte será a correlação, uma vez que ele mede o grau de proximidade dos dados em relação à reta?!
Repare-se que o coeficiente de correlação, sendo uma medida do alinhamento dos dados, deve estar relacionado com o “grau de colinearidade” entre os vetores →u e →i, referentes aos dados transladados (note que a correlação não depende da nuvem que se considera, uma vez que a operação de translação efetuada à nuvem inicial garante a manutenção das relações entre os dados observados e os teóricos). E uma forma natural de medir este “grau de colinearidade” é estudando o ângulo θ que \vec{u} e \vec{i} formam entre si (ver FIGURA 2). (Note que em tudo o que se segue se pode substituir a unidade grau por rad.). Assim, θ poderia ser usado com legitimidade como medida do grau de alinhamento dos dados, ou seja, como coeficiente de correlação. O diagrama da FIGURA 5 resume a variação deste coeficiente de correlação.

Visto que cosθ=→u⋅→i‖→u‖‖→i‖, θ pode ser obtido através de
θ=arcos(→u⋅→i‖→u‖‖→i‖). (3)
No exemplo 1 da secção anterior, o coeficiente de correlação θ é
θ=arcos(→u⋅→i‖→u‖‖→i‖)=arcos(−1895.4583143.7391×13.9739)=160.68∘ (forte Negativa?).
e no segundo exemplo, θ=arcos(2,619802,62579.265)=arcos(0.998)≃3.62∘ (Muito forte, positiva?).
No entanto, na literatura sobre o assunto, θ é convenientemente substituído pelo seu cosseno (porquê?), e assim se compreende a sua variação tal como encontramos nos manuais:
0∘≤θ≤180∘⇒−1≤cosθ≤1⇔−1≤→u⋅→i‖→u‖‖→i‖≤1.
Uma fórmula que normalmente acompanha os manuais para determinar o valor do coeficiente de correlação,r, é
r=∑ni=1xiyi−(∑ni=1xi)(∑ni=1yi)n√(∑ni=1x2i−(∑ni=1)2n)(∑ni=1y2i−(∑ni=1yi)2n) (4)
Sendo (4) equivalente a
r=∑ni=1(xi−ˉx)(yi−ˉy)√∑ni=1(xi−ˉx)2√∑ni=1(yi−ˉy)2
fica estabelecida a igualdade
r=→u⋅→i‖→u‖‖→i‖=cosθ
Apêndice
A interpretação geométrica que se explora neste texto tem como elemento essencial a translação da nuvem de pontos original para uma nuvem de pontos com centro de massa na origem do referencial. Esta operação faz com que os dados transladados cumpram
∑ni=1˜xi=0 e ∑ni=1˜yi=0.
Reescrevendo estas condições, ficamos com
∑ni=1˜xi=0⇔1טx1+1טx2+⋯+1טxn=0⇔→w⋅→i=0∑ni=1˜yi=0⇔1טy1+1טy2+⋯+1טyn=0⇔→w⋅→u=0
que, do ponto de vista geométrico, permitem afirmar que os vectores →i e →u (e, consequentemente, →j) são perpendiculares ao vector unitário w=(1,1,···,1). Assim, →i, →j e →u habitam o hiperplano de dimensão n−1, normal ao vector unitário \vec{w}. Este facto não altera a argumentação seguida pois no hiperplano de dimensão n−1 continuamos a querer reduzir ao mínimo a norma de →u−→j e a condição continua a ser a ortogonalidade deste vector a →j.
No caso em que a amostra observada é constituída apenas por dois pontos, →i, →j e →u são colineares e a correlação é perfeita, como seria de esperar. Para a situação em que n=3, pode manipular e descarregar a animação GeoGebra em https://www.geogebra. org/m/muxygsbz
Conclusão
Ao longo dos anos, o tema da regressão linear tem sido tratado nas nossas escolas, quase exclusivamente, como uma manipulação de fórmulas, à qual a tecnologia veio retirar algum desse desprazer salvando, por um lado, os alunos dos cálculos fastidiosos, mas atirando-os, por outro, para uma cegueira determinada pela calculadora gráfica. O que aqui se quis mostrar foi que essas abordagens tradicionais ao tema podem, com enormes vantagens, serem substituídas por uma abordagem geométrica sólida, coerente e palpável, em que a única novidade (mas não surpresa) reside na generalização de conceitos de geometria analítica a espaços de dimensão superior a três. Para além disso, abre também espaço à compreensão dos “bastidores” da calculadora gráfica, permitindo que os alunos olhem para ela como uma biblioteca de algoritmos que podem compreender e até criar.
[editar] Referências
Criada em 25 de Abril de 2020
Revista em 28 de Abril de 2020
Aceite pelo editor em 15 de Dezembro de 2020