A Geometria da Regressão Linear

Da WikiCiências
Share/Save/Bookmark
Ir para: navegação, pesquisa

Referência : Gomes, C., (2020) A Geometria da Regressão Linear, Rev. Ciência Elem., V8(4):054
Autor: Carlos Gomes
Editor: José Ferreira Gomes
DOI: [https://doi.org/10.24927/rce2020.054]
PDF Download



[editar] Resumo

A regressão linear é um tema normalmente explorado (nas escolas) com recurso a uma calculadora científica gráfica ou software da moda (GeoGebra ou Desmos, por exemplo), ficando os estudantes com a tarefa aborrecida de introduzir números em listas e obter como recompensa uma equação que utilizam para fazer previsões num dado contexto. O que aqui se trata é de mostrar o grande valor didático deste problema, mobilizando conhecimentos que os alunos detêm para aclarar, do ponto de vista geométrico, o que está em causa em todo este processo que decorre nos “bastidores” da tecnologia.


A geometria do problema

O problema que consiste na determinação da reta que melhor se ajusta a uma dada nuvem de n pontos (xi,yi) é tradicionalmente tratado como o problema de encontrar os parâmetros a e b da equação y=ax+b que minimizam a soma S=ni=1d2i, em que os di são as diferenças entre os valores observados e os valores do modelo, isto é, di=yiaxb.

Sejam (x1,y1), (x2,y2),..., (xn,yn) os dados observados (nuvem de pontos na FIGURA 1). Para a determinação do parâmetro a (declive da reta), seria “simpático” que a nuvem tivesse o seu centro de massa na origem do referencial, isto é, no ponto de coordenadas (0; 0). Isto porque libertar-nos-íamos do parâmetro b da equação da reta, o que parece reduzir a dificuldade do problema, pois, nesta condições, o modelo associado à reta de regressão seria y=ax. Para fazer com que o centro de massa da nuvem se desloque para a origem, é suficiente efetuarmos uma translação de toda a nuvem de pontos segundo o vetor (ˉx,ˉy), ou seja, basta subtrairmos o centro de massa (ˉx,ˉy) a todos os pontos da nuvem. Obtém-se assim uma nova nuvem de pontos da forma (xiˉx,yiˉy) cujo centro de massa é (0; 0).

Fazendo xiˉx=˜xi e yiˉy=˜yi, a nuvem sobre a qual o trabalho prossegue será (˜xi,˜yi), com i=1,2,...,n, cuja reta de regressão tem o mesmo declive que a reta de regressão da nuvem original, em consequência da translação efetuada.


FIGURA 1. Translação da nuvem de pontos.

A nova nuvem é constituída por pontos da forma (˜xi,˜yi) e os pontos da forma (˜xi,a˜xi),i=1,2,...,n, são os pontos sobre a reta ˜y=a˜x, que coincidiriam com os primeiros caso a correlação fosse perfeita. Os n vetores ui=(˜xi,a˜xi) determinados por estes pontos são colineares. Mas aqui, uma mudança de dimensão vai tornar o trabalho mais simples: em vez de considerarmos estes n vetores de dimensão 2, utilizamos os dados organizados em vetores de dimensão n:


i=(˜x1,˜x2,...,˜xn),

j=(a˜x1,a˜x2,...,a˜xn),

e

u=(˜y1,˜y2,...,˜yn).

Os vetores i e j são colineares:


j=(a˜x1,a˜x2,...,a˜xn)

=a(˜x1˜x2,...,˜xn) (1)

=ai.


Para além do mais, o escalar a em (1) é precisamente o declive da reta procurada! Assim, determinar a será equivalente a determinar (algo sobre) =j, agora num espaço de dimensão n, (veja-se o apêndice da versão eletrónica para clarificação deste ponto).


FIGURA 2. Vetores num espaço de dimensão n.

Repare-se que uj=(˜y1a˜x1,...,˜yna˜xn) não é mais do que o vetor dos resíduos, isto é, o vetor cujas componentes são as diferenças entre os dados observados e os dados teóricos da nova nuvem. Ora, o que se pretende é que a norma (ou distância) uj seja mínima. Isto só acontecerá se uj for normal a u (como sugere a FIGURA 2). Para que tal aconteça, j tem de ser a projeção de u sobre i. Logo, o produto escalar de uj com i tem de ser nulo, retirando-se desta condição o valor do multiplicador a, declive da reta de regressão:


(uj)i=0(uai)i=0(j=ai,de(1))uiai=0a=uii(ii=i2). (2)


Depois de se calcular a através de (2), a determinação do parâmetro b é um simples exercício: dado que (ˉx,ˉy) pertence à reta procurada, ele terá de satisfazer a condição y=ax+b. Daqui se retira que b=ˉyaˉx.


Exemplos de aplicação

Exemplo 1

Vejamos a aplicação destes resultados a um exercício típico de um manual escolar.

Existirá alguma relação entre a temperatura e a quantidade de chuva que cai em Amarante? Para responder a esta pergunta vamos comparar num gráfico de correlação as temperaturas médias (ºC) dos vários meses do ano com a pluviosidade média (mm).


TABELA 1. Valores de temperatura e pluviosidade; à esquerda, dados originais, à direira dados transladados.

Neste exemplo, a tabela da esquerda é dada e a da direita foi calculada por nós. O centróide da nuvem de pontos é (ˉx,ˉy)=(16.6417,64.9167). Os vetores u e i são as colunas da tabela da direita, depois de efetuada a translação da nuvem original: são vetores num espaço de dimensão 12.

De acordo com as conclusões da secção anterior, os parâmetros da equação da reta de regressão y=ax+b podem ser calculados do seguinte modo:


a=uii21895.4583195.26929.7069,b=ˉyaˉx64.9167+9.7069×16.6417226.4557.


Assim, y9.7069x+226.4557 será a equação da reta de regressão e, com ela, podemos fazer estimativas no contexto do problema.


FIGURA 3. Retas de ajuste a dados de temperatura e pluviosidade.

Note-se que o produto escalar de dois vectores de dimensão n não é mais do que a soma dos produtos das correspondentes componentes desses vectores (uma generalização do que se faz para n=2 ou n=3, na disciplina de Matemática A no Ensino Secundário), ou seja, se a=(a1,a2,...,an) e b=(b1,b2,...,bn),


ab=a1×b1+a2×b2++an×bn=ni=1ai×bi


Também a norma de um vector de dimensão n é uma generalização da norma de vetores em 2 e 3 dimensões, isto é,


a=a21+a22++a2n=ni=1a2i


assim, no presente exemplo, ui corresponde a efectuar a soma dos produtos dos elementos correspondentes de cada linha da tabela da direita.


Exemplo 2

Neste exemplo, aplicaremos os conceitos anteriores à construção de um modelo linear do número de infetados pelo novo coronavírus em função do tempo decorrido no período de 8 a 31 de maio. Aqui, o centro de massa é dado pelas coordenadas do ponto (ˉx,ˉy)=(11.5,29648.583) e os vetores i e u habitam um espaço de dimensão 24 (colunas da tabela da direita).


TABELA 2. Total de infectados em função dos dias; à esquerda dados originais; à direita dados transladados.

O produto escalar é ui261980 (soma dos produtos dos elementos de cada linha da tabela de baixo). O quadrado da norma do vetor i (quadrância de i) é i2=1150.


FIGURA 4. Análise de dados de infetados com modelo linear.

Assim, com a=2619801150227.809 e b=ˉyaˉx11765.601, obtemos a equação da reta mostrada na figura acima.

O leitor pode criar uma lição no Geogebra Classroom com este exemplo, seguindo para https://www.geogebra.org/m/ncpffvne


Coeficiente de correlação linear

O coeficiente de correlação é uma medida que pretende determinar o grau de alinhamento dos dados. Sobre ele costumam ser colocadas duas questões:

- Por que razão varia no intervalo [1,1]?

- Por que razão a correlação entre as variáveis é tanto mais forte quanto mais próximo de 1 ou de 1 se encontra o coeficiente? Não seria razoável pensarmos que quanto mais próximo de zero mais forte será a correlação, uma vez que ele mede o grau de proximidade dos dados em relação à reta?!

Repare-se que o coeficiente de correlação, sendo uma medida do alinhamento dos dados, deve estar relacionado com o “grau de colinearidade” entre os vetores u e i, referentes aos dados transladados (note que a correlação não depende da nuvem que se considera, uma vez que a operação de translação efetuada à nuvem inicial garante a manutenção das relações entre os dados observados e os teóricos). E uma forma natural de medir este “grau de colinearidade” é estudando o ângulo θ que \vec{u} e \vec{i} formam entre si (ver FIGURA 2). (Note que em tudo o que se segue se pode substituir a unidade grau por rad.). Assim, θ poderia ser usado com legitimidade como medida do grau de alinhamento dos dados, ou seja, como coeficiente de correlação. O diagrama da FIGURA 5 resume a variação deste coeficiente de correlação.


FIGURA 5. Coeficiente de correlação θ.

Visto que cosθ=uiui, θ pode ser obtido através de


θ=arcos(uiui). (3)


No exemplo 1 da secção anterior, o coeficiente de correlação θ é

θ=arcos(uiui)=arcos(1895.4583143.7391×13.9739)=160.68 (forte Negativa?).

e no segundo exemplo, θ=arcos(2,619802,62579.265)=arcos(0.998)3.62 (Muito forte, positiva?).

No entanto, na literatura sobre o assunto, θ é convenientemente substituído pelo seu cosseno (porquê?), e assim se compreende a sua variação tal como encontramos nos manuais:


0θ1801cosθ11uiui1.


Uma fórmula que normalmente acompanha os manuais para determinar o valor do coeficiente de correlação,r, é


r=ni=1xiyi(ni=1xi)(ni=1yi)n(ni=1x2i(ni=1)2n)(ni=1y2i(ni=1yi)2n) (4)


Sendo (4) equivalente a


r=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2ni=1(yiˉy)2


fica estabelecida a igualdade


r=uiui=cosθ



Apêndice

A interpretação geométrica que se explora neste texto tem como elemento essencial a translação da nuvem de pontos original para uma nuvem de pontos com centro de massa na origem do referencial. Esta operação faz com que os dados transladados cumpram


ni=1˜xi=0 e ni=1˜yi=0.


Reescrevendo estas condições, ficamos com


ni=1˜xi=01טx1+1טx2++1טxn=0wi=0ni=1˜yi=01טy1+1טy2++1טyn=0wu=0


que, do ponto de vista geométrico, permitem afirmar que os vectores i e u (e, consequentemente, j) são perpendiculares ao vector unitário w=(1,1,···,1). Assim, i, j e u habitam o hiperplano de dimensão n1, normal ao vector unitário \vec{w}. Este facto não altera a argumentação seguida pois no hiperplano de dimensão n1 continuamos a querer reduzir ao mínimo a norma de uj e a condição continua a ser a ortogonalidade deste vector a j.

No caso em que a amostra observada é constituída apenas por dois pontos, i, j e u são colineares e a correlação é perfeita, como seria de esperar. Para a situação em que n=3, pode manipular e descarregar a animação GeoGebra em https://www.geogebra. org/m/muxygsbz


Conclusão

Ao longo dos anos, o tema da regressão linear tem sido tratado nas nossas escolas, quase exclusivamente, como uma manipulação de fórmulas, à qual a tecnologia veio retirar algum desse desprazer salvando, por um lado, os alunos dos cálculos fastidiosos, mas atirando-os, por outro, para uma cegueira determinada pela calculadora gráfica. O que aqui se quis mostrar foi que essas abordagens tradicionais ao tema podem, com enormes vantagens, serem substituídas por uma abordagem geométrica sólida, coerente e palpável, em que a única novidade (mas não surpresa) reside na generalização de conceitos de geometria analítica a espaços de dimensão superior a três. Para além disso, abre também espaço à compreensão dos “bastidores” da calculadora gráfica, permitindo que os alunos olhem para ela como uma biblioteca de algoritmos que podem compreender e até criar.

[editar] Referências



Criada em 25 de Abril de 2020
Revista em 28 de Abril de 2020
Aceite pelo editor em 15 de Dezembro de 2020