Cando se realiza unha mostra, ás veces obsérvanse ou mídense simultáneamente dous aspectos diferentes nun mesmo individuo; exemplos destas situacións son o PESO e a ALTURA nun grupo de candidatos a un posto de traballo, as HORAS de estudio e NOTAS acadadas por un grupo de estudiantes, LARGO e ANCHO das pezas dun lote fabricado por certa máquina, etc. Falamos nestes casos de variables estatísticas bidimensionais. Imos chamar X a unha das variables e Y á outra, e representaremos os pares observados por (xi, yi), con i= 1, 2, ..., n, sendo n o número de individuos na mostra.
Xa coñeces algúns parámetros estatísticos, como a media e a desviación típica. A primeira reduce toda a mostra a un só valor representativo e a segunda mide o espallamento ou dispersión dos datos arredor da media. Así temos para X


Fíxate agora nas seguintes situacións:
| Exemplo 1 | Exemplo 2 | Exemplo 3 |
|---|---|---|
| A nove rapaces lles preguntan a súa idade e
a hora á que marchan para cama, dando os seguintes resultados: (5,8), (7,9), (7,8.5), (8,9), (9,9), (11,9), (11,10), (12,10.5), (12,10) |
A outros dez alumnos se lles mide a súa
estatura e a nota de Matemáticas: (166,3), (167,9), (168,6), (173,4), (173,7.5), (177,6), (178,3), (180,8), (182,4), (183, 6) |
A dez persoas se lles pregunta polo número
de horas que adican semanalmente a practicar algún deporte e o número
de pulsacións por minuto: (0,66), (0,68), (0,73), (1,72), (1,65), (3,60), (3,66), (4,58), (5,57), (7,54) |
| O estudio destes tres casos no é doado observando sen máis os pares de datos rexistrados. Unha mellora no procedemento de inspección consiste en representar no plano cartesiano os pares (xi, yi), no que se chaman gráficos de dispersión: | ||
![]() |
![]() |
![]() |
| A inspección visual dos gráficos anteriores permite chegar ás seguintes conclusións: | ||
| Canto máis pequena sexa a idade do rapaz, semella que os pais mándanos máis cedo para a cama. Según se van facendo maiores, a hora de retirada vaise facendo máis tarde. Fíxate na forma que vai tomando a nube de puntos: é alongada con tendencia ascendente. | Cando se vos prantexa este problema ós alumnos na clase, moitos xa ides facendo comentarios, ¿que ten que ver unha cousa coa outra? Efectivamente, nada. Iso compróbase doadamente sen máis que botarlle unha ollada ó gráfico. ¿Vese alguha tendencia na nube de puntos? ¿Que forma ten? | As conclusións son claras: canto máis se practique un deporte, menor é o número de pulsacións. A nube, como era de esperar, de forma alongada e de orientación descendente. |
Diferentes persoas poden apreciar de maneira distinta a anchura das nubes de puntos e se realmente existe algunha dependencia entre as variables X, que de aquí en adiante chamaremos explicativa, e Y, que podemos chamar resposta. Para evitar subxectividades, cómpre dispoñer dalgunha medida para a dependencia; defínese o coeficiente de correlación como
,Cando o valor absoluto do coeficiente de correlación está preto da unidade, isto é, cando a nube de puntos ten unha forma alongada e moi estreita, como nos exemplos 1 e 3 de máis arriba, prantéxase a posibilidade de atopar unha recta no plano, da forma y = a x + b, que represente de xeito aproximado a dependencia liñal da variable resposta Y cando se coñece o valor da variable explicativa X. A recta de regresión por mínimos cuadrados fai precisamente iso.
O criterio para a obtención dos coeficientes a e b consiste en atopar que valores hai que darlles a estes dous parámetros para que o erro cuadrático

.
,O programa escrito en linguaxe Java permíteche facer todos estes cálculos sen máis que introducir os pares ordenados da mostra. Vai introduciendo os datos dos exemplos e observa especialmente os valores que acadan os coeficientes de correlación. ¿Ten sempre sentido calcular a recta de regresión?
Como exercicio adicional, introduce unha mostra ficticia de tamaño 15 que dea como resultado un coeficiente de correlación de r = 0.05. Fai o mesmo para r = 0.96 e r = -0.98. ¿Que formas teñen as nubes de puntos?