Correlació i regressió

Tot seguit us proposem fer una anàlisi estadística bivariant a partir d'un conjunt de dades. Aquesta anàlisi es concreta en l'estudi de la correlació lineal i en l'aplicació d'un model de regressió adequat que ens permeti fer determinades prediccions. En aquesta pràctica veureu uns exemples que il·lustraran les diferents possibilitats del GeoGebra en aquest camp de l'Estadística.

Una eina per a la regressió lineal

Comencem per la part més senzilla. El GeoGebra incorpora una eina que resulta molt fàcil d'utilitzar si el que es vol és trobar directament la recta de regressió d'un núvol de punts entrats directament amb el ratolí. El resultat pot ser semblant a:



Voleu descarregar-vos aquesta construcció?


Desplaceu qualsevol dels punts i observeu com va variant la recta de regressió. La construcció és molt fàcil:

  • Feu que no surti cap etiqueta.
  • Entreu uns quants punts a la zona gràfica de la manera habitual.
  • Seleccioneu l'eina Recta de regressió.
  • Amb el botó esquerra del ratolí premut, seleccioneu els punts traçant un rectangle de selecció com es veu a la figura.


Recta de regressió d'un núvol de punts entrats directament


  • Deixeu anar el botó i ja apareixerà la recta de regressió.
  • Accediu a la seva expressió, que trobareu a la finestra algebraica, i, amb el botó dret del ratolí, trieu l'opció Equació y = ax + b.

Tot seguit podeu entrar el text variable que es veu i els altres detalls estètics. Com podeu veure, el procediment és molt senzill.

El full de càlcul i l'assistent per anàlisi de la regressió bivariant

En aquest exemple anterior no heu calculat el coeficient de correlació lineal ni cap altre paràmetre estadístic. Ara veureu com el full de càlcul ens pot anar bé per aprofundir més en l'anàlisi. De fet, ens deixarem ajudar per l'assistent que incorpora el full de càlcul i en veurem una senzilla aplicació.

La finestra inferior us mostra un applet pujat al GeoGebraTube (el teniu disponible a l'adreça http://www.geogebratube.org/student/m30326)


Voleu descarregar-vos aquesta construcció?

Podem suposar que es tracta d'un grup de 14 alumnes que han passat un examen i uns mesos després tornen a passar una prova similar. Volem estudiar la relació que hi ha entre les dues proves i si podem assegurar si els resultats són millors o no. La imatge següent descriu els passos que heu de seguir per tal que l'assistent us ajudi a mostrar en pantalla el núvol de punts, la recta de regressió, els corresponents paràmetres estadístics i una finestreta per fer prediccions.

Seguiu els passos amb cura: Passos a seguir amb l'assistent

El full de càlcul i l'anàlisi de la regressió bivariant amb comandaments

A continuació us deixem una altra finestra activa teniu el núvol de punts dibuixat a partir de les notes obtingudes en els dos exàmens.



Voleu descarregar-vos aquesta construcció?


Situats a la segona finestra gràfica, si activeu la casella de verificació Paràmetres, veureu les mitjanes i desviacions estàndard de cada variable, el coeficient de correlació lineal r i l'expressió de la recta de regressió.

Si activeu la casella de verificació Eixos punt mitjà, apareix el punt mitjà del núvol de punts, és a dir, el punt que té per coordenades les mitjanes de cada variable, i uns eixos que tenen per origen aquest punt mitjà. Aquests eixos van molt bé per analitzar el signe del coeficient de correlació lineal en funció dels punts del núvol que queden en cada quadrant i la seva llunyania del punt mitjà.

Si activeu, ara, la casella de verificació Recta, teniu a la vista la recta de regressió. Observeu que passa pel punt mitjà i que, en aquest cas, és creixent. També apareix una nova casella de verificació anomenada Prediccions.

Si teniu activades les caselles Recta i Prediccions, podeu analitzar, seguint el model de la recta regressió calculada, quina nota hauríem d'esperar en la segona prova per a cada nota de la primera. Així, desplaceu el punt que està situat a l'eix horitzontal i que només es podrà moure a l'interval [0,10], i observeu la seva imatge a l'eix vertical. Cal tenir present que les prediccions només tenen sentit si volem inferir els resultats obtinguts d'una mostra cap al conjunt de la població. Per tant, hem d'imaginar que aquests/es alumnes han estat escollits/des a l'atzar d'un col·lectiu més gran i que, per tant, la recta de regressió serveix com a model per predir quina segona nota podem esperar d'un/a alumne/a qualsevol d'aquest col·lectiu, a partir de la seva primera nota.

Amb aquesta construcció, l'alumnat pot observar i manipular els seus elements per treure conclusions interessants. Us avancem algunes preguntes que es podrien fer:

  • Quin dels exàmens ha anat millor? Quins paràmetres t'ho indiquen?
  • Quin tipus de correlació lineal s'observa amb aquestes dades?
  • Desplaceu un sol punt per aconseguir que el coeficient de correlació lineal sigui molt petit. Quin tipus de correlació lineal tenim ara amb aquest canvi?
  • Desplaceu un altre punt per aconseguir una correlació lineal inversa. Valoreu la importància de la posició de pocs punts en determinats quadrants dels eixos del punt mitjà.
  • Torneu a la situació inicial i activeu Rectes i Prediccions. Quines notes es podrien esperar a la segona prova per a notes molt baixes de la primera si seguim el model d'aquest recta de regressió? I si la nota de la primera prova és molt alta? Comenta el que observes. Creus que aquest efecte el pots trobar en altres situacions?

Com s'ha fet aquesta construcció? Seguiu les indicacions següents per arribar-hi.

  • Entreu les dades de les columnes A i B. Són les notes obtingudes a cadascuna de les proves.



  • Feu que no surtin les etiquetes de cap objecte.
  • Entreu a la cel·la C2 l'expressió (A2,B2) i copieu-la, arrossegant el petit quadrat blau columna avall fins a arribar a la cel·la C15. A la zona gràfica ja ha aparegut el núvol de punts.
  • Seleccioneu el rang C2:C15 i, amb el botó dret, trieu l'opció Crea llista. S'haurà creat una llista de punts anomenada L1.

A partir d'aquest núvol de punts i d'aquesta llista, podeu trobar:

  • La recta de regressió. Trieu l'eina Recta de regressió i seleccioneu el núvol de punts com en l'apartat anterior.
  • El coeficient de correlació lineal amb el comandament r=CoefCorrel[L_1].
  • Les mitjanes de cada variable amb xx=Mitjana[A2:A15] i yy=Mitjana[B2:B15].1)
  • Les desviacions estàndard de cada variable amb dx=DesviacióEstàndard[A2:A15] i dy=DesviacióEstàndard[B2:B15].
  • El punt mitjà de la distribució de dades amb PM=(xx,yy).
  • Els eixos del punt mitjà dibuixant rectes perpendiculars als eixos de coordenades que passin per PM.

A continuació, creeu els elements per fer les prediccions i situeu-los a la segona finestra gràfica.

  • Creeu un segment que vagi del punt (0,0) fins al punt (10,0).
  • Creeu un punt que estigui situat sobre el segment anterior. D'aquesta manera no podrà sortir de l'interval [0,10], que és el rang de les notes possibles.
  • Ara cal fer les perpendiculars (o paral·leles) als eixos, les interseccions i els segments fins arribar a visualitzar la imatge del punt inicial.

Ara només queda entrar els textos i definir correctament les caselles de verificació. Recordeu que la casella Prediccions només s'ha de veure si està activada la casella Recta. Per això, haureu d'entrar el nom de la variable booleana de Rectes com a condició per mostrar-la, procediment que ja heu fet servir en altres pràctiques.

Acabeu amb els detalls estètics i guardeu la feina.


Subpoblacions i correlació lineal (*)

En aquest apartat d'ampliació veureu com podeu estudiar la correlació lineal de determinades subpoblacions que poden trobar-se dins d'una població més gran. Aquí en teniu un exemple, basat en les dades que teniu al fitxer de text.



Voleu descarregar-vos aquesta construcció?


Per poder veure la construcció en el context del GeoGebraTube i en una única finestra i veure millor els detalls, feu clic a http://www.geogebratube.org/student/m30354.

Observeu que segons quina sigui la casella activa veureu un núvol de punts diferent amb un coeficient de correlació lineal i una recta de regressió propis. Aprofiteu aquesta acció per recollir les dades que trobareu al full de càlcul.

Per a la construcció, heu de tenir en compte el següent:

  • Volem crear una llista de punts. Situeu-vos a la casella C2, i hi podeu escriure D2=(B2,C2).
  • Copie la fórmula fins a la casella D36. Ja teniu els punts corresponents a les alçades i pes dels homes. Tot seguit crearem una llista.
  • Heu de seleccionar el rang C2:C36, i amb el botó dret trieu l'opció Crea llista. Aquesta ja és llista de punts. Serà la llista anomenada llista1. Apliqueu el color vermell a aquesta llista de punts.
  • Feu el mateix amb les altures i els pesos de les dones. Haureu generat la llista2 i serà de color blau.
  • Per a cadascuna d'aquestes dues llistes farem el càlcul del coeficient de correlació i calcularem la recta de regressió lineal.
  • Usarem els comandaments CoefCorrel[<llista>] i RegLinealY[<llista>]
  • Calculeu doncs els coeficients de correlació lineal i la recta de regressió per a cada llista.
  • Tot seguit executeu el comandament Concatena[{llista1, llista2}]. D'aquesta manera es generarà la llista3 com a juxtaposició (que no pas unió!) de les dues llistes anteriors.
  • Doneu els colors indicats per identificar millor els diferents núvols de punts.
  • Per aquesta nova llista repetiu el càlcul del coeficient de correlació i de la recta de regressió lineal.
  • Els textos explicatius han d'estar situats al mateix lloc i han d'associar-se a cada casella de verificació.

Estem segurs que no tindreu cap dificultat per fer la construcció. Ja sabeu que també us podeu descarregar la construcció i analitzar-la a fons.






Per últim us volem enllaçar una proposta didàctica per treballar amb l'alumnat els conceptes de Correlació i regressió lineals.

Visiteu aquesta pàgina d'en Pep Bujosa:
http://www.xtec.cat/~jbujosa/GeoGebra/estadistica/CorrelaRegre.htm


Estem convençuts que hi veieu un gran potencial didàctic pel vostre alumnat. Mans a la feina!

1) Vegeu que, com ja s'ha comentat en la pràctica anterior, podem aplicar directament els comandaments estadístics a un rang adequat del full de càlcul que, en aquest sentit, és equivalent a una llista. També hauríem pogut fer r=CoefCorrel[C2:C15], però per altres aspectes pot ser millor tenir la llista de punts definida.