Estadística amb una variable

En aquesta pràctica veureu com es pot fer un estudi estadístic senzill d'unes dades introduïdes en el full de càlcul.

Es treballaran les dades amb dos tractaments diferents i, d'acord amb això, es faran els gràfics adequats.

  • Per a variables discretes es veuran els diagrames de barres i el diagrama de caixa; s'acompanyarà d'un estudi dels principals paràmetres estadístics.
  • Per a variables contínues, les quals convé agrupar en classes per fer-ne l'estudi, es presentaran els histogrames.

Diagrama de barres comparat amb el diagrama de caixa

Començarem per l'estadística descriptiva d'un conjunt de dades corresponent a una variable discreta.
Imaginem, per exemple que estudiem les Notes d'un grup de 26 alumnes.

  • Representarem les dades fent servir el diagrama de barres.
  • Calcularem la mitjana i la desviació estàndard.
  • Calcularem també la mediana i, en el context d'un diagrama de caixa, s'acompanyarà dels quartils.

El resultat pot ser similar al de la finestra activa següent. Feu proves, activant i desactivant les caselles de verificació, i canviant notes. 1)



Voleu descarregar-vos aquesta construcció?


Per fer aquesta construcció, usarem el full de càlcul, la finestra gràfica, la finestra algebraica i com no: un assistent que incorpora el full de càlcul del GeoGebra, per a l'Anàlisi de dades.

  • Entreu en una columna del full de càlcul les dades que voleu estudiar.
  • En aquest cas a la casella A1 hi hem entrat el text Notes.
  • I en el rang de caselles A2 fins a A27 les notes del grup de 26 alumnes.
  • Proveu d'importar el fitxer de dades següent Fitxer amb les dades

    importar fitxer de dades

  • O bé obriu el fitxer de text i useu les accions de copiar i després enganxar al full de càlcul.
  • Ara situats de nou al full de càlcul, seleccioneu totes les dades numèriques que heu entrat i, amb el botó dret del ratolí, trieu l'opció Crea llista.

A la finestra algebraica s'haurà creat la llista llista1 que conté totes les dades. A partir d'aquesta llista es poden calcular els paràmetres estadístics i es poden dibuixar els diagrames de barres i de caixa que veieu a la finestra activa. Us proposem que canvieu el nom de llista1 per Notes, així el text predictiu no us farà embolics…
Tot seguit caldrà que entreu, a la línia d'entrada de comandaments, les expressions següents.

Per als paràmetres:

  • xx= Mitjana[Notes] o bé xx= Mitjana[llista1] si no heu volgut canviar el nom 2)
  • me=Mediana[Notes]
  • de=DesviacióEstàndard[Notes]

(Evidentment, els noms xx, me i de són arbitraris.)

Ara creareu uns punts que ens serviran de suport per tal de fer visibles uns paràmetres ben concrets. Ho farem amb vectors que uneixen aquests punts (us aconsellem que oculteu els punts i només deixeu visibles els vectors):

  • PX=(xx,1.5) un punt que ens servirà per ressaltar dades amb un vector vermell, i que situem a l'abscissa corresponent a la mitjana i amb ordenada de valor 1.5.
  • PX0=(xx,0) que és com el punt anterior però situat sobre l'eix d'abscisses

Tot seguit caldrà crear el vector que podreu pintar de color vermell:

  • vector[PX,PX0]

Farem el mateix per ressaltar els punts corresponents a la Mediana, a la Mitjana si li sumem la desviació estàndard i el punt corresponent al valor de la Mitjana en restar-li la desviació estàndard

Veureu que també es poden crear, al vostre gust, els rètols.

Us ho mostrem una captura de pantalla amb els passos de la construcció.

passos de la construcció

Ja podem passar als comandaments i al procediment per a crear els gràfics. La sintaxi que cal usar per als dos diagrames és:

  • DiagramaDeBarres[ <Llista de Dades>, <Llista de Freqüències> ], però també podeu usar DiagramaDeBarres[ <Llista de Dades>, <Llista de Freqüències>, <Amplada de les Barres> ] o bé la que usarem tot seguit: DiagramaDeBarres[ <Llista de Totes les Dades>, <Amplada de les Classes> ] (en realitat hauria de dir <Amplada de les Barres>)
  • Per al segon, usarem: DiagramaDeCaixa[ <Posició Vertical>, <Alçada Caixa>, <Llista de Totes les Dades> ]

Així doncs,

  • DiagramaDeBarres[Notes,0.5] dibuixarà un diagrama de barres amb les dades de la llista Notes, de manera que l'amplada de cada barra serà igual a 0.5. 3)
  • DiagramaDeCaixa[-1,0.5,Notes]. En aquest cas, dibuixarà un diagrama de caixa centrat al nivell y = -1 i amb una altura igual a 0.5.4)

És convenient que feu diferents canvis als paràmetres d'aquests comandaments per entendre'n millor el funcionament.
Podeu donar un cop d'ull al següent vídeo Diagrames de Barres i de Caixa amb GeoGebra 4.2 i consulteu l'Ajuda.

http://wiki.geogebra.org/en/Manual:BarChart_Command

http://wiki.geogebra.org/en/BoxPlot_Command

A continuació, entreu els elements necessaris per dibuixar els altres complements, les caselles de verificació i els detalls estètics.

Aclariments:

  • Tots aquests comandaments estadístics que heu fet servir escrivint la llista Notes com a argument, també funcionen sense necessitat d'utilitzar la notació de llista. Per exemple, si entreu Mitjana[A2:A27], es calcularà la mitjana de les dades situades entre la cel·la A2 i la A27, ambdues incloses. Ho podeu comprovar amb els altres comandaments. Per tant, és equivalent treballar amb llistes que amb rangs del full de càlcul!
  • Amb el GeoGebra es poden calcular els quartils d'un conjunt de dades, ho podeu fer amb els comandaments Quartil1[ ] i Quartil3[ ] aplicats a llistes de dades. Heu de saber que el mètode que utilitza el GeoGebra per a calular-los és el mètode Moore & McCabe (2002) http://mathworld.wolfram.com/Quartile.html
Q1 Q1 Q3 Q3
n senar n parell n senar n parell
(n+1)/4 (n+2)/4 (3n+3)/4 (3n+2)/4
  • Per defecte, el GeoGebra dibuixa els bigotis prenent el valors mínim i màxim de les dades, però si volem que els dibuixi fent servir outliers (valors anòmals), llavors cal fer servir el comandament DiagramaDeCaixa[-1,0.5,Notes,true] 5)


Fixeu-vos en la necessitat de fer servir valors anòmals en els nostres estudis, en l'exemple, ens han aparegut dues notes (-1 i 11) que no són "normals" de manera que no haurien de formar part del nostre estudi. Altres exemples els podem trobar quan en demanar una alçada en metres, trobem una dada igual a 170, això clarament és un error i caldria no tenir-lo en compte per l'estudi.

Aprofundim en els Diagrames de Caixa. Per practicar una mica i per saber-ne mes

Tot seguit us deixem alguns enllaços.

Els quatre primers són applets de GeoGebra penjats al GeoGebraTube amb un enfocament didàctic que ens sembla molt encertat:





Histogrames

Per representar unes dades numèriques en forma d'histograma, el GeoGebra compta amb un comandament específic que és Histograma.

El podem usar de dues maneres segons la sintaxi que més ens convingui:

  • Histograma[ <Llista dels límits de classe>, <Llista d'altures> ]: en aquest cas, especifiquem directament les altures de les barres, és a dir, la freqüència absoluta.
  • Histograma[ <Llista dels límits de classe>, <Llista de totes les dades> ]. en aquest cas, especifiquem els intervals de classe i la llista de dades en brut.

GeoGebra, per defecte, quan li especifiquem les dades en brut, representa les dades fent que la freqüència absoluta equival a l'àrea del rectangle i no pas a l'altura d'aquest6)

Ara bé, si el que volem és que el GeoGebra representi les altures de les barres amb la freqüència absoluta, independentment de l'amplada del les classes, llavors farem servir la comanda:

  • Histograma[ <Llista dels límits de classe>, <Llista de totes les dades>,false]

Veiem-ho més bé en aquest exemple inspirat en un vídeo enregistrat per la professora Linda Fahlberg-Stojanovska per al GeoGebra Channel.

Suposem que en un aparcament, durant un període de 2 hores i 30 minuts s'ha recollit la taula amb les següents dades:

Estada a l'aparcament (minuts) Freqüències
(0,15) 5
(15,30) 10
(30,45) 15
(45,60) 18
(60,75) 29
(75,90) 30
(90,105) 22
(105,120) 17
(120,135) 9
(135,150) 9

Volem fer-ne l'histograma amb el GeoGebra i obtenir una construcció com la següent:


Voleu descarregar-vos les dades per a fer aquesta construcció?


El punt clau d'aquesta construcció rau en ser conscients que el comandament Histograma[ <Llista dels límits de classe>, <Llista d'altures> ] ha de tenir uns arguments ben concrets.

  • El primer argument ha de ser una llista amb els límits de les classes,
  • i la segona llista ha de ser el recompte de freqüències en cada classe.

Llista de les classes

  • Creem una llista amb els valors dels extrems de la dreta dels agrupaments. Anomenem-la llista1. Aquests llista té longitud: 10
  • Tot seguit, creem la llista amb els valors de les Freqüències, serà la llista2 també de longitud 10.
  • I aquest és el punt clau: per poder utilitzar el comandament Histograma cal que la llista amb de classes tingui un element més que la llista de freqüències. Ens cal una llista de longitud 11.
  • Per aconseguir-ho podem fer doble-clic a la llista o bé accedir a les seves propietats i afegir un element:

Afegim un element a la llista

  • Queda clar que afegirem l'extrem inferior de la primera classe, "un 0 a l'esquerra" …
  • Ara ja només aplicar el comandament Histograma[llista1,llista2].






Més exemples Tot seguit volem insistir en el fet que hem comentat que el GeoGebra, per defecte, representa el nombre de dades per a cada classe (la freqüència absoluta) no amb l'altura de cada rectangle, sinó amb la seva àrea.

Proveu d'escriure el comandament Histograma[{0,1,2,3,4,5},{2,6,8,3,1}] al GeoGebra.

  • Fixeu-vos que apliquem el comandament a una primera llista {0,1,2,3,4,5} de longitud 6, per tant el gràfic tindrà 5 barres.
  • El segon paràmetre és la llista {2,6,8,3,1} de longitud 5.
  • El GeoGebra ens mostra un histograma amb l'etiqueta a=20 que correspon a l'àrea 6·5 = 20

 Histograma amb paràmetres llista 0,1,2,3,4,5 i llista 2,6,8,3,1

Ara ens convé comparar amb el comandament Histograma[ ] aplicat a la llista de 4 classes: {10,20,30,40} amb les dades en brut: {10,11,11,12,18,20,25,40}] i que es correspondria amb la taula:

Classes) Freqüències
[10,20) 5
[20,30) 2
[30,40) 1

Entreu a la línia de comandaments: Histograma[{10,20,30,40},{10,11,11,12,18,20,25,40}] que tindrà 3 columnes i quines alçades?

 Histograma amb paràmetres llista 10,20,30,40 i llista 10,11,11,12,18,20,25,40

Comparem l'anterior resultat amb Histograma[{10,20,30,40},{10,11,11,12,18,20,25,40},false]

 Histograma amb paràmetres llista 0,1,2,3,4,5 i llista 2,6,8,3,1 i un darrer paràmetre false
Tot seguit vegeu el següent applet, en ell us mostrem el funcionament per defecte del comandament Histograma[ ] i el funcionament amb el paràmetre false.Exploreu:

Voleu descarregar-vos aquesta construcció?



1) Malauradament, no podeu afegir ni treure dades, tenim les notes del grup de 26 alumnes, no en poder canviar la longitud.
2) i així d'ara en endavant.
3) L'amplada de la barra es pot variar i GeoGebra fa que el conjunt de dades, no cada dada, quedi centrat en el conjunt de barres que es dibuixen. En la pràctica hem suggerit 0,5, perquè d'aquesta manera cada dada queda centrada en la barra que en representa la freqüència. En alguna versió del GeoGebra calia usar el comandament GràficdeBarres[Notes,0.5] enlloc de DiagramaDeBarres[Notes,0.5]
4) Aquest diagrama, que en alguns textos anomenen de caixa i bigotis, mostra una caixa central que va del primer fins al tercer quartil amb una indicació d'on queda la mitjana i el "bigotis" i assenyalen el mínim i el màxim.
5) Es consideren dades anòmales(atípiques) en una distribució aquelles que, per damunt del 3r quartil, difereixen d'aquest valor en més de 1,5·RIQ (rang interquartíl·lic), o les que, per sota del 1r quartil, difereixen d'aquest en més de 1,5·RIQ, és a dir, es consideren, doncs, anòmales les dades que queden fora de l'interval [Q1–1,5·(Q3–Q1), Q3+1,5·(Q3–Q1)].
En els diagrames de caixa de les distribucions que contenen dades anòmales, aquestes es representen mitjançant punts aïllats i els "bigotis" arriben per un costat a la més petita de les dades no atípiques i per l'altre costat a la més gran d'aquestes dades no atípiques.
6) Amb tot rigor, aquesta decisió del GeoGebra és del tot correcte conceptualment i és imprescindible si volem fer un histograma amb classes d'amplades diferents: aleshores és l'àrea de cada barra la que ha de ser proporcional a la freqüència i no l'altura. Si les classes en què agrupem les dades són totes de la mateixa amplada, cosa que recomanem per a aplicacions a l'ESO, aleshores, naturalment, l'àrea de les barres és proporcional a la seva altura.