Activitats

Codificació de preguntes i respostes

L’objectiu d’aquesta activitat és treballar la codificació de preguntes i respostes.

Elaboreu una proposta de codificació de les preguntes i respostes del qüestionari següent, de manera que el codi de la pregunta estigui inclòs en el codi de la resposta.

Qüestionari:

  1. A quin sector correspon la vostra empresa?
    • Alimentació i begudes
    • Calçat i tèxtil
    • Industrial
    • Altres
  2. Us heu plantejat la possibilitat d’exportar els vostres productes?
    • No
  3. Si us heu plantejat la possibilitat d’exportar, quin país seria la vostra primera opció?
    • França
    • Alemanya
    • Itàlia
    • Marroc
    • Altres

Una possible codificació de preguntes i respostes podria ser:

0100) A quin sector correspon la vostra empresa?

  • 0101) Alimentació i begudes
  • 0102) Calçat i tèxtil
  • 0103) Industrial
  • 0104) Altres

0200) Us heu plantejat la possibilitat d’exportar els vostres productes?

  • 0201)
  • 0202) No

0300) Si us heu plantejat la possibilitat d’exportar, quin país seria la vostra primer opció?

  • 0301) França
  • 0302) Alemanya
  • 0303) Itàlia
  • 0304) Marroc
  • 0305) Altres

Cada pregunta té el seu codi amb 4 dígits, els dos últims són 00, de manera que es pot identificar cada resposta amb la pregunta a la qual correspon. Per exemple, el codi 0302 correspon a la tercera pregunta i a la segona resposta.

Tabulació

L’objectiu d’aquesta activitat és fer el recompte de les dades recollides mitjançant un qüestionari.

Les respostes recollides mitjançant un qüestionari, tenint en compte que cada punt és una resposta, són les següents:

1) A quin sector correspon la vostra empresa?
Alimentació i begudes • • • • •
Calçat i tèxtil • • •
Industrial • • • • • • • •
Altres • • • •
2) Us heu plantejat la possibilitat d’exportar els vostres productes?
• • • • • • • • • • • •
No • • • • • • • •
3) Si us heu plantejat la possibilitat d’exportar, quin país seria la vostra primer opció?
França • • •
Alemanya
Itàlia
Marroc • •
Altres

Elaboreu una taula amb el recompte de dades per a cada pregunta utilitzant els codis descrits a l’activitat anterior i indiqueu si hi ha algun error de cosistència de dades.

La taula amb el recompte de dades és la següent:

Codi Respostes
0101 5
0102 3
0103 8
0104 4
Total 20
0201 12
0202 8
Total 20
0301 3
0302 1
0303 4
0304 3
0305 1
Total 11

Hi ha un error en la consistència de dades perquè hi ha 12 persones que han respost “Sí” la pregunta 2 (0201) i només hi ha 11 persones que han respost la pregunta 3.

Anàlisi i interpretació de dades

L’objectiu d’aquesta activitat és analitzar dades a partir d’estadístics bàsics i interpretar els resultats.

L’empresa Danino, SA, que es dedica a la comercialització de iogurts, ha fet una enquesta per recollir informació sobre les unitats d’un determinat producte que consumeix setmanalment una mostra de 40 individus i ha obtingut la informació següent:

Consum setmanal de iogurts
5 6 3 12 5 9 7 2 0 11
8 9 7 6 8 0 15 2 3 4
0 1 6 3 6 8 4 3 7 9
4 5 0 10 11 8 2 4 6 5
  1. Calculeu i interpreteu les mesures de centre que considereu que aporten una informació significativa per a l’empresa.
  2. Calculeu la desviació típica i indiqueu què significa.
  3. Calculeu la variància i indiqueu què significa.

1. Mesures de centre:

Per fer aquest tipus d’operacions és molt útil fer servir un full de càlcul. Després d’introduir tots els valors s’ordenen de major a menor i es numeren les observacions. D’aquesta forma s’obté una taula com aquesta:

Obs. Consum
(u./setm.)
Obs. Consum
(u./setm.)
1 0 21 6
2 0 22 6
3 0 23 6
4 0 24 6
5 1 25 6
6 2 26 7
7 2 27 7
8 2 28 7
9 3 29 8
10 3 30 8
11 3 31 8
12 3 32 8
13 4 33 9
14 4 34 9
15 4 35 9
16 4 36 10
17 5 37 11
18 5 38 11
19 5 39 12
20 5 40 15

Les mesures de centre o de tendència central s’utilitzen per estudiar les característiques dels valors centrals d’una distribució. La mitjana, la mediana i la moda són els valors més representatius d’una distribució de freqüències, per això són les més utilitzades en estadística.

Mitjana: La mitjana aritmètica és el quocient que s’obté en dividir la suma de totes les dades d’una sèrie entre el nombre total de dades i es representa per ().

Un dels inconvenients de la mitjana és que els valors extrems l’afecten molt, sobretot quan es disposa de poques dades.

En aquest cas, s’obté una mitjana de 5,6 unitats de consum setmanal. Això significa que, si bé hi ha individus que no consumeixen cap unitat del producte i altres que en consumeixen fins a 15, són 5,6 unitats de consum mitjà setmanal. Evidentment, si es multiplica el consum mitjà pel nombre d’individus, s’obté la suma d’unitats consumides pel total dels individus observats: 5,6 x 40 individus = 224 unitats.

Mediana: La mediana és el valor que ocupa la posició central quan les dades de la mostra o de la població estan ordenades i es representa per m. Això fa que la mediana d’un conjunt de dades té la propietat que el nombre de dades superiors a ella sigui igual al nombre de dades inferiors.

Per calcular la mediana s’han d’ordenar les dades (de forma creixent o decreixent) i prendre el valor que queda just en el centre de la distribució. Si hi ha dos valors centrals (conjunt on el nombre de dades és parell), la mediana és la mitjana de tots dos.

En el cas que ens ocupa, els dos valors centrals són els de la posició 20 i 21, per tant:

Això significa que la meitat d’individus consumeix 5,5 unitats o menys a la setmana i l’altra meitat consumeix més de 5,5 unitats a la setmana. La mediana coincideix amb el segon quartil, tot i que no seria una mesura de centre, sinó de posició.

Moda: La moda és el valor que més es repeteix, és a dir, el valor més comú. En aquest conjunt de dades tenim:

Valor Freqüència
0 4
1 1
2 3
3 4
4 4
5 4
6 5
7 3
8 4
9 3
10 1
11 2
12 1
15 1
Total 40

Llavors, la moda és 6.

Si hi hagués més d’un valor que es repetís el mateix nombre de vegades hi hauria més d’una moda. En aquest cas, si s’eliminen les observacions del valor 6, quedarien com a modes els valors 0, 3, 4 i 8.


2. Desviació típica:

La desviació típica és l’arrel quadrada de la mitjana dels quadrats de les desviacions respecte a la mitjana de la distribució. Per tant, mesura el grau de dispersió de les dades respecte de la mitjana.

La forma més senzilla de calcular la desviació típica és a partir de la variància, ja que correspon a l’arrel quadrada de la variància que es calcula a l’apartat següent:

Aquest valor ens informa de la desviació de les dades de la mostra respecte de la mitjana, per tant, es tracta d’una desviació típica mostral.


3. Variància:

La variància representa la mitjana aritmètica de les desviacions respecte a la mitjana, elevades al quadrat i es denota mitjançant σ² o S².

Com que estem treballant només amb les dades d’una mostra obtenim una variància mostral.

Anàlisi de dades amb el full de càlcul

L’objectiu d’aquesta activitat és analitzar dades a partir de l’estudi de freqüències i dels estadístics descriptius.

Una empresa espanyola que es dedica a la fabricació de postres gelades disposa de les dades següents relatives al consum del producte durant la temporada d’estiu en el mercat francès.

Consum mensual de postres gelades en el mercat francès (en unitats)
1 3 15 18 0 5 3 9 11 14
8 4 2 5 9 10 0 4 1 8
3 29 10 18 20 25 5 6 2 26
3 10 4 5 6 20 3 10 15 17
21 17 9 13 24 8 12 2 1 22
  1. Construïu una taula de distribució de freqüències agrupant les dades en intervals o classes d’amplitud igual a 5. A continuació, calculeu la freqüència absoluta, la freqüència absoluta acumulada, la freqüència relativa i la freqüència relativa acumulada.
  2. Comenteu breument la informació que es desprèn de la taula de freqüències.
  3. Dibuixeu un gràfic de barres, amb l’ajut del full de càlcul, per representar gràficament les dades.
  4. Amb l’ajut del full de càlcul, calculeu la mitjana, mediana, moda, variància i desviació típica.
  5. Amb l’ajut del full de càlcul, calculeu el primer i el tercer quartil i indiqueu què signifiquen.

1. Taula de distribució de freqüències:

Classes Freqüència
absoluta
(Fi)
Freqüència
absoluta
acumulada
(Ni)
Freqüència
relativa
(fi)
Freqüència
relativa
acumulada
(Fi)
0 - 4 16 16 32 32
5 - 9 12 28 24 56
10 - 14 8 36 16 72
15 - 19 6 42 12 84
20 - 24 5 47 10 94
25 - 29 3 50 6 100
Total 50 100


2. Informació de la taula de distribució de freqüències:

La representació de les dades d’una mostra utilitzant taules de freqüències aporta informació que es pot interpretar per poder prendre decisions estratègiques.

Per tal de millorar la lectura i interpretació de la taula de distribució de freqüències, com que les dades són quantitatives i hi ha molts valors diferents, s’utilitzen intervals per agrupar els valors de la variable estudiada (classes). Això permet fer una presentació més simplificada de la variable i contribueix a millorar-ne l’anàlisi.

Amb aquesta taula de distribució de freqüències podem observar que el comportament de la variable consum de postres gelades d’un conjunt de persones és:

  • El 32% de les persones consumeixen entre 0 i 4 unitats mensuals.
  • El 24% de les persones consumeixen entre 5 i 9 unitats mensuals.
  • El 16% de les persones consumeixen entre 10 i 14 unitats mensuals.
  • El 12% de les persones consumeixen entre 15 i 19 unitats mensuals.
  • El 6% de les persones consumeixen entre 25 i 29 unitats mensuals.

Tota aquesta informació s’obté de les freqüències relatives (fi) que calcula la proporció que representa cadascuna de les classes respecte del total (100%).

Si diguéssim que 8 de les 50 persones han consumit entre 10 i 14 unitats de postres gelades, no aportaria tanta informació com si diem que el 16% dels individus ha consumit de 10 a 14 postres en un mes. Aquest percentatge dóna una idea més clara de la importància d’aquest grup de joves sobre el total. Val a dir que, en aquest cas, com que el nombre d’observacions són 50 és fàcil veure la proporció entre 50 i 100 però no és tan fàcil quan el nombre d’observacions és, per exemple, 80.

Les freqüències relatives també es poden interpretar com a probabilitats que es produeixi un fenomen determinat. La probabilitat d’un esdeveniment d’acord amb la regla de Laplace es calcula com el nombre de casos favorables dividit entre el nombre de casos possibles. Per exemple, podem dir que hi ha un 32% de probabilitats que una persona consumeixi entre 0 i 4 postres gelades al mes.

Si s’observen les freqüències relatives acumulades (fa) es pot observar, per exemple, com:

  • El 56% dels individus consumeixen menys de 10 postres gelades al mes.
  • El 94% dels individus consumeixen 24 o menys postres gelades al mes.

Les freqüències relatives acumulades mostren el percentatge de valors que se situen al mateix nivell o per sota d’un altre valor considerat. Si s’utilitzen intervals, aleshores la freqüència relativa acumulada mostrarà el percentatge de valors que són iguals o inferiors al límit superior de la classe o al límit inferior de la classe immediatament posterior.

Amb les dades de la freqüència relativa acumulada obtingudes es pot observar que:

  • El 68% (100 – 32) dels individus consumeix més de 4 unitats mensuals.
  • El 16% (100 – 84) dels individus consumeix més de 19 unitats mensuals.

Com es pot comprovar, tota aquesta informació difícilment s’hagués pogut obtenir amb la simple observació de les dades, per tant, les taules de freqüències ens permeten ordenar la informació obtinguda i extreure’n informació útil per a la presa de decisions.


3. Representació gràfica:


4. Mitjana, mediana, moda, variància i desviació típica:

Si introduïm totes les dades a la columna A d’un full de càlcul tindrem totes les dades introduïdes en el rang A1:A50.

  • Mitjana: =MITJANA(A1:A50) → Resultat: 9,92
  • Mediana: =MEDIANA(A1:A50) → Resultat: 8,5
  • Moda: =MODA(A1:A50) → Resultat: 3
  • Variància: =VAR(A1:A50) → Resultat: 60,08

La funció per a la variància mostral és =VAR i per a la variància poblacional és =VAR.P, com que en aquest cas estem treballant amb una mostra cal utilitzar la variància mostral.

  • Desviació típica o estàndard: =DESVEST(A1:A50) → Resultat: 7,75

La funció per a la desviació estàndard mostral és =DESVEST i per a la desviació estàndard poblacional és =DESVEST.P, com que en aquest cas estem treballant amb una mostra cal utilitzar la desviació estàndard mostral.


5. Quartils:

  • Primer quartil: =QUARTIL.EXC(A1:A50;1) → Resultat: 3

El número 1 que hi ha després del punt i coma indica que es tracta del primer quartil. Per al segon quartil o mediana, caldria utilitzar el 2, i per al tercer quartil el 3.

El significat del primer quartil és que el 25% de la clientela francesa consumeix 3 o menys postres gelades al mes.

  • Tercer quartil: =QUARTIL.EXC(A1:A50;3) → Resultat: 15,5

El significat del tercer quartil és que el 75% de la clientela francesa consumeix 15 o menys postres gelades al mes. (Diem 15 i no 15,5 perquè en les dades no hi ha el valor 15,5 i el més pròxim és 15).

Contrast d'hipòtesis

Una empresa que es dedica a la fabricació de dentifricis afirma que l’efectivitat d’un dentifrici blanquejador de les dents es nota, habitualment, a partir dels 14 dies d’utilització mitjana (amb dues aplicacions diàries). Per tal de comprovar estadísticament aquesta afirmació, s’escull a l’atzar una mostra de 18 persones i es pren com a referència el temps que transcorre entre la primera utilització del dentifrici i el moment en què s’aprecien els primers resultats.

Disposem d’informació que ens indica que la variable temps que transcorre entre la primera utilització del dentifrici i el moment en què s’aprecien els primers resultats segueix una distribució normal de mitjana 14 i desviació típica 7. El temps mitjà en què s’evidencien de resultats en la mostra és de 19 dies.

Comproveu si l’afirmació de l’empresa és correcta amb un nivell de significació de 0,05.

1) Identificació de les dades disponibles:

Mitjana mostral: = 19

Mitjana poblacional: μ = 14

Desviació mitjana poblacional: σ = 7

Mostra: n = 18


2) Plantejament de la hipòtesi:

La hipòtesi nul·la és la que es vol contrastar, per tant, es tracta de comprovar si els primers resultats per l’ús del dentifrici blanquejador es noten a partir dels 14 dies d’utilització, així doncs, tenim que:

Hipòtesi nul·la → H0: μ = 14

La hipòtesi alternativa serà el cas desfavorable (en aquest cas per a l’empresa), és a dir, que els primers resultats es comencin a notar més enllà dels 14 dies d’utilització del dentifrici blanquejador:

Hipòtesi alternativa → H1: μ > 14


3) Nivell de significació:

El nivell de significació ens indica el percentatge de vegades que estem disposats a cometre un error de tipus I, és a dir, rebutjar la hipòtesi nul·la essent certa i es denota com a α.

L’enunciat ens indica que el nivell de significació és 0’05, per tant: α = 0,05


4) Estadístic de contrast:

És la funció de la mostra de la qual coneixem la distribució sota la hipòtesi nul·la, per tant:

La zona de rebuig es trobarà a la dreta, atès que es vol comprovar si la mitjana de dies que triga en fer efecte el dentifrici està significativament més enllà dels 14 dies.

Buscarem el valor taula de la llei N(0,1) que serveix de valor crític (Secció “Annexos”, taula 3). Cal buscar el valor tal que la probabilitat d’obtenir aquest valor o un més gran sigui α = 0,05.

Per tant, aquest valor és 1’64, amb la qual cosa es compleix que:

P(N(0,1)>1,645) = 0,05

En el gràfic següent es pot observar en gris la zona de rebuig i en blanc la zona d’acceptació:

Veiem que el valor del nostre estadístic de contrast és superior al valor crític per la qual cosa es pot rebutjar la hipòtesi nul·la.

3,03 > 1,64 → Rebutgem H0

Per tant, la forma de procedir és acceptar d’entrada la hipòtesi nul·la (μ = 14), calcular l’estadístic de contrast i observar que es troba en la regió crítica. Si és així, rebutjarem la idea inicial d’acceptació de la hipòtesi nul·la.

Quan substituïm els paràmetres de la població i de la mostra a l’estadístic de contrast s’obté que Z = 3,03 i es pot observar que aquest estadístic es troba dins de la regió crítica, amb la qual cosa no segueix el criteri d’acceptació de la hipòtesi nul·la. Finalment, rebutgem la hipòtesi nul·la (H0 : μ = 14) i hem de concloure que:

Amb un nivell de significació 0,05 el temps mitjà en què comencen a notar-se els efectes de l’ús del dentifrici blanquejador és superior als 14 dies.

Alternativament, un cop s’ha determinat l’estadístic de contrast que és 3,03 es pot buscar en la taula de la distribució normal quin és el nivell de significació α que li correspon i tenim que:

Per tant, P(3,03) = 0,0012, com que 0,0012 < 0,05Rebutgem la hipòtesi nul·la.

Anar a la pàgina següent:
Exercicis d'autoavaluació