Tractament de dades i anàlisi estadístic

La investigació de mercats es pot portar a terme mitjançant mètodes diferents: investigació de despatx, treball de camp o mètode mixte.

La investigació de despatx es fa bàsicament en un depatx o una oficina, utilitzant fonts d’informació que ja estan publicades, és a dir, informació secundària. Aquest tipus d’investigació és especialment útil perquè es pot portar a terme amb rapidesa i a un cost baix.

Tot i que en alguns casos és possible aconseguir els objectius d’un estudi d’investigació de mercats utilitzant només la investigació de despatx, normalment és necessari portar a terme el treball de camp per obtenir les dades específiques necessàries que no estan disponibles en les fonts d’informació secundària. Aquest procés es pot fer mitjançant entrevistes o enquestes que no necessàriament impliquen desplaçar-se, perquè es poden fer per telèfon, per Internet, per correu postal, etc. Sigui com sigui, quan es parla de treball de camp es fa referència a la recollida de dades de primera mà, per això sovint s’utilitza els termes treball de camp i entrevistes com a sinònims.

En el mètode d’investigació mixta s’utilitzen les tècniques de recollida de dades des del despatx i també a través del treball de camp, amb la finalitat d’obtenir les dades necessàries i de la màxima qualitat.

Sigui quin sigui el procediment que s’hagi emprat per a la recollida de dades, un cop les dades ja estan disponibles comença una fase del procés d’investigació que és molt important: la preparació de dades per a la seva anàlisi i l’aplicació de tècniques per analitzar les dades i extreure’n conclusions.

Aquest procés de transformació de les dades en informació és cabdal i s’ha de fer amb la màxima rigorositat possible per obtenir informació vàlida.

El resultat de la fase de treball de camp d’una investigació és l’obtenció de dades que s’han de treballar per transformar-les amb informació útil per a la presa de decisions.

Aplicacions informàtiques per a la investigació comercial

En les tasques relacionades amb la investigació comercial es treballa amb un volum molt gran de dades, per això les aplicacions informàtiques són una eina bàsica que facilita el tractament dades.

Tot i que existeixen diferents aplicacions informàtiques per al tractament de dades, les més habituals són les aplicacions genèriques com els fulls de càlcul i les bases de dades. També és habitual utilitzar aplicacions específiques per al tractament estadístic de dades com per exemple els programes següents: R (programari lliure), Minitab, SPSS, S-Plus i Statgraphics, entre d’altres.

Tractament estadístic de dades

Podeu consultar les característiques principals d’alguns programes específics per al tractament estadístic de dades al web goo.gl/vOe89X.

Amb el full de càlcul es poden manipular i tractar les dades procedents d’una investigació comercial. Les dades s’introdueixen en taules per fer recomptes de freqüències que serveixen com a partida per a l’anàlisi estadística.

Els fulls de càlcul ofereixen més prestacions que les bases de dades pel que fa a les possibilitats de tractament de dades numèriques. Les bases de dades faciliten l’emmagatzematge, la classificació, la cercar de dades i la presentació d’informació, però quan es tracta de dades numèriques, els fulls de càlcul ofereixen prestacions més adequades com ara les anàlisis estadístics més simples i les més complexes o la representació gràfica de les dades.

Amb els fulls de càlcul es redueix considerablement el temps necessari per a l’anàlisi de dades, la qual cosa suposa també un estalvi econòmic. A més de les operacions aritmètiques, els fulls de càlcul incorporen funcions estadístiques tal com es pot observa a la figura.

Figura Funcions estadístiques del full de càlcul (LibreOffice)

Els fulls de càlcul també permeten la creació de taules de doble entrada o taules de contingència, que serveixen per recollir dades relacionades amb dues variables per fer una anàlisi bivariable.

És evident que la informàtica és un instrument indispensable per a la investigació comercial perquè, ja sigui amb l’ús d’una aplicació de full de càlcul per al tractament d’un nombre reduït de dades o d’una aplicació específica per al tractament estadístic de grans volums de dades, facilita enormement el procés d’edició i anàlisi de dades.

Processament de dades

La fase posterior a la recollida de dades, mitjançant el treball de camp o la investigació de despatx, és el processament de dades.

El processament de dades consisteix en la recopilació de les dades obtingudes amb l’objectiu d’ordenar-les i avaluar-les per obtenir informació útil que contribueixi a la presa de decisions.

Les etapes que es poden distingir en el processament de dades són les següents:

  1. Entrada: les dades obtingudes s’introdueixen en un fitxer informàtic per facilitar la seva classificació o ordenació i permetre el seu tractament posterior. Aquest és un procediment laboriós que s’ha de fer de forma molt precisa i acurada per evitar errades que poden malmetre la qualitat de les dades. Per a l’entrada de les dades en el fitxer s’ha d’haver establert la codificació adequada que serveixi per identificar i agrupar les dades en diferents categories.
  2. Control: un cop introduïdes les dades en el fitxer informàtic s’han de portar a terme totes les operacions de control necessaris per assegurar la coherència, integritat i qualitat de les dades. Si es detecten errors cal establir mecanismes per resoldre’ls o bé criteris per descartar les dades que no compleixin els requisits mínims perquè es puguin considerar vàlides.
  3. Tabulació: consisteix a fer el recompte de les respostes dels qüestionaris, o els instruments de recollida de dades, i l’organització en taules amb l’objectiu que es pugui estudiar el comportament i les tendències de les diferents variables. Aquesta organització ha de permetre tenir una visió general o un resum de les dades obtingudes.
  4. Tractament: quan les dades han estat tabulades i organitzades estan preparades per ser analitzades mitjançant diferents procediments o tècniques estadístiques per transformar-les en informació significativa i útil.
  5. Sortida: després d’aplicar les tècniques d’anàlisi adequades per al seu tractament de les dades s’obtenen els resultats del processament de dades, és a dir, la informació que s’ha pogut extreure sobre un fenòmen o sobre l’objecte de la investigació comercial. Aquesta sortida o resultat és la informació que ha de servir com a instrument de suport perquè les persones responsables puguin prendre decisions.

Establiment dels camps d’entrada de dades

Abans d’iniciar l’entrada de dades, cal decidir com es dissenyarà la taula per a l’entrada d’aquestes. El procediment més senzill per portar a terme aquesta tasca és fer-ho mitjançant el full de càlcul, ja que aquestes taules es poden importar des de qualsevol aplicació específica per al tractament estadístic de dades.

Per a prendre la decisió dels camps que conformaran la taula, només cal tenir en compte els conceptes bàsics de l’organització d’un full de càlcul.

Un fitxer d’un full de càlcul està organitzat de manera que dins d’un llibre hi pot haver diversos fulls. El llibre d’un full de càlcul és el fitxer que conté diversos fulls que contenen dades. Les dades d’un full es poden relacionar amb les dades d’un altre full dins del mateix llibre.

Cada full està organitzat en files i columnes. Les files estan disposades horitzontalment i les columnes verticalment.

Cada fila és un registre, és a dir, un conjunt de dades referides a un mateix element. Per exemple, una fila pot recollir totes les respostes d’una enquesta que ha respost una persona i és un registre, el que s’anomena un observació en un estudi d’investigació comercial.

Dins de cada registre hi ha diverses cel·les. Una cel·la és una unitat simple de dades dins d’un full de càlcul i el resultat de la intersecció entre una columna i una fila. Per exemple, si en un full es recull l’edat, el pes i l’alçada de diverses persones en diferents columnes, cadascuna d’aquestes variables és una cel·la. A vegades també es parla de camps com a sinònim de cel·la perquè és com s’anomena en les bases de dades: “camp edat”, “camp pes” o “camp alçada”.

La distribució d’un full en columnes és l’organització vertical que serveix per recollir les diferents dades relacionades amb un registre. Així, seguint l’exemple anterior, podem parlar de la “columna edat” que seria el conjunt de camps que contenen l’edat de cadascuna de les observacions o registres del full de càlcul.

En el full de càlcul els registres estan identificats amb un número i les columnes amb una lletra. Les cel·les, és a dir, la intersecció entre una columna i una fila, s’identifiquen amb el nom de la columna (lletra) i el nom de la fila (número). Per exemple, la intersecció entre la columna A i la fila 5 dóna com a resultat la cel·la A5, que contindrà una dada o variable corresponent a un determinat registre.

El rang és un interval de dades que es denota amb el nom de la primera cel·la i el nom de l’última cel·la que el componen, separat per dos punts. Així, el rang A1:A5 és l’interval de cel·les que hi ha des de la cel·la A1 fins a la cel·la A5 i el rang A1:B5 és el conjunt de cel·les que es troben en les columnes A i B entre les files 1 i 5.

En lafigura hi ha representats els diferents elements bàsics de l’estructura d’un full de càlcul.

Figura Elements bàsics de l’estructura d’un full de càlculs

L’establiment dels camps per a l’entrada de dades en el fitxer informàtic consisteix a definir l’estructura de la taula de dades.

Per una banda, en cada columna de la taula s’ha de posar l’etiqueta corresponent per identificar cadascuna de les variables que reculliran les respostes a les diferents preguntes d’un qüestionari o de qualsevol altre instrument per a la recollida de dades.

Normalment, la decisió de les dades que s’han de recollir en el fitxer ja ve determinada per les preguntes i les respostes que s’han establert per a la recollida de dades, ara bé, cal codificar de forma adequada les preguntes i respostes abans d’introduir les dades a la taula. Si el qüestionari ha estat codificat abans d’aplicar-lo, aquests codis ja estaran determinats i, si no fos així, per determinar l’estructura de la taula caldrà establir la codificació que s’utilitzarà.

Exemple d'establiment dels camps d'entrada

Suposem que cal construir una taula per a la recollida de les 3 preguntes següents:

  1. Consumeix infusions? Sí / No

  2. Quin tipus d’infusions consumeix habitualment? Te / Camamilla / Til·la / Altres

  3. Quina marca d’infusions sol comprar? Herba-Natur / Infu-calm / Sanatur / Altres

Una estructura lògica per recollir les dades de les diferents respostes pot ser la que es mostra a la taula:

Taula: Estructura d’una taula de dades sense codificar
Pregunta 1 Pregunta 2 Pregunta 3
Te Sanatur
No - -
Til·la Altres
Camamilla Infu-calm

Suposant que les respostes estan codificades amb un número correlatiu, el resultat seria el que hi ha a la taula:

Taula: Estructura d’una taula de dades codificada
Pregunta 1 Pregunta 2 Pregunta 3
1 1 3
2 - -
1 3 4
1 2 2

Tal com es pot veure, a cadascuna de les columnes de la taula hi ha una pregunta i a cada fila una observació que correspon a un entrevistat, amb les 3 respostes que ha donat.

Abans d’introduir les dades a la taula, per tant, cal decidir quins camps es registraran i com quedaran recollits a la taula.

La defició dels camps està condicionada pel tipus de dades que s’han de recollir, la forma en què es volen agrupar i el tipus de tractament que es donarà, posteriorment, a aquestes dades. Per això, és molt important dedicar un temps a pensar quina és l’estructura més adequada per a la taula.

Instruccions per a la coodificació i entrada de dades

El procediment de codificació i entrada de dades s’ha de documentar de forma adequada, és a dir, cal elaborar un document amb les instruccions que ha de seguir el personal encarregat de codificar i entrar les dades al fitxer.

Aquestes intruccions han de preveure el procediment que s’ha de seguir per a la resolució de les incidències més habituals en els processos de codificació i entrada de dades.

A part de disposar del document amb les intruccions de treball, és molt recomanable dedicar una estona a instruir al personal i monitoritzar les primeres entrades per assegurar-se que la tasca es desenvolupa de forma correcta. Val la pena invertir temps en el seguiment d’aquesta tasca per assegurar que es fa de forma correcta i evitar haver de dedicar temps a la resolució d’errors.

La codificació consisteix a assignar a cada pregunta i resposta d’un qüestionari un dígit que les representa en l’arxiu de dades.

Si la codificació es fa a priori, és a dir, abans de fer el qüestionari, s’anomena precodificació, mentre que si es fa a posteriori s’anomena postcodificació.

Cadascuna de les preguntes del qüestionari o del document d’observació és una variable que pot prendre diferents valors segons les respostes. La forma de codificar aquest tipus de preguntes varia en funció de si les preguntes són obertes o tancades.

Si es tracta de preguntes obertes i no es coneixen a priori les respostes dels entrevistats, no es pot fer la codificació durant el treball de camp i s’ha de fer a posteriori (postcodificació).

Codificació de preguntes tancades

Si les respostes són numèriques, el codi de la resposta és el nombre consignat en aquesta. Però, quan les respostes no són numèriques, la codificació depèn de si són excloents o no ho són.

En la codificació per a respostes mútuament excloents, com que només es pot recollir una de les opcions de resposta, normalment es fa servir un nombre entre parèntesis per a indicar les preguntes i, a continuació, un nombre consecutiu sense parèntesis per a les respostes. En el fitxer de dades que s’ha de generar a partir de les respostes, el nombre entre parèntesis és la variable que s’estudia i el nombre sense parèntesis, les respostes, són els valors possibles que pren la variable.

Exemple de codificació de preguntes tancades

(1) Em podria dir quants any té?

  1. Fins a 20 anys
  2. De 20 a 25
  3. De 25 a 50
  4. Més de 50

(2) Li agrada el futbol?

  1. No

Suposem que tenim les respostes següents: 1 persona de 23 anys que li agrada el futbol (2, 1), 1 persona de 45 anys que li agrada el futbol (3, 1) i 1 persona de 19 anys que no li agrada el futbol (1, 2). A la taula es pot veure com quedarien recollides aquestes respostes.

Taula: Taula de dades amb respostes excloents de tres individus
Individus Pregunta
(1)
Pregunta
(2)
1 2 1
2 3 1
3 1 2

En la codificació per a respostes no excloents, com que l’entrevistat pot respondre diverses opcions a una pregunta, cada una de les opcions es codifica com si es tractés d’una pregunta individual, la qual pot prendre els valors “marcada” o “no marcada”. Si l’entrevistat ha marcat l’opció, se li pot assignar el codi associat a aquesta opció, normalment l’1, i, en cas contrari, el 0.

Exemple de codificació de respostes no excloents

De les característiques següents, em podria dir quines considera més importants perquè una persona triomfi en la seva feina?

  1. Autoritat
  2. Iniciativa
  3. Bona imatge
  4. Esforç
  5. Bona preparació
  6. Intel·ligència
  7. Capacitat de treball en equip
  8. Atractiu personal
  9. Bona sort
  10. Intuïció, mà esquerra
  11. Conèixer gent influent
  12. Simpatia, do de gents

Si la persona entrevistada respon “Iniciativa, Esforç, Bona preparació i Intel·ligència”; aleshores a les variables (2), (4), (5) i (6), que són les que corresponen a aquestes respostes donades, a la taula de dades cal marcar un 1 i a la resta d’opcions un 0 (vegeu la taula).

A continuació, una altra persona més important tenir “Bona imatge, Atractiu personal i Intuïció”, i secundàries la resta de variables. En aquest cas cal marcar amb un 1 les (3), (8) i (10) i deixar la resta d’opcions amb 0 (vegeu la taula).

Finalment, un tercer entrevistat respon ”Autoritat, Capacitat de treball en equip, Atractiu personal, Bona sort, Intuició, Conèixer gent influent i Simpatia”. En aquest cas les preguntes o variables (1), (7), (8), (9), (10), (11) i (12) es marquen amb un 1 i es deixen la resta amb 0 (vegeu la taula).

Taula: Taula de dades amb respostes no excloents de tres individus
Individus Pregunta
(1)
Pregunta
(2)
Pregunta
(3)
Pregunta
(4)
Pregunta
(5)
Pregunta
(6)
Pregunta
(7)
Pregunta
(8)
Pregunta
(9)
Pregunta
(10)
Pregunta
(11)
Pregunta
(12)
1 0 1 0 1 1 1 0 0 0 0 0 0
2 0 0 1 0 0 0 0 1 0 1 0 0
3 1 0 0 0 0 0 1 1 1 1 1 1

Codificació de preguntes obertes o semiobertes

Si les respostes són numèriques, en la combinació d’individu i pregunta (valor) s’introduieix el nombre en qüestió que s’obté com a resposta. Per exemple: quan es pregunta l’edat s’anota el nombre d’anys.

Quan es tracta de preguntes amb respostes no numèriques, per a la seva codificació cal cal seguir els passos següents:

  • Llegir les respostes de la pregunta en qüestió a tots els qüestionaris.
  • Establir classes de respostes segons el que s’ha observat en la lectura dels qüestionaris. Aquesta llista de classes no hauria de ser ni tan àmplia que el nombre de respostes que inclogui cadascuna sigui poc significativa, ni tampoc tan petita que resti valor a la informació.
  • Assignar un codi a cadascuna de les classes de preguntes establertes.

Aquest és un procés laboriós i pot ser subjectiu i contenir errors, per això és recomanable reduir al màxim possible aquest tipus de pregunta en els qüestionaris.

Exemple de codificació de preguntes obertes

En un qüestionari es fa la pregunta oberta següent:

Per què penseu que no comprareu l’electrodomèstic en els pròxims anys?

Les respostes obtingudes han estat:

  1. a) És massa gran per posar-lo a la cuina.
  2. b) No tinc diners per comprar-lo.
  3. c) És molt lleig.
  4. d) No m’agrada el color i és molt car.
  5. e) M’han dit que és poc fiable.
  6. f) A casa som dos, i per ara no el necessitem.
  7. g) Estic esperant que baixin de preu.
  8. h) És complicat de fer servir.
  9. i) No ho sé.

La codificació de les respostes podria ser la que es mostra en la taula.

Taula: Codificació de respostes obertes
Codi Categoria de respostes Respostes incloses
1 Disseny de l’aparell a, c, d, h
2 Cost b, d, g
3 Poca fiabilitat de l’aparell e
4 No necessito l’aparell f
5 No ho sé i

Entrada i tabulació de les dades obtingudes

La introducció de dades en el fitxer informàtic s’ha d’efectuar de la forma que s’hagi determinat i segons l’estructura que s’hagi decidit que tindria la taula.

La tabulació consisteix a fer el recompte de les dades que s’han recollit en els qüestionaris i que han estat introduïdes en el fitxer de dades. El procés de tabulació inclou totes les operacions orientades a l’obtenció de resultats numèrics relacionats amb els temes tractats en el qüestionari.

El resultat del procés de tabulació és una taula de dades elaborada a partir d’un full de càlcul, una base de dades o un programari específic per al tractament estadístic de dades. Mitjançant la tabulació és possible tenir una visió general de conjunt de la informació obtinguda en convertir-la en dades homogènies que posteriorment es poden analitzar.

Un tractament estadístic molt bàsic que permet establir un primer nivell d’anàlisi de les dades recollides pot consistir en l’estudi de freqüències, la relació entre diferents dades o l’evolució de les dades recollides.

Les funcions que incorpora el full de càlcul per facilitar el procés de recompte de dades són les que figuren a la taula.

Taula: Funcions de recompte de dades
Funció Descripció Exemple Resultat
=COMPTA Compta els nombres que hi ha en el rang =COMPTA(B1:B350) Mostra la quantitat total de nombres de l’interval
=COMPTAA Compta els valors no numèrics que hi ha en el rang =COMPTAA(B1:B350) Mostra la quantitat total de valors no numèrics de l’interval
=COMPTABUIDES Compta les cel·les buides que hi ha en el rang =COMPTABUIDES(B1:B350) Mostra la quantitat total de cel·les buides de l’interval
=COMPTASI Compta els arguments que compleixen els criteris definits =COMPTASI(B1:B350;”Sí”) Mostra la quantitat total de cel·les que contenen l’expressió “Sí”
=COMPTASICONJUNT Compta les cel·les que compleixen múltiples criteris en múltiples intervals =COMPTASICONJUNT(B1:B350;”Sí”;C1:C350;”Cafè”) Mostra la quantitat total de cel·les que compleixen les dues condicions

Tabulació unidireccional

La tabulació unidireccional només té en compte el valor d’una de les variables estudiades. Aquest tipus de tabulació s’utilitza per a les finalitats següents:

  • Quan es vol calcular el nombre de respostes d’una pregunta.
  • Per analitzar una a una les dades que posteriorment s’utilitzaran per al càlcul d’estadístics bàsics amb l’objectiu de resumir la informació.
  • Per detectar errades en la introducció de dades, calculant el nombre de registres vàlids.

Exemple de tabulació unidireccional

Suposem que s’ha preguntat a 100 persones si prenen cafè diàriament. Les respostes obtingudes, ordenades en una taula unidireccional són les que hi ha a la taula

Taula: Consum diari de cafè (persones)
Sí prenen 68
No prenen 32
Total 100

També es pot construir una taula tenint en compte el sexe, en aquest cas podria el resultat seria el que hi ha a la :taula:

Taula: Consum diari de cafè (edat)
Homes 28
No 22
Dones 21
No 29
Total 100

Tabulació bidireccional

La tabulació bidireccional o encreuada consisteix a organitzar les dades d’una taula tenint en compte més d’una variable. Aquest tipus de tabulació se sol utilitzar en els casos següents:

  • Quan es vol comprovar si unes variables determinades influeixen conjuntament en els resultats d’allò que s’investiga.
  • Per determinar les diferències entre grups que estan provocades per una de les variables que s’estudien.
  • Per agrupar i resumir la informació que s’obté en un procés d’investigació.

Exemple de tabulació bidireccional

Suposem que s’ha preguntat a 100 persones si prenen cafè diàriament. Les respostes obtingudes, ordenades en una taula bidireccional són les que hi ha a la taula

Taula: Consum diari de cafè (per sexe i edat)
Edat Homes Dones
20 - 35 8 6
No 5 8
36 - 50 7 6
No 6 6
50 - 65 6 5
No 6 10
> 65 7 4
No 5 5
Total 50 50

Revisió i depuració de les dades entrades

Quan ja es disposa del fitxer amb totes les dades, una de les primeres accions que cal fer és comprovar que no contingui errors. Per a això, abans de continuar, cal fer una sèrie de comprovacions. La consistència de les dades que conté el fitxer es fa en tres fases:

1) Control de filtres i quotes. Els qüestionaris que s’hagin donat com a bons han de passar els controls següents:

  • Control de les respostes a les preguntes filtre de selecció de l’univers que és objecte d’estudi per verificar que la totalitat dels individus que integren el fitxer de dades pertanyen realment a aquest univers. Per exemple, si l’univers que és objecte d’estudi d’una investigació són els clients que tenen entre 20 i 30 anys, el control de filtres suposa comprovar que realment siguin aquests els clients entrevistats.
  • Control de quotes per verificar que la composició de la mostra obtinguda coincideix amb la que es va determinar en la fase de disseny de la mostra. Aquest control només cal portar-lo a terme en el cas que el mètode de mostreig sigui per quotes. Per exemple, si s’ha decidit fer una investigació entre els professionals de la infermeria i s’ha determinat fer el 70% d’entrevistes a dones i el 30% a homes, a causa de la composició de dones i homes que hi ha en aquest sector (univers), s’ha de verificar que realment s’han complert aquestes quotes.

2) Comprovació de les variables. S’han de comprovar totes les variables, una per una, mitjançant una distribució de freqüències de totes les variables del fitxer en el seu estat original. En particular cal comprovar si hi ha algun dels errors següents:

  • Errors en les etiquetes. Aquests errors poden estar en l’etiqueta de les variables o en les etiquetes dels codis de les variables i es es poden produir quan s’han deixat variables o codis sense etiqueta en el moment de crear el fitxer.
  • Errors de gravació. Quan s’introdueixen les dades en el fitxer és possible que es produeixin alguns errors com ara introduir valors fora de rang, valors que no corresponen a les respostes o deixar valors en blanc. Per exemple, una enquesta té una pregunta que demana el grau de satisfacció dels clients respecte a un determinat servei valorat en una escala d’1 a 5. Si s’assigna el valor 9 als individus que no han contestat, qualsevol valor que consti com a 0, 6, 7 o 8 serà un valor fora de rang.
  • Errors en les respostes a una bateria de preguntes. El qüestionari pot incloure preguntes filtre que redirigeixen a una determinada bateria de preguntes. Si és així, cal comprovar que, davant d’una pregunta filtre la seqüència de respostes és correcta, és a dir, que no hi hagi entrevistats que hagin respost una bateria de preguntes sense haver de fer-ho ni a la inversa.

3) Comprovació de la relació entre les variables. Cal comprovar la coherència entre les respostes aportades per l’entrevistat, en particular s’ha de comprovar el següent:

  • No existència d’errors en les relacions lògiques. Per exemple, si en una pregunta un entrevistat afirma que assisteix a esdeveniments culturals entre d’altres grups d’opcions, no tindria sentit que unes preguntes més endavant, en ser demanat per la periodicitat en què consumeix productes d’oci, contestés que no ho fa mai.
  • Contrastar la informació obtinguda amb informació ja existent. Si ja es disposa d’informació prèvia relacionada amb la investigació, és útil comparar-la amb les dades obtingudes per comprovar si hi ha diferències significatives.

Verificació de la integritat de les dades

La integritat de les dades es refereix als valors reals que s’emmagatzemen i s’utilitzen en una taula o estructura de dades per garantir la seva qualitat.

Per exemple, si en la taula de recollida de dades es posa un número a cadascun dels qüestionaris per identificar-lo, cal assegurar-se que aquest número no es repeteix. Si en una columna hi ha la possibilitat d’introduir 5 opcions de resposta, numerades de l’1 al 5, cal assegurar-se que no hi hagi cap valor fora d’aquest interval.

Per assegurar la integritat de les dades, hi ha dues qüestions bàsiques que s’han de tenir en compte:

  • Identificació dels valors vàlids per a cada columna.
  • Establiment de mecanismes per forçar la integritat de dades d’una cel·la.

Tot i que es poden distingir diversos tipus d’integritat, destacarem les dues següents:

  • Integritat d’entitat: és la definició d’una fila o registre com a entitat única per a una mateixa taula. Per exemple, el número de qüestionari d’una enquesta no es pot repetir a més d’una fila de la taula.
  • Integritat de domini: és la que ve donada per la validesa de les dades introduïdes en una determinada columna. Per exemple, es pot restringir que una columna només pugui contenir nombres o lletres. Si ha de contenir nombres, també es pot indicar quin és l’interval de nombres acceptats.

En el menú Dades del full de càlcul hi ha l’opció Validesa, que permet restringir el tipus de dades que es poden introduir en una determinada cel·la i, per tant, és molt útil per garantir la integritat de domini de les dades d’una taula.

En la figura es mostra un exemple de validació de les dades que poden contenir les cel·les d’un full de càlcul. En aquest cas s’indica que només s’accepten valors numèrics amb decimals des de l’1 i fins al 10.

Figura Validació de dades en el full de càlcul

És important dedicar el temps necessari a la validació de dades per garantir la correcció i presició dels valors que s’han introduït a la taula; concretament cal assegurar-se de:

  • Validar el tipus de dades que ha de contenir cada columna.
  • Comprovar que els valors de cada columna es troben dins dels intervals.
  • Comprovar que funcionen correctament els recomptes de dades.

Un cop fetes totes les comprovacions necessàries, la taula ja estarà a punt per continuar-hi treballant.

Anàlisi estadística de les dades

Abans d’obtenir les dades és important que es pensi en quin tipus d’anàlisi se’n farà, per determinar quina són les dades que s’han de recollir i quin és el format més adequat. Un cop obtingudes i depurades les dades, el pas següent és fer-ne una anàlisi.

Però, amb quin tipus de dades comptem? Quan s’estudia una població o una mostra, se seleccionen algunes característiques considerades rellevants; aquestes característiques s’anomenen variables. Les variables poden ser de diferents tipus:

  • Variables qualitatives: són les que no s’expressen de forma numèrica, sinó com a categories o característiques dels individus o elements objecte d’estudi. Aquestes variables també es poden anomenar variables categòriques.
  • Variables quantitatives: són les que s’expressen de forma numèrica i poden ser contínues o discretes:
    • Discretes: només prenen valors enters positius i generalment provenen de comptar unitats d’individus o d’elements.
    • Contínues: poden prendre qualsevol valor positiu (fins i tot amb decimals) i acostumen a ser el resultat de mesurar algun fenomen.

Una variable és una característica dels individus o dels elements que són objecte de la investigació.

La correcta utilització de les tècniques d’anàlisi pot contribuir a millorar la definició dels objectius de la investigació i el disseny de la metodologia emprada. L’anàlisi de les dades ha de permetre aconseguir resultats fiables i ha de respondre a les necessitats dels directius de màrqueting i als objectius de la investigació.

A l’hora de fer una anàlisi estadístic de les dades es pot distingir entre:

  • Anàlisi univariable
  • Anàlisi bivariable
  • Anàlisi multivariable

Les tècniques d’anàlisi univariable i bivariables tenen per objectiu reduir les dades inicials, de difícil interpretació, a informació informació més simple i concreta sobre el mercat o sobre l’objecte de la investigació.

Anàlisi univariable

L’anàlisi univariable és, normalment, un estudi previ a la realització d’altres tipus d’anàlisis. Aquesta anàlisi es concentra en una sola variable i l’objectiu sol ser trobar i representar les caractarístiques d’aquesta variable. Les tècniques que s’utilitzen per a l’anàlisi univariable són:

  • Estudi de freqüències (absoluta, relativa i acumulada)
  • Estudi de la relació entre dades (distribució conjunta)
  • Estudi de l’evolució de dades (nombres índex)
  • Mesures de tendència cental (mitjana, mediana i moda)
  • Mesures de dispersió (rang o recorregut, desviació típica i variància)
  • Formes de la distribució (asimetria i curtosi)

Anàlisi bivariable

L’anàlisi bivariable serveix per determinar la relació existent entre dues variables, una variable dependent i una variable independent. Les tècniques principals que s’utilitzen per a l’anàlisi bivariable són:

  • Taula de contingències
  • Regressió
  • Covariància
  • Correlació

Anàlisi multivariable

L’anàlisi multivariable pretén trobar la relació entre més de dues variables de forma simultània i, per tant, és una anàlisi més completa que l’anàlisi bivariable. Les tècniques d’anàlisi multivariable es poden distribuir en els dos grups següents:

  • Tècniques de dependència (regressió, correlació, discriminant…)
  • Tècniques d’interdependència (components principals, factorial, clúster…)

Estadística descriptiva

Les tècniques d’estadística descriptiva s’utilitzen per fer una primera anàlisi, representació i descripció de dades. Consisteix, essencialment, a resumir les dades a partir d’un o dos elements (mesures descriptives) que caracteritzen la totalitat de dades.

Algunes de les tècniques utilitzades en aquesta primera anàlisi de dades consisteix a calcular mesures de tendència central per comprovar en quina mesura estan agrupades o es dispersen les dades al voltant d’un valor central.

Les mesures estadístiques descriptives es poden agrupar en quatre tipus:

  • Mesures de posició central
  • Mesures de posició no central
  • Mesures de dispersió
  • Mesures de forma

Mesures de posició central

Les mesures de centre o de tendència central serveixen per estudiar les característiques dels valors centrals d’una distribució tenint en compte diferents criteris.

Les principals mesures de tendència central són la mitjana, la mediana i la moda.

La mitjana aritmètica o valor mitjà és el quocient resultant de dividir la suma de totes les dades d’una sèrie entre el nombre total de dades; aquest és el símbol que la representa: .

La fórmula per calcular la mitjana aritmètica simple o valor mitjà és:

Exemple de càlcul de la mitjana aritmètica simple

El preu d’un producte, en euros, en 5 establiments diferents és: 15, 17, 16, 18 i 14.

El preu mitjà del producte és:

Es pot concloure que el preu mitjà del producte en els 5 establiments estudiats és de 16 €.

La mitjana aritmètica simple per a dades agrupades es calcula amb la fórmula següent:

Exemple de càlcul de la mitjana aritmètica simple per a dades agrupades

Es disposa de les dades següents corresponents al nombre de vegades (visites) que els clients d’un club esportiu han assistit a la sala de fitness durant un mes:

Edat Visites () Clients ()
[10,20) 15 2
[20,30) 25 8
[30,40) 35 10

La mitjana aritmètica simple és:

Es pot concloure que els clients estudiats visiten la sala de fitness una mitjana de 29 vegades al mes.

La mitjana aritmètica ponderada () és el resultat de multiplicar els nombres d’una sèrie de dades per un valor determinat, anomenat pes o ponderació, obtenint a continuació la suma d’aquests productes i dividint el resultat per la suma de les ponderacions. El pes o la ponderació depèn de la importància o significació de cadascun dels valors.

Per a una sèrie de daes a la qual corresponen els pesos o la ponderació , la mitjana ponderada es calcula així:

Exemple de càlcul de la mitjana aritmètica ponderada

El càlcul de la qualificació mitjana d’uns estudis es fa segons la mitjana aritmètica de les qualificacions de cada assignatura ponderada pel nombre d’hores. Les qualificacions i les ponderacions són: assignatura A = 8 (125 h), assignatura B = 7,5 (250 h) i assignatura C = 6,75 (325 h).

La qualificació mitjana ponderada dels estudis és:

La mediana és el valor que ocupa el lloc central quan les dades de la distribució estan ordenades. Per tant, la mediana d’un conjunt de dades és el valor que té la propietat que el nombre de dades superiors a aquest valor coincideix amb el nombre de dades inferiors. Quan un conjunt de dades conté dos valors centrals es considera com a mediana la mitjana entre els dos. La mediana es representa pel símbol: Me.

Exemple de càlcul de la mediana

Es disposa de les dades següents corresponents al consum mensual d’un determinat producte per un grup de persones: 15, 13, 16, 14, 15, 12, 15, 16, 14.

El procediment per calcular la mediana és el següent:

  • S’ordenen les dades de menor a major: 12, 13, 14, 14, 15, 15, 15, 16, 16
  • Si es tracta d’un nombre imparell de dades, la mediana és el valor central. En aquest cas hi ha 9 dades i la posició central és el valor que queda en la cinquena posició, per tant, la mediana és 15.

Quan es tracta d’un nombre parell de dades, la mediana es calcula fent la mitjana dels dos valors centrals:

Per exemple, la mediana d’aquesta sèrie de dades 7, 8, 9, 10, 11, 12 és 9,5:

Finalment, la moda és el valor que es repeteix més en una distribució de dades; per tant, és el valor més comú. És possible que en una distribució de dades hi hagi més d’una moda; en aquest cas parlem d’una distribució bimodal, trimodal… La moda es representada pel símbol: Mo.

Tots aquests estadístics es poden calcular amb les funcions del full de càlcul, de les mesures de posició central, que hi ha a la taula taula.

Taula: Funcions de les mesures de posició central
Funció Resultat
= MITJANA(rang) Calcula la mitjana aritmètica d’una sèrie de valors
= MEDIANA(rang) Calcula la mediana d’una sèrie de valors
= MODA(rang) Calcula la moda d’una sèrie de valors

Mesures de posició no central

Els quantils són valors de la variable, ordenats de més gran a més petit, que divideixen la distribució en parts, de tal manera que cadascuna contingui el mateix nombre de freqüències. Els quantils més utilitzats són els quartils, decils, i centils o percentils.

Els quartils (Qi) són valors de la variable que divideixen la distribució en quatre parts, cadascuna de les quals inclou el 25% de les observacions. S’expressen de la manera següent: Q1 és el primer quartil que deixa a l’esquerra el 25% de les dades; Q2 és el segon quartil que deixa a l’esquerra el 50% de les dades, i Q3 és el tercer quartil que deixa a l’esquerra el 75% de les dades. És important destacar que el segon quartil coincideix amb la mediana (Q2 = Me).

Exemple de càlcul de quartils

Suposem que una empresa ha calculat el nombre de vegades que els seus clients compren al llarg d’un mes i ha obtingut les dades de la taula.

Taula: Nombre de compres dels clients
Nombre de compres Nombre de clients Freqüència acumulada
Ni
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n = 100

Primer quartil (Q1); el primer valor de Ni superior a 25 és 39; per tant, Q1 = 2, és a dir, una quarta part o el 25% dels clients fan 2 o menys compres al llarg del mes:

Segon quartil (Q2); el primer valor de Ni superior a 50 és 65; per tant, Q2 = 3, és a dir, la meitat dels clients o el 50% fa 3 o menys compres al llarg del mes:

Tercer quartil (Q3); el primer valor de Ni superior a 75 és 85; per tant, Q3 = 4, és a dir, tres quartes parts o el 75% dels clients fa 4 o menys compres al llarg del mes:

Els decils (Di) són els valors de la variable que divideixen la distribució en parts iguals, cadascuna de les quals inclou el 10% de les dades. En total hi ha 9 decils. El cinquè decil coincideix amb el segon quartil i amb la mediana (D5 = Q2 = Me).

Els centils o percentils (Pi) són els valors que divideixen la distribució en 100 parts iguals, cadascuna de les quals inclou l’1% de les observacions. En total hi ha 99 percentils. El percentil 50 coincideix amb el cinquè decil, el segon quartil i amb la mediana (P50 = D5 = Q2 = Me).

Tots aquests estadístics es poden calcular amb les funcions del full de càlcul, de les mesures de posició no central, que hi ha a la taula taula.

Taula: Funcions de les mesures de posició no central
Funció Resultat
= QUARTIL(rang;1) Calcula el 1r quartil d’una sèrie de valors
= QUARTIL(rang;2) Calcula el 2n quartil d’una sèrie de valors (mediana)
= QUARTIL(rang;3) Calcula el 3r quartil d’una sèrie de valors
= PERCENTIL(rang;tipus) Calcula el percentil d’una sèrie de dades
(el tipus pot anar de 0,1 a 1)

Mesures de dispersió

Les mesures de tendència central no són suficients per conèixer la distribució d’un conjunt de dades. Per analitzar correctament les dades és important conèixer la desviació d’aquestes respecte a la mitjana o el valor mitjà de la distribució. Aquesta és la informació que proporcionen la variància i la desviació típica.

El rang o recorregut (Re) és la diferència entre el valor més gran i més petit de la variable.

Exemple de càlcul del rang o recorregut

Es disposa de la sèrie de dades següent: 25, 2, 35, 15, 48, 12

El rang o recorregut és:

Com més gran és el recorregut, més gran és la dispersió.

La variància és la mitjana aritmètica del quadrat de les desviacions respecte a la mitjana d’una distribució i es denota mitjançant σ² o S². La fórmula per calcular la variància és:

La variància sempre és positiva ( σ2 ≥ 0).

La desviació típica o estàndard és l’arrel quadrada del valor mitjà de les desviacions al quadrat respecte a la mitjana de la distribució. Es denota mitjançant σ o S. La fórmula per calcular la desviació típica és:

La desviació típica informa de la mitjana de distàncies que hi ha entre les dades de la distribució i la seva mitjana aritmètica, expressada en les mateixes unitats que la variable objecte d’estudi.

Per al càlcul de la mitjana mostral s’ha de substituir el denominador N per N - 1.

Exemple de càlcul de la mitjana, la variància i la desviació típica

Suposem que una botiga ha venut aquestes unitats d’un determinat producte: dilluns (7), dimarts (4), dimecres (6), dijous (5) i divendres (5). Un procediment simple per calcular la mitjana, la variància i la desviació típica és organitzar les dades en una taula com la taula.

Taula: Taula de càlculs
xi xi - = xi -5,4 xi - = (xi - 5,4)2
7 7 - 5,4 = 1,6 2,56
4 4 - 5,4 = 1,4 1,96
6 6 - 5,4 = 0,6 0,36
5 5 - 5,4 = -0,4 0,16
5 5 - 5,4 = -0,4 0,16
Suma 27 0 5,2

La mitjana és:

La variància és:

I la desviació típica és:

El coeficient de variació de Pearson és una mesura de dispersió relativa que mostra la relació que hi ha entre la desviació típica i la seva mitjana. La fórmula d’aques coeficient de variació és la següent:

Com més baix és el coeficient de variació de Pearson, menys dispersió hi ha i més representativa és la mitjana. Sempre és un valor positiu o igual a 0 (CV ≥ 0) i es pot expressar en tant per cent, amb un recorregut de 0 a 100, o en tant per 1, amb un recorregut de 0 a 1.

Exemple de càlcul del coeficient de variació de Pearson

Amb les dades de l’exemple anterior es pot calcular el coeficient de variació així:

Aquest 0,19 o 19% indica que no hi ha gaire dispersió i, per tant, la mitjana és força representativa.

Exemple d'utilitat del coeficient de variació de Pearson

Se sap la mitjana i la desviació típica de la despesa diària en alimentació de dues famílies en dos països diferents:

País A: ,

País B: ,

En quina ciutat és més representativa la despesa mitjana en alimentació?

És més representativa la mitjana del país B, ja que com més petit és el coeficient de variació, hi ha menys dispersió i la mitjana és més representativa.

Tots aquests estadístics es poden calcular amb les funcions del full de càlcul, de les mesures de dispersió, que hi ha a la taula taula.

Taula: Funcions de les mesures de posició no central
Funció Resultat
= MAX(rang) Retorna el valor més alt d’una sèrie de valors
= MIN(rang) Retorna el valor més baix d’una sèrie de valors
= VAR(rang) Calcula la variància basada en els valors d’una mostra
= VAR.P(rang) Calcula la variància basada en tota la població
= DESVEST(rang) Calcula la desviació típica o estàndard basada en els valors d’una mostra
= DESVEST.P(rang) Calcula la desviació típica o estàndard basada en tota la població
= PEARSON(rang1;rang2) Calcula el coeficient de variació de Pearson de correlació entre dues sèries de dades

Mesures de forma de la distribució

La descripció estadística d’una mostra de dades no acaba amb el càlcul de la seva tendència central i de la seva dispersió. Per fer una descripció completa convé estudiar dos factors: el grau de simetria de les dades respecte a la seva mitjana central i la curtosi, és a dir, la concentració de dades al voltant d’aquesta mitjana.

Una distribució de mesures és simètrica quan els valors equidistants de la variable, a un costat i un altre del valor central, tenen la mateixa freqüència. Aquesta simetria es pot observar en l’histograma (gràfic o diagrama de barres) al voltant de la vertical corresponent al punt central. Quan la distribució és perfectament simètrica els valors de la mitjana aritmètica, la mediana i la moda coincideixen ( = Me = Mo).

Si la distribució no té simetria, es diu que és asimètrica a la dreta (o positiva) o a l’esquerra (o negativa) segons si l’histograma mostra una cua de mesures cap a valors alts o baixos de la variable, respectivament. També es pot dir que la distribució està esbiaixada a la dreta (biaix positiu) o a l’esquerra (biaix negatiu).

Quan una distribució és asimètrica, la mitjana, la mediana i la moda no coincideixen: MeMo (asimetria positiva) i MeMo (asimetria negativa).

En la figura es poden veure les representacions gràfiques dels diferents tipus de simetria d’una distribució.

Figura Tipus de simetria d’una distribució

A més de la simetria, una altra característica important de la forma com es distribueixen les dades d’una mostra és la forma amb què s’agrupen al voltant del valor central o curtosi.

En la figura es pot veure com les dades es poden distribuir de manera que hi hagi un pic al voltant del valor central (distribució leptocúrtica), o bé, a l’extrem oposat, l’histograma pot ser molt pla (distribució platicúrtica). També hi ha un cas intermedi en el qual l’histograma no té pic ni és pla (distribució mesocúrtica) que coincideix amb la forma de la distribució normal o campana de Gauss.

Figura Tipus de curtosi d’una distribució

Per tant, la distribució mesocúrtica presenta una curtosi igual que la de la distribució normal; la distribució leptocúrtica presenta una curtosi més apuntada que la de la distribució normal i, finalment, la distribució platicúrtica presenta una curtosi menys apuntada que la de la distribució normal.

Tècniques de regressió i correlació

La regressió estadística és el procediment mitjançant el qual s’analitza la relació que hi ha entre dues o més variables.

La regressió es pot utilitzar per definir un model que permeti fer una previsió de com es comportaran les dues variables.

Generalment, la regressió es fa servir per interpretar situacions reals, però no sempre es fa de forma correcta; per això és molt important seleccionar de forma adequada les variables amb les quals es definiran les equacions de la regressió. Si s’utilitzen variables que no tenen cap relació, el resultat serà un model de regressió sense cap sentit.

En la representació gràfica de la regressió, el núvol de punt aporta informació sobre la dispersió de les dades i, segons com sigui, es pot donar alguna de les relacions de regressió següents:

  • Regressió lineal: y = a + b · x
  • Regressió logarítmica: y = a + b · ln(x)
  • Regressió exponencial: y = a · bx

Per obtenir un bon model de regressió cal obtenir el coeficient de correlació (R), que mesura el grau de relació que hi ha entre dues variables. El seu recorregut varia en l’interval (-1, 1). Com més pròxim estigui R a 1, la relació entre les dades és més gran, per tant, si R ≈ 1, més relació hi ha entre les dades.

La taula taula indica com es classifica el coeficient de correlació.

Taula: Classificació del coeficient de correlació
Tipus de relació Interval de relació
Perfecta R = 1
Excel·lent 0,9 ≤ R ≤ 1
Bona 0,8 ≤ R ≤ 0,9
Regular 0,5 ≤ R ≤ 0,8
Dolenta R < 0,8

La correlació estadística és la relació o dependència que hi ha entre dues o més variables que formen part d’una distribució bidimensional.

La correlació determina si els canvis que es produeixen en una de les variables influeixen en l’altre i, si això passa, es diu que les dues variables estan correlacionades.

El coeficient de correlació s’expressa mitjançant la lletra r; la seva fórmula, que mesura la relació lineal entre dues variables, és la següent:

Els diferents tipus de correlació que hi ha són:

  • Correlació directa: hi ha una relació directa entre les dues variables quan s’augmenta el valor d’una de les variables i també augmenta el valor de l’altre. Gràficament, en el núvol de punts s’observa una línia de punts força agrupats i creixent.
  • Correlació inversa: hi ha una relació inversa entre les dues variables quan en augmentar el valor d’una de les variables disminueix el valor de l’altre. Gràficament, en el núvol de punts s’observa una línia de punts força agrupats i decreixent.
  • Correlació nul·la: no existeix cap tipus de dependència entre les variables i, normalment, la representació gràfica dels punts té una forma arrodonida.

El grau de correlació indica la proximitat entre els punts del núvol i es poden distingir, bàsicament, els dos tipus de correlació següents:

  • Correlació forta: es dóna quan els punts del núvol estan molt pròxims entre si, és a dir, quan hi ha poca dispersió.
  • Correlació dèbil: es dóna quan els punts del núvol estan més distanciats entre si, és a dir, quan hi ha més dispersió.

En la figura figura es poden veure representades gràficament els diferents tipus de correlació.

Figura Representació gràfica dels tipus de correlació

Tècniques d’anàlisi probabilística

Sovint ens interessem per fenòmens on intervé l’atzar. Aquests fenòmens es caracteritzen pel fet que el resultat de les observacions varien d’una experiència a una altra.

La probabilitat (P) és un nombre comprès entre 0 i 1 que indica la posibilitat que un succés aleatori es pugui verificar un cop ha succeït.

La probabilitat indica la freqüència amb què s’obté un resultat, o conjunt de resultats, en portar a terme un experiment aleatori, del qual es coneixen tots els resultats possibles, i sota condicions suficientment estables.

Les propietats principals de la probabilitat són:

  • La suma de les probabilitats d’un succés i el succés contrari és igual a 1:
  • La probabilitat d’un succés impossible és sempre igual a 0:
  • La probabilitat de la unió de dos o més successos és la suma de les seves probabilitats menys la probabilitat de la intersecció:
  • Si un succés està inclòs en un altre, la seva probabilitat és igual o menor: si , llavors

Experiència aleatòria i successos

Diem que una experiència és aleatòria si és impossible de predirne el resultat.

Suposem que, en repetir una determinada experiència en les mateixes condicions, podem obtenir un conjunt de resultats diferents. Per exemple, en llançar un dau podem obtenir un resultat qualsevol d’entre els següents {1, 2, 3, 4, 5, 6}, però no podem predir quin. Es tracta, doncs, d’una experiència aleatòria.

Cara o creu?

Veure què surt si llancem una moneda a l’aire és un experiment aleatori (els resultats possibles són cara o creu, però en cada tirada no podem dir quin dels dos sortirà) amb espai mostral:

Anomenem espai mostral, , el conjunt de resultats possibles d’una experiència aleatòria.

Continuant amb l’exemple del dau, l’espai mostral és:

Donat un espai mostral, , anomenem succés (esdeveniment), A, qualsevol subconjunt de l’espai mostral, . Un succés és elemental quan té un únic element.

Denotarem els esdeveniments mitjançant lletres majúscules A, B, C

En general, els esdeveniments contenen més d’un resultat i moltes vegades ens interessa conèixer el nombre de resultats que contenen. Card (A) denotarà el nombre de resultats que conté l’esdeveniment A.

Per exemple, treure un nombre major que 5 en llançar un dau és un esdeveniment elemental o resultat, ja que correspon a treure un 6. En canvi treure un nombre parell no és un succés elemental, ja que no es correspon amb un únic valor concret del dau.

Es poden distingir els tipus de successos bàsics següents:

  • Succés elemental o simple: es cadascun dels elements que formen part de l’espai mostral. Per exemple, llançar un dau i que surti un 5 és un succés elemental.
  • Succés segur: denotat per (E) és el conjunt format per tots els possibles resultats d’un experiment aleatori. Per exemple, llançar un dau i optenir un nombre menor que 7, això segur que passa sempre.
  • Succés impossible: denotat pel símbol del conjunt buit (), és el succés que no ocorre mai. Per exemple, llançar un dau i obtenir un 8 és un succés impossible.
  • Succés incompatible: dos esdeveniments són incompatibles si no tenen cap element en comú. Per exemple, si A és llançar un dau i optenir un nombre parell i B és obtenir un múltiple de 5, llavors A i B són incompatibles.

Operacions amb successos

Les operacions bàsiques que es poden fer amb els successos són:

  • Unió de successos: A unió B () és el conjunt que té tots els elements de A i també els de B. El succés es dóna, si passa A, passa B o passa A i B alhora.
  • Intersecció de successos: donats dos successos, A i B, A intersecció B, , és el conjunt que té tots els elements de A que alhora també són de B. El succés es dóna, si passa A i B alhora.
  • Diferència de successos: són tots els elements de A que no són de B. Per exemple, si en llençar un dau el succés A és treure 2 o 6 i el succés B és treure 5 o 6, la diferència entre A i B és: A - B = {2, 6} - {5, 6} = 2.
  • Complementarietat de successos: són tots els successos que completen un altre succés. Per exemple, si en llançar un dau B = {1, 2, 5}, aleshores Bc = {3, 4, 6}, precisament els resultats que no són a B. Si el succés és A = treure un nombre parell, aleshores A = {2, 4, 6} i Ac = {1, 3, 5} que es correspon amb els nombres senars.

Probabilitat i freqüència

La probabilitat d’un succés és una mesura de la tendència a donar-se que té el succés. Aquesta mesura serà un nombre situat entre dos valors: el 0, que serà la probabilitat d’un succés que no es pugui donar mai (el succés impossible) i l’1, que es correspondrà amb un succés que es dóna sempre (el succés segur).

Repetim l’experiment aleatori un nombre R de vegades; si dividim el nombre de vegades que es dóna un resultat per R obtenim la freqüència relativa del resultat. Evidentment, la freqüència relativa de qualsevol resultat és un nombre entre 0 i 1. La suma de les freqüències relatives de tots els resultats ha de ser igual a 1.

Freqüència relativa d'un succés

La freqüència relativa d’un succés s’obté dividint el nombre de vegades que el resultat que s’obté en realitzar l’experiment és favorable al succés pel nombre de repeticions de l’experiment.

Exemple de la freqüència relativa en un dau trucat

Llancem un dau R =100 cops i anotem quantes vegades apareix cada resultat. En la taula es mostren els resultats.

Taula: Resultats del llançament d’un dau
Resultat Aparicions
1 12
2 28
3 20
4 20
5 5
6 15

La freqüència relativa del resultat 2 és 28/100; el resultat 5 té freqüència relativa 5/100. Com podeu veure, hi ha nombres que tenen més tendència a sortir que d’altres, la qual cosa ens pot fer sospitar que el dau no és ben bé “neutral”. La freqüència relativa és un indicador numèric de la tendència a donar-se que té cada resultat.

Quina és la freqüència relativa del succés P=”treure un nombre parell”? De les cent vegades que hem llançat el dau, 28 + 20 + 15 vegades hem obtingut un nombre parell; per tant, la freqüència relativa de Pés:

que és precisament igual a:

és a dir, la suma de les freqüències relatives del 2, el 4 i el 6 (els resultats parells). Així, doncs, el 63% de les vegades ha sortit un nombre parell.

Successos incompatibles

Dos successos són incompatibles quan la freqüència relativa de la seva unió és la suma de les respectives freqüències relatives.

Anàlisi multivariant

L’estadística multivariant treballa amb més de dues variables. El primer que farem serà presentar la regressió lineal múltiple, que es diferencia de la simple en el fet que disposa de més d’una variable explicativa.

En el cas de la regressió lineal simple, on si volguéssim modelitzar la influència que exerceix la variable “metres de litoral” sobre la variable “nombre de socorristes”, podríem agafar mostres d’alguns municipis amb litoral i crear un model de regressió lineal que ens quantificaria aquesta relació; de manera que podríem predir el nombre de socorristes per a un determinat municipi.

Però suposem que ara volem tenir altra variable explicativa del nombre de socorristes. Considerem com a variables explicatives tant “metres de litoral” com una nova variable, que seria “nombre de places hoteleres”. En aquest cas també obtenim una fórmula que ens permetrà predir valors de la variable explicada en funció dels valors de les variables explicatives.

Hi ha altres tècniques multivariants, la majoria de les quals principalment pretenen obtenir alguna descripció de les relacions entre les variables. Les més conegudes i utilitzades són l’anàlisi de components principals i l’anàlisi de conglomerats (cluster).

Anàlisi de components principals

Bàsicament, aquesta tècnica s’utilitza per reduir la dimensionalitat de les dades. En aquest cas no tenim cap variable explicada i tractem de representar gràficament les relacions entre les variables de l’estudi que estem realitzant. Si tenim moltes variables, representar-les directament només ens aportaria confusió.

La solució que dóna aquesta tècnica estadística consisteix a crear uns nous eixos, com una combinació lineal de les variables originals. Un cop tenim aquests eixos (que es van creant de més explicatiu a menys explicatiu), podem fer representacions dels individus en gràfics bidimensionals que contenen la informació d’aquelles variables que han contribuït a la creació d’aquests nous eixos; anomenats eixos factorials o components principals.

Per exemple, suposem que tenim 5 variables i volem reduir-ne la dimensionalitat per tal de veure millor les seves interrelacions (x1, x2,x3, x4 i x5).

Fent una anàlisi de components principals, obtenim uns nous eixos (eixos factorials) que són perpendiculars entre ells i que s’obtenen com a combinació lineal d’aquestes 5 variables originals.

Tenint en compte els dos primers eixos, suposem que s’obtenen de les combinacions lineals següents:

  • Eix 1 = a11 · x1+a12 · x2+a13 · x3+a14 · x4+a15 · x5
  • Eix 2 = a21 · x1+a22 · x2+a23 · x3+a24 · x4+a25 · x5

On a11, a12,…, a25 són constants que ens indiquen el pes de cada variable en cada eix. Per exemple, si a11 fos més gran que la suma de a12, a13, a14 i a15 indicaria que al primer eix, la variable x1 té molt més pes que la resta de variables.

Després d’obtenir els nous eixos, traduïm els valors originals a les coordenades d’aquests i representem els individus. Obtenim així un gràfic com el que es representa en la figura.

Figura Gràfic de les components principals

Per fer la interpretació dels resultats haurem de posar nom a aquests eixos en funció de les variables que més influeixen en la seva construcció.

Suposem que estem estudiant aspectes de qualitat de vida d’un determinat país i fem l’anàlisi de components principals. El primer eix queda principalment definit per les variables (tot i que a la seva construcció hi hagin contribuït altres variables):

  • X2: llits hospitalaris per cada mil habitants.
  • X5: despesa per càpita en sanitat.

Llavors aquest primer eix es podria anomenar qualitat de la sanitat.

Ara imaginem que el segon eix queda bàsicament definit per les variables:

  • X1: renda per càpita.
  • X3: sou mitjà.

Llavors aquests eix el podrien anomenar riquesa individual.

Un cop hem posat un nom coherent a aquests eixos (en funció de les variables que contribueixen a la seva creació) podem interpretar el gràfic, estudiant la posició de cada país respecte als eixos i respecte a la resta de països.

Un país que estigui a la dreta i a dalt, com és el cas del país A, tindrà una sanitat de qualitat alta i un valor elevat per la riquesa individual. A l’inrevés que el país B, el qual es troba a l’extrem oposat del gràfic (vegeu la figura).

D’altra banda, dos països propers al gràfic tindran característiques semblants respecte a les variables d’estudi.

Amb aquest exemple hem volgut mostrar de quina manera l’anàlisi de components principals redueix la dimensionalitat del conjunt de les dades estudiades per tal de facilitar-ne la interpretació.

Anàlisi de conglomerats ('cluster')

Aquesta tècnica té com a finalitat fer grups amb els individus de la mostra estudiada. El criteri bàsic és que els individus siguin tan homogenis com sigui possible dins d’un grup i que els grups siguin tan heterogenis com sigui possible entre ells.

Es tracta d’anar fusionant els individus en funció de la seva proximitat, per la qual cosa el terme clau és la “distància”, i al final del procés queda un únic grup que engloba tots els individus. El següent pas és identificar el nombre de grups que volem tenir i identificar quines variables els diferencien, i d’aquesta manera queden identificats els individus de cada grup en funció de les característiques d’aquestes variables.

Per exemple, suposem que volem fer grups amb 5 individus (A, B, C, D i E) en funció d’unes determinades característiques. Amb el gràfic que es representa en la figura, anomenat dendrograma, podem veure de quina manera es van agrupant els individus o agrupacions més properes.

Figura Dendograma

Cal recordar que normalment el concepte de proximitat entre els individus es basa en la distància euclidiana dins del marc de l’espai definit per les variables d’estudi.

Els passos per a la creació del dendograma són els següents (vegeu la figura):

  1. En un primer moment queden aparellats A i B (veiem que són els més propers tenint en compte que la línea vertical de cadascun d’ells és molt curta; per això s’uneixen tan aviat).
  2. Els següents a unir-se són els individus D i E.
  3. Després l’individu C s’uneix a A i B.
  4. Finalment, el grup (A, B, C) s’uneix al grup format per D i E.

En aquest moment s’acaba la realització del dendrograma i passem a decidir quants grups seria adequat fer. Les opcions més clares (en funció de la llargada de les línies verticals) serien:

  • 3 grups (línia horitzontal contínua): {(A, B), (C) , (D,E)}
  • 2 grups (línia horitzontal discontínua) : {(A, B, C), (D,E)}

Per decidir el nombre de grups, a més de mirar la llargada de les línies (com més llarga sigui més heterogeneïtat hi haurà entre els grups), hem de tenir en compte els interessos de l’anàlisi que estem fent.

Contrast d'hipòtesis

És equivalent parlar de test o de contrast d’hipòtesis.

Trobareu casos de contrast d’hipòtesis a la secció “Annexos” del web del mòdul.

El contrast d’hipòtesis s’utilitza per prendre alguna decisió sobre el valor d’algun paràmetre poblacional, i per això partim dels valors d’una mostra de la població sobre la qual volem prendre la decisió.

Exemple de la moneda

Llancem a l’aire una moneda 50 vegades. Suposem que la moneda no està trucada i, per tant, esperem obtenir un 50% de cares i un 50% de creus (és a dir, 25 cares i 25 creus). Què passa si els resultats s’allunyen del que esperem? I si obtenim 30 cares i 20 creus? Tenim l’opció de considerar que aquesta distància entre el que observem i el que esperem és fruit de l’atzar (és a dir, que amb una altra tirada de 50 vegades obtindrem uns valors més propers a 25 cares i 25 creus) o tenim l’opció de pensar que aquesta distància és massa gran per poder considerar que és deguda exclusivament a l’atzar i considerar que la moneda està trucada.
En aquest cas, volem decidir si podem considerar que la moneda està trucada.

Exemple de l'empresa cervesera

Una associació de consumidors acusa una empresa cervesera que les seves ampolles de 33 cl contenen menys d’aquesta quantitat. Sabem que la desviació típica poblacional del contingut d’aquestes ampolles és de 2,5 cl. Per demostrar-ho compren 200 ampolles en diferents establiments i mesuren la quantitat de cervesa, obtenint per aquests mesuraments una mitjana de 32,6 cl. És suficient aquesta diferència entre els valors de la nostra mostra i els especificats per l’empresa per afirmar que estan posant menys de 33 cl a les ampolles?, o aquesta diferència és deguda a l’atzar i amb una altra mostra diferent obtindríem un valor per a la mitjana de quantitat de cervesa més proper al que s’indica a l’ampolla?
En aquest cas, es vol prendre la decisió de considerar si l’empresa menteix o no.

Els contrastos d’hipòtesis aplicats als dos paràmetres més usuals són:

  • Contrast d’hipòtesis per a la mitjana.
  • Contrast d’hipòtesis per a la proporció.

Val a dir que només es tractarà el cas en què es vol contrastar si es pot considerar que un determinat paràmetre d’una determinada població pot prendre un determinat valor. Queda fora del nostre abast el cas en què es vulguin comparar els paràmetres de dues o més poblacions entre si.

Plantejament d'hipòtesis

Abans de res hem de plasmar en dues hipòtesis les dues possibilitats del procés de decisió. Cada una de les hipòtesis s’ha de presentar en funció del paràmetre poblacional sobre el qual volem prendre la decisió. En aquest sentit:

  • La hipòtesi nul·la reflecteix el que volem provar; l’anomenarem H0.
  • La hipòtesi alternativa reflecteix la possibilitat que ens allunyem tant de la suposició de H0, que hàgim de rebutjar-la. Aquesta hipòtesi es denota per H1.

Exemple de plantejament d'hipòtesis

Una associació de consumidors acusa una empresa cervesera que les seves ampolles de 33 cl contenen menys d’aquesta quantitat. Ssabem que la desviació típica poblacional del contingut d’aquestes ampolles és de 2,5 cl. Per demostrar-ho compren 200 ampolles en diferents establiments, mesuren la quantitat de cervesa i n’obtenim una mitjana de 32,6 cl. La hipòtesi nul·la en aquest cas seria:

La hipòtesi alternativa pot prendre tres formes en funció del que es vol contrastar:

  • Bilateral: quan volem veure que la quantitat de cervesa és diferent de la indicada en l’ampolla, però no ens importa si en té més o menys quantitat:
  • Unilateral: quan volem detectar si els valors del paràmetre poblacional s’allunyen en una direcció en concret:
    • si es vol comprovar que hi ha més cervesa de la indicada:
    • si es vol comprovar que hi ha menys cervesa de la indicada:

Normalment fem el contrast de manera que el que posem a H0 sigui el que indica que la situació no queda alterada, mentre que el que posem a H1 indica el que volem demostrar. Per exemple, en el cas de les cerveses l’associació de consumidors posarà un H1 per indicar que l’empresa està posant menys cervesa de la indicada, mentre que si fos l’empresa la que fes el contrast, posaria a H1 allò que indiqués que estan omplint les ampolles correctament.

En prendre la decisió d’acceptar o rebutjar una hipòtesi o una altra, potser podem encertar o equivocar-nos. Podem cometre, doncs, dos tipus d’errors:

  • Error tipus I: quan rebutgem la H0 essent aquesta certa, ho denotem mitjançant la lletra grega .
  • Error tipus II: quan acceptem la H0 essent aquesta falsa, ho denotem mitjançant la lletra grega .

La taula mostra els quatre possibles resultats quan fem un contrast d’hipòtesis.

Taula: Possibles resultats d’un contrast d’hipòtesis
Decisió:
Acceptar H0
Decisió:
Rebutjar H0
Realitat H0 és certa Correcte Error tipus I
H0 és falsa Error tipus II Correcte

Com podem prendre la decisió de manera que minimitzem tant l’error de tipus I com l’error de tipus II? El problema és que si fem petit un error, l’altre error creixerà. Únicament en el cas que tinguem la possibilitat de prendre una mostra més gran podríem fer més petits aquests dos errors.

Davant d’aquesta situació, s’ha imposat la fixació arbitrària d’un valor per α (error del tipus I), de manera que es rebutjarà H0 únicament quan les dades siguin molt poc coherents amb aquesta hipòtesi.

Nivell de significació

Nivell de signifació del 0,05

Un nivell α = 0,05 ens indica que, tot i que la hipòtesi nul·la sigui certa, les dades ens la faran rebutjar per a 5 de cada 100 mostres. Per tant, acceptem que podem rebutjar la hipòtesi nul·la erròniament, 5 vegades de cada 100.

El nivell de significació indica el percentatge de vegades que estem disposats a cometre un error del tipus I.

La determinació del nivell de significació és arbitrària i varia depenent de la naturalesa de les dades amb les quals es realitza el contrast d’hipòtesi. Els valors més utilitzats per a α són 0,05; 0,01 i 0,1.

Amb aquesta tàctica de fixar l’error de tipus I fem que el contrast sigui més conservador, atès que només rebutjarem la H0 quan tinguem una evidència molt clara.

Estadístic de contrast

Després de decidir tant les hipòtesis com l’error de tipus I, hem de passar a calcular l’estadístic de contrast, gràcies al qual prendrem la decisió de rebutjar o no rebutjar la H0.

Un estadístic de contrast és una funció de la mostra de la qual coneixem la distribució sota la hipòtesi nul·la.

Exemple de definició de l'estadístic de contrast

Una associació de consumidors acusa una empresa cervesera que les seves ampolles de 33 cl contenen menys d’aquesta quantitat. Sabem que la desviació típica poblacional del contingut d’aquestes ampolles és de 2,5 cl. Per demostrar-ho compren 200 ampolles en diferents establiments i mesuren la quantitat de cervesa, obtenint per aquests mesuraments una mitjana de 32,6 cl.

Tenim una mostra de 200 ampolles i aleshores sota la hipòtesi nul·la (és a dir, μ = 33) definim la variable:

El seu valor segueix una llei normal (0,1).

A partir del fet que la hipòtesi nul·la és certa, aquest estadístic de contrast hauria de trobar-se prop de 0. Si està molt allunyat de zero hauríem de rebutjar H0. Com decidirem que és ‘molt allunyat’? Estarà molt allunyat quan l’àrea que deixi cap a l’extrem sigui menor que la fixada pel nivell de significació.

Trobareu les taules estadístiques a la secció “Annexos” del material web.

Cada estadístic de contrast s’avalua en una determinada corba o distribució (Normal, T-Student…). En col·locar l’estadístic de contrast a la corba corresponent, veurem que deixa una àrea cap a l’extrem d’aquesta corba.

El concepte d’àrea en una distribució estadística és equivalent al de probabilitat.

Procediment per resoldre un contrast d'hipòtesis

Per resoldre un contrast d’hipòtesis seguim cinc etapes:

  1. Plantejar les hipòtesis nul·la i alternativa.
  2. Decidir un nivell de significació.
  3. Determinar l’estadístic de contrast i la seva llei.
  4. Calcular el p-valor associat al nostre estadístic de contrast calculat.
  5. Comparar el p-valor amb el nivell de significació i prendre una decisió.
Anar a la pàgina anterior:
Referències
Anar a la pàgina següent:
Activitats