Determinació de la mostra de la població

El grau de rigor en el procés de recollida d’informació és un aspecte clau per a la validesa dels resultats d’una investigació.

Com en la majoria de processos d’investigació, en una investigació de mercats se sol utilitzar només un subconjunt representatiu de tots els elements del col·lectiu, ja que no és possible obtenir informació de tots els elements pel cost econòmic que representaria i per la inversió de temps. Això suposa portar a terme un procés de mostreig.

El procés de mostreig consisteix a definir la població objecte d’estudi i les seves característiques, escollir el mètode de mostreig, és a dir, el procediment mitjançant el qual s’escolliran els elements de la població i determinar la quantitat d’elements que s’han de seleccionar.

Per prendre totes aquestes decisions cal emprar unes determinades tècniques estadístiques, per garantir que els resultats que s’obtindran a partir de la mostra siguin representatius de la població total.

Els conceptes bàsics que intervenen en els processos de mostreig són la distinció entre població i mostra, què és un estadístic, un paràmetre i un estimador, què és una variable estadística o una observació, i els diferents tipus de tècniques de mostreig.

La tècnica de mostreig aleatori simple assegura que tots els individus de la població tenen la mateixa probabilitat de ser escollits i que els individus se seleccionen de manera independent els uns dels altres.

Conceptes bàsics de mostreig

Hi ha dos conceptes que sovint s’utilitzen indistintament quan es parla de mostreig, aquest dos conceptes són: població i univers.

Alguns autors consideren que la població i l’univers són el mateix concepte, tanmateix hi ha algunes diferencies.

L’univers és el conjunt d’individus o objectes que tenen una característica comuna, observable i suceptible de ser mesurada. En canvi, la població és el conjunt de mesures o observacions que s’han fet sobre una o diverses característiques dels elements de l’univers.

La població és el conjunt de valors numèrics que s’obtenen quan es mesura una característica dels individus o elements de l’univers. Per tant, dins del mateix univers hi pot haver diferents poblacions si es mesuren característiques diferents.

Exemple de diferència entre univers i població

Suposem que una empresa vol fer un estudi sobre el perfil dels consumidors d’una beguda isotònica recomanada per a persones que practiquen algun esport. L’univers estaria format pel conjunt de persones que consumeixen o que podrien consumir aquest producte.

Dins d’aquest univers hi podria haver diferents poblacions, per exemple, una població podria ser el conjunt de persones ja consumerixen el producte classificat per sexe (homes i dones) i franges d’edat. D’altra banda, una altra població podria ser el conjunt de persones que practiquen algun esport i que podrien consumir el producte.

Així doncs, en un mateix univers hi pot haver diferents poblacions si es mesuren característiques diferents.

El nombre d’individus o d’elements susceptibles de participar en la investigació és el que s’anomena mida de la població i pot ser de dos tipus: finita o infinita.

Les poblacions que contenen fins a 100.000 individus o elements es consideren poblacions finites i les que tenen més es consideren poblacions infinites.

La majoria de vegades en què s’ha de fer una investigació no és possible estudiar la totalitat dels individus o elements de la població, per això només se n’estudia un grup representatiu que permeti generalitzar o extrapolar els resultats obtinguts a la totalitat. Aquest procediment es coneix com a inferència estadística.

La inferència estadística és el conjunt de mètodes i tècniques que permeten la generalització dels resultats obtinguts, a partir de la informació empírica proporcionada per una mostra, a la totalitat de la població, amb el risc de cometre un error mesurable en termes de probabilitat.

Per a l’aplicació de procediments d’inferència estadística cal que la quantitat d’individus o elements i la forma en què han estat seleccionats siguin adequades.

La mostra és el subconjunt d’individus o d’elements seleccionats que es consideren representatius de l’univers que es vol estudiar.

Les característiques dels individus o dels objectes que s’observen s’anomenen variables estadístiques i poden prendre valors diferents. Una observació és el conjunt de valors de cada variable estadística mesurats sobre un mateix individu o element.

Exemple de variable estadística i d'observació

En una població de 100 individus es podrien estudiar 3 variables com l’edat, el sexe i si han exercit el dret de vot en unes determinades eleccions. Cadascuna de les respostes aportades pels individus constitueix una observació.

Així, una observació podria ser: 20 anys, dona, sí.

La majoria de vegades el que interessa conèixer d’una població és un valor, per exemple, el comsum mitjà, la renda mitjana… o una determinada proporció, per exemple, percentatge de consumidors d’un producte, proporció de clients que utilitzen un servei… Però altres vegades ens interessa conèixer atributs que no són quanitificables, per exemple, la professió, la nacionalitat…

Les variables són característiques quantificables, en canvi, els atributs són característiques no quantificables.

El nombre d’individus que se seleccionen és el que determina la mida de la mostra. Si la mostra és pràcticament igual que la població s’anomena cens.

El marc mostral és una llista dels elements que formen part de l’univers que es vol estudiar i sobre el qual se selecciona la mostra. Aquests elements poden ser individus però també poden ser llar, institucions o qualsevol altre element que es pugui investigar. Cadascun dels elements del marc mostral s’anomena unitat mostral.

Exemple de cens, marc mostral i unitat mostral

Si es vol fer un estudi de la dona en el món del treball, el cens i el marc mostral seran diferents perquè cal treure del cens totes les dones que no es troben en edat de treballar.

Cadascuna de les dones que treballa i que, per tant, formen part del cens serà una unitat mostral.

Utilitzant els valors que pren una variable en una mostra es poden calcular mesures estadístiques (mitjana, desviació estàndard, proporcions…) els valors de les quals es podran generalitzar o extrapolar a tota la població.

Extrapolar: treure conclusions o generalitzar a partir de dades incompletes o fragmentàries.

Les mesures estadístiques calculades a partir de les dades d’una mostra s’anomenen estadístics, en canvi, quan es refereixen al conjunt de la població s’anomenen paràmetres.

Atès que en la majoria de casos es treballa amb mostres, els estadístics serveixen per aproximar-se als valors reals d’aquestes mesures en la població.

Els estimadors són mesures que serveixen per estimar o aproximar-se als valors que realment es donen en la població (paràmetres).

Estimació: tècnica per a conèixer el valor aproximat (estadístic) d’un paràmetre de la població.

Exemple d'estimació

Per calcular el preu mitjà d’un producte en el mercat es pot seleccionar una mostra d’establiments en els quals es ven el producte i fer diferents observacions sobre el preu en cadascun dels locals comercials.

La mitjana que s’obté de les observacions és un estadístic que es pot utilitzar com a estimador del preu mitjà del producte. Si els càlculs es fan a partir de les observacions de tots els establiments en què es ven el producte, s’obtindrà un paràmetre.

Aquest paràmetre és més difícil d’aconseguir ja que representa fer moltes més observacions, és a dir, obtenir el preu en tots els establiments comercials on es ven el producte.

Si no s’analitza tota la població és molt probable que el valor obtingut de la mostra no coincideixi amb el valor poblacional. No obstant això, per minimitzar la possible diferència, cal assegurar-se que la mostra és prou àmplia i que s’ha obtingut mitjançant un mètode de mostreig eficient.

Si la mostra és poc representativa de la població global parlem de mostra esbiaixada, és a dir, que ha estat falsament considerada com a típica de la població de la qual s’ha obtingut.

Quan per fer l’estimació es pren una mostra enlloc de la població total s’incorre en un error de mostreig que hem d’estar disposats a assumir.

L’error de mostreig és la diferència entre el valor obtingut a partir d’una mostra i el valor real que s’obtindria amb el conjunt de la població.

D’altra banda, un altre concepte molt important quan es fan estimacions és el nivell de confiança.

El nivell de confiança expressa el grau de seguretat que un valor estimat es trobi dins dels límits de confiança.

Tot i que, tècnicament, el nivell de confiança no és una probabilitat sí que se sol interpretar així. Normalment, el nivell de confiança s’expressa en percentatges que acostumen a ser del 90%, 95% i 99%.

Exemple d'interval de confiança

Suposem que s’ha preguntat a una mostra de 50 individus si han consumit un determinat producte durant l’últim mes i s’ha estimat que la proporció és de 3/4 o el 75%. Si el nivell de confiança és del 90%, vol dir que si repetíssim la pregunta a un altre grup de 50 individus diferents 100 vegades més, 90 vegades obtindríem la mateixa proporció i només 10 vegades (100 - 90) s’obtindria una proporció diferent.

Com més alt és el nivell de confiança, més possibilitats hi ha que el valor poblacional estimat sigui el mateix que el valor calculat a partir de la mostra.

Evidentment, com més gran sigui la mostra que el vol analitzar, més temps i recursos s’hi hauran de destinar, per tant, la determinació de la mostra també està condicionada pels costos econòmics i de temps.

Fases del procés de mostreig

El procés de mostreig està format per les diferents accions que cal portar a terme per seleccionar una mostra representativa de la població, és a dir, el mínim imprescindible de persones o elemnts que s’han d’analitzar perquè els resultats obtinguts permetin donar una resposta efectiva a l’objectiu de la investigació.

Les fases del procés de mostreig són:

  1. Definir la població. Consisteix a concretar els elements, les unitats de mostreig, l’abast i el temps de la mostra.
  2. Identificar els criteris per a la selecció la mostra. Convé disposar d’un llistat complet i actualitzat dels registres de la mostra, tot i que no sempre és possible.
  3. Determinar la mida de la mostra. Consisteix a establir el nombre d’elements que es volen incloure a la mostra perquè no sigui ni massa gran, la qual cosa representaria molts costos, ni massa petita perquè no seria representativa.
  4. Elecció del procediment per seleccionar la mostra. Consisteix a determinar com se seleccionaran els diferents elements de la població que s’inclouran a la mostra.
  5. Selecció de les unitats mostrals. Consisteix a concretar exactament quin serà cada individu o element a partir del qual es recolliran les dades necessàries sobre els que es vol observar.

Exemple de fases del procés de mostreig

Suposem que una empresa vol fer un estudi sobre el consum dels seus clients. Per fer-ho, el primer que fa és definir la població: clients que han comprat més de dues vegades durant els dos últims mesos. Per identificar els clients que compleixen aquest requisit utilitzarà un llistat de les vendes que ha fet l’empresa durant aquest període de temps, ordenat per ordre alfabètic segons el nom del client. A continuació caldrà determinar quin és el nombre de clients que se seleccionaran, és a dir, la mida de la mostra i, per fer-ho, s’aplicaran procediments estadístics que permeten calcular la mida de la mostra perquè els resultats obtinguts es puguin generalitzar al conjunt de la població. Per seleccionar cadascun dels clients que s’analitzaran es pot determinar, per exemple, que a partir del llistat ordenat, s’escolliran els clients de la llista que es trobin en posicions múltiples de 10, o sigui, el 5è, el 10è, el 15è, el 20è… fins a obtenir el nombre total que s’ha determinat com a mida de la mostra.

Mida de la mostra

Un cop definides les característiques que ha de tenir el col·lectiu de persones sobre el qual s’obtindrà informació, cal seleccionar una mostra representativa del conjunt d’individus, per tant, s’ha de determinar quants individus exactament han de formar part de la mostra.

Els elements que influeixen en la mida de la mostra són: mida de la població, error de mostreig, disperció poblacional i nivell de confiança.

Mida de la població

En principi, com més gran sigui la mida de la població, més gran hauria de ser la mostra perquè els resultats siguin vàlids. Tanmateix, a partir d’un determinat límit de mida de la població (aproximadament 100.000 elements), la mida de la mostra no depèn de la població de la qual s’extreu.

Per tant, la mida de la població només s’ha de tenir en compte si es treballa amb poblacions finites.

Les poblacions poden ser:

  • Finites (fins a 100.000 elements), en aquest cas cal considerar la mida de la població com a dada de referència per calcular la mida de la mostra.
  • Infinites (>100.000 elements), en aquest cas la mida de la mostra no depèn de la mida de la població i, per tant, no es té en compte per calcular la mida de la mostra.

Error de mostreig

L’error de mostreig és la diferència entre els valors obtinguts de la mostra (estadístics) i els que s’haurien obtingut en treballar amb la població total (paràmetres poblacionals).

Com més gran sigui la mida de la mostra, més petit serà l’error de mostreig en generalitzar els resultats. Aquest error es decideix a priori, per tant, segons l’error que s’hagi decidit assumir, la mostra serà més o menys gran.

Dispersió poblacional

Com més gran sigui la variabilitat dels valors que pot prendre una variable, més gran ha de ser la mostra per captar totes les possibles diferències.

És difícil determinar la variabilitat de respostes abans de començar un estudi, tanmateix, com que cal disposar d’aquesta informació per determinar el volum de la mostra, hi ha dues possibilitats:

  • Efectuar un test previ o estudi a petita escala per calcular la dada estadísticament.
  • Suposar, d’entrada, la dispersió més desfavorable, és a dir, la més elevada (que determinaria una mostra més gran).

En la pràctica, la segona opció és la que s’utilitza més sovint.

Variabilitat de valors

Si les observacions d’una mostra es recullen mitjançant enquestes, la variabilitat es reflecteix en una gran diversitat de respostes.

Nivell de confiança

El nivell de confiança indica la probabilitat que el paràmetre de la població que s’estima, per exemple la mitjana, es trobi dins de l’interval de confiança.

Generalment, s’utilitza un nivell de confiança del 95% la qual cosa significa que 19 de cada 20 mostres (95%) de la mateixa població proporcionen intervals de confiança que contenen el paràmetre de la població, o bé, que hi ha un 5% de possibilitats que el paràmetre estimat no estigui inclòs en l’interval de confiança.

Com més alta es vol que sigui la probabilitat que els paràmetres es trobin entre els valors donats, més gran ha de ser la mida de la mostra.

Habitualment, els paràmetres poblacionals que s’estimen quan es fa una investigació comercial són la mitjana i la proporció. S’utilitza la mitjana mostral () com a estimador de la mitjana poblacional (μ) i la proporció mostral (p) com a estimador de la proporció de la població (π). A la taula hi ha els símbols que s’utilitzen per a referir-se a la població i a la mostra.

Taula: Símbols per referir-se a la població i a la mostra
Concepte Població Mostra
Mitjana μ
Variància σ² S²
Proporció “sí” π p
Proporció “no” 1-π 1-p o q
Mida N n

Exemple de valor mitjà i proporció

Un valor mitjà pot ser nombre mitjà de peces de fruita que consumeix una persona al llarg d’un dia i una proporció pot ser la quantitat de dones que hi ha en relació amb els estudiants d’enginyeria tècnica.

Una proporció és la quantitat de vegades que una variable presenta uns valors determinats en relació amb el total de vegades que la variable pren aquests i altres valors.

Quan es fa una investigació mitjançant enquestes és habitual utilitzar el paràmetre proporció mostral per indicar les proporcions de respostes que han donat els entrevistats en un sentit o en un altre en cada una de les preguntes.

Els valors estimats dels paràmetres poblacionals es poden presentar de dues maneres:

  • Donant un únic estimador del paràmetre.
  • Aportant un rang de valors entre els quals es troba el paràmetre poblacional.

Exemple d'estimació de punt i estimació per interval

Si diem que el preu mitjà d’un producte és de 63 € s’està donant una estimació de punt.

Si, d’altra banda, es diu que el preu mitjà d’un producte és de 63 ± 3 i, per tant, es troba entre 60 i 66 €, s’està donant una estimació per interval.

L’estimació d’un paràmetre de població donada per un únic nombre s’anomena estimació de punt del paràmetre. Una estimació d’un paràmetre poblacional donada per dos punts, entre els quals es pot trobar el paràmetre, s’anomena estimació per interval del paràmetre.

Les estimacions per interval indiquen la precisió d’una estimació i són preferibles a les estimacions puntuals. Quan es dóna un interval cal indicar la probabilitat que els valors estiguin compresos en l’interval donat.

Tant la proporció com la mitjana mostrals són variables que es distribueixen mitjançant una distribució normal.

Què és una distribució normal?

Per explicar-ho de manera senzilla, direm que una distribució normal és una distribució de freqüències d’una variable, en la quals els valors que es donen amb més freqüència estan entorn al valor mitjà i aquesta freqüència va disminuint a mesura que els valors es van allunyant de la mitjana.

Per exemple, si l’alçada dels alumnes que estudien cicles formatius és la variable que s’estudia i té una mitjana de 176 cm, el més probable és que el nombre d’alumnes que tingui aquesta alçada o similar sigui superior al nombre d’alumnes que tenen una alçada molt diferent d’aquesta mitjana com ara 158 o 196 cm.

La distribució s’anomena normal perquè es dóna de manera molt habitual en molts experiments de la realitat; en altres ocasions una distribució es pot tractar com si ho fos, encara que realment no ho sigui.

Quan la variable és discreta, la representació gràfica de les freqüències que pren es realitza mitjançant un diagrama de barres vertical (histograma), però quan la variable és contínua, el gràfic pren la forma d’una campana que abraça tot un conjunt de valors, tal com es pot veure en la figura.

Figura Histograma i corba corresponents a una distribució normal

Una variable discreta pren un nombre limitat de valors dins d’un interval de valors propers, com per exemple, el nombre d’alumnes d’un centre, la quantitat d’unitats venudes d’un producte… ja que hi podria haver 100 alumnes, 101 alumnes… però mai 100,1 o 100,2 alumnes.

Una variable contínua pren infinits valors en un interval, i alguns exemples d’aquest tipus de variable són el pes, l’alçada, els imports monetaris…

Les dades d’un histograma es poden representar a partir d’una taula que mostri la freqüència en què es donen els diferents valors que pren la variable. Per representar les dades com una corba cal una funció que s’anomena funció de densitat de probabilitat.

Les freqüències relatives poden ser enteses com la probabilitat que es donin determinats valors.

Quan s’utilitza la corba de distribució normal la probabilitat que es doni un valor determinat (situat a l’eix horitzontal) se sap mirant el valor que el gràfic mostra a l’eix vertical. Quan s’estableix la probabilitat que un valor estigui situat en un interval, aquesta probabilitat estarà representada al gràfic per tota l’àrea que hi ha situada per sota, entre el límit inferior i superior de l’interval.

Per exemple, si en un estudi s’ha obtingut que la mitjana d’alçades dels estudiants de cicles formatius és de 176 cm i es vol determinar un interval de confiança amb una probabilitat del 95% que el valor de la mitjana està comprès en aquest interval.

El gràfic de la figura mostra com el 68% de probabilitat és l’àrea que correspon als valors que es troben a distància de la mitjana : i x. El 95,5% és la probabilitat que els valors estiguin a de la mitjana i el 99,7%, la probabilitat que els valors es trobin a de la mitjana. Òbviament es poden utilitzar altres probabilitats, però aquests són els valors que s’utilitzen més sovint.

Figura Distribució de probabilitats entorn de la mitjana

Imaginem que en una mostra de 81 habitants d’una població es va obtenir una estatura mitjana de 176 cm. Per estudis anteriors se sap que la desviació típica de l’alçada de la població és de 8 cm i es vol construir un interval de confiança per a l’alçada mitjana amb 95,5% de marge de confiança. Amb un 95% l’interval vindrà donat per , en aquest cas que és 174,2 i 177,8.

En el cas que es vulgui fer una estimació d’un interval per a una proporció, l’interval ve donat per:

  • quan l’interval de confiança és del 68%.
  • quan l’interval de confiança és del 95,5%.

Càlcul de la mida de la mostra

El procediment de mostreig aleatori simple és la forma més habitual de seleccionar una mostra. Aquest tipus de mostreig es caracteritza perquè els elements de la mostra se seleccionen de forma aleatòria i tots tenen les mateixes possibilitats de ser seleccionats.

Per determinar la mida de la mostra quan s’aplica el mostreig aleatori simple, és a dir, per calcular el nombre d’elements que ha de contenir la mostra perquè sigui representativa de la població, s’utilitzen les fórmules que figuren a la taula. Aquesta taula recull les fórmules que s’utilitzen per calcular la mida de la mostra tenint en compte:

  • Si la població és finita o infinita.
  • Els tres nivells de confiança que es fan servir habitualment.
  • Si es vol estimar una proporció o una mitjana de la població.

En els apartats “Mètodes de mostreig probabilístic o aleatori” i “Mètodes de mostreig no probabilístic o empríric” d’aquesta mateixa unitat hi ha més informació sobre la mida de la mostra segons el tipus de mostreig que s’utilitza.

La nomenclatura que s’utilitza en les fórmules és la següent:

  • n = mida de la mostra
  • N = mida de la població
  • P = dispersió
  • Q = 1 - P
  • e = error de mostreig
  • σ = desviació típica
Taula: Resum de fórmules emprades per calcular la mida de la mostra per als diferents intervals de confiança
Estimació Intervals de confiança Població finita Població infinita
Proporció 68%
95,5%
99,7%
Mitjana 68%
95,5%
99,7%

Exemple de càlcul de mida de la mostra per a una proporció (població finita)

Es vol fer un estudi per determinar la proporció de persones que utilitzen Internet habitualment en una població de 200 habitants. Tenint en compte que s’assumeix un error del 5% calculeu la mida de la mostra per als tres nivells de confiança.


Solució:

Es tracta d’una població finita perquè té menys de 100.000 individus.

Com que no es coneix p, se suposarà la màxima dispersió possible, per tant p = 0,5 i q = 1 - p també serà 0,5.

Els resultats i els càlculs són:

  • Interval de confiança 68%:
  • Interval de confiança 95,5%:
  • Interval de confiança 99,7%:

S’han d’arrodonir els resultats obtinguts tenint en compte que es tracta de persones i, per tant, no es poden indicar fraccions (han de ser nombres enters).

Per tant, la mida de la mostra segons els tres nivells de confiança són: 67, 134 i 164 individus respectivament. Com més gran és el nivell de confiança, més gran és la mida de la mostra.

Aquests resultats indiquen el nombre de persones a les quals haurem d’entrevistar per obtenir la informació necessària.

Exemple de càlcul de mida de la mostra per a una proporció (població infinita)

Suposem que es vol determinar la mida de la mostra amb les mateixes dades que a l’exemple anterior, però tenint en compte que la població és infinita.


Solució:

Com que la població és infinita, el nombre d’individus de la població no intervé en els càlculs.

Els resultats obtinguts són:

  • Interval de confiança 68%:
  • Interval de confiança 95,5%:
  • Interval de confiança 99,7%:

Per tant, la mida de la mostra segons els tres nivells de confiança són: 100, 400 i 900 individus respectivament. Com més gran és el nivell de confiança, més gran és la mida de la mostra.

Exemple de càlcul de mida de la mostra per una mitjana (població finita)

Es vol estimar el temps mitjà que una flota de 2.000 camions triga a realitzar un lliurament de productes als clients. Es determinarà la mida de la mostra si es pretén que l’error en l’estimació no superi els 20 minuts i es farà per als tres nivells de confiança. Prèviament s’ha fet una enquesta a una mostra de 50 camioners per estimar per aproximació la desviació típica i ha donat com a resultat un valor de 45 minuts.


Solució:

Es tracta d’una població finita perquè té menys de 100.000 elements.

Els resultats són:

  • Interval de confiança 68%:
  • Interval de confiança 95,5%:
  • Interval de confiança 99,7%:

Per tant, la mida de la mostra segons els tres nivells de confiança són: 5, 20 i 45 individus respectivament. Com més gran és el nivell de confiança, més gran és la mida de la mostra.

Exemple de càlcul de mida de la mostra per una mitjana (població infinita)

Es vol determinar l’edat mitjana de les persones d’una població usuàries de les biblioteques públiques, tenint en compte que s’assumeix un error de 2 anys i que, prèviament, s’ha fet una enquesta a una mostra de 60 persones, per estimar per aproximació la desviació típica, i ha donat com a resultat un valor de 17 anys.

Calculeu la mida de la mostra per als tres nivells de confiança i tenint en compte que la població és de 124.905 habitants.


Solució:

Es tracta d’una població infinita perquè té més de 100.000 individus.

Els resultats són:

  • Interval de confiança 68%:
  • Interval de confiança 95,5%:
  • Interval de confiança 99,7%:

Per tant, la mida de la mostra segons els tres nivells de confiança són: 72, 289 i 650 individus respectivament. Com més gran és el nivell de confiança, més gran és la mida de la mostra.

Factors que influeixen en la mida de la mostra

El càlcul de la mida de la mostra està condicionat pels factors següents:

  • L’homogeneïtat o l’heteregenoïtat del paràmetre que es vol estimar, és a dir, com més heterogenis puguin ser els resultats, més gran ha de ser la mida de la mostra.
  • El marge d’error que estem disposats a acceptar segons els objectius de la recerca, aquest error és, d’alguna manera, el preu que s’ha de pagar pel fet d’analitzar només una part de la població (mostra) i no tota la població (cens).
  • El nivell de confiança amb el qual es vol treballar.
  • Els recursos disponibles, tant econòmics com de disponibilitat de temps.
  • El mètode de mostreig escollit.
  • Les tècniques d’anàlisi de les dades que es vulguin aplicar.

Tipus de mostreig

Després de definir la població que és objecte d’estudi i de determinar la mida de la mostra, s’ha de decidir la tècnica mitjançant la qual s’escolliran els diferents elements que formaran part de la mostra, és a dir, cal decidir quin tipus de mostreig es portarà a terme.

Fer un mostreig significa seleccionar n elements de l’univers objecte d’estudi, que es denota com a N, per tant, s’ha de complir que nN, perquè es pugui obtenir informació de determinades característiques d’aquest univers, dins del nivell de confiança determinat.

Els tipus de mostreig es poden classificar en els dos grans grups següents:

  • Mètodes probabilístics o aleatoris. L’obtenció de la mostra es fa a l’atzar, de forma aleatòria, de manera que cada element de l’univers té la mateixa probabilitat de ser seleccionat per formar part de la mostra. Els resultats obtinguts mitjançant aquest tipus de mètodes poden inferir-se o projectar-se a tota la població perquè són estimacions dels resultats que es s’obtendrien si s’analitzessin tots els elements de la població. Tanmateix, el seu cost econòmic és superior al dels mètodes no probabilístics.
  • Mètodes no probabilístics o empírics. L’obtenció de la mostra no és a l’atzar, sinó segons els criteris de racionalitat i objectivitat dels investigadors. En aquest cas, a diferència dels mètodes probabilístics, no es coneix la probabilitat que tenen els diferents elements de la població de pertànyer a la mostra i s’obtenen mostres esbiaixades. Els resultats obtinguts a partir dels mètodes no probabilístics no es poden generalitzar al conjunt de la població. Tot i així, tenen un cost econòmic inferior al dels mètodes probabilístics.

Mètodes de mostreig probabilístic o aleatori

Com que en el mostreig probabilístic els elements de la mostra s’obtenen aleatòriament i la probabilitat que un element sigui escollit per formar part de la mostra és coneguda, és possible calcular el marge d’error dels resultats obtinguts per a la mostra i els resultats es poden generalitzar per a tota la població.

Els mètodes de mostreig aleatori es caracteritzen per la necessitat de conèixer a priori la probabilitat que té cadascun dels elements de l’univers que són objecte d’estudi de formar part de mostra.

La figura mostra els principals mètodes de mostreig probabilístic o aleatori.

Figura Tipus de mostreig probabilístics

Mostreig aleatori simple

El procediment que utilitza el mostreig aleatori simple és el següent:

  1. S’assigna un nombre a cadascun dels elements de l’univers que és objecte d’estudi.
  2. Es confecciona una llista de nombres aleatoris amb tants nombres com elements hagin de configurar la mostra. Els nombres han de ser diferents i estar dintre de l’interval de numeració dels elements de l’univers.
  3. S’identifiquen en l’univers els elements que tenen el mateix nombre que els de la llista confeccionada.

Així, tots els elements tenen la mateixa probabilitat de ser seleccionats i la mostra és estadísticament representativa.

Però, malgrat que es tracta d’un mètode senzill i que proporciona una mostra representativa, també té una sèrie d’inconvenients:

  • La utilització queda supeditada a l’existència d’una base de sondeig en què s’enumerin tots els elements que constitueixen l’univers que és objecte d’estudi.
  • L’extracció a l’atzar dispersa totalment els components de la mostra. Imaginem-nos com en seria de costós anar a Girona a fer una entrevista a una sola persona, una altra a Cadis, una altra a Vigo…
  • No té en compte criteris d’homogeneïtat i heterogeneïtat entre conjunts d’elements de l’univers.

Mostreig aleatori sistemàtic

El mostreig aleatori sistemàtic es diferencia de l’aleatori simple en la manera d’obtenir la mostra. Tot i que és semblant al mostreig aleatori simple, la diferència rau en què només se selecciona a l’atzar el primer element, la resta se seleccionen a partir de l’element anterior sumant-l’hi una determinada quantitat que s’anomena coeficient d’elevació. També cal conèixer tots els elements de la població per poder-los numerar i iniciar el procés de selecció.

Per seleccionar els elements de la mostra, mitjançant el mostreig aleatori sistemàtic, se segueixen els passos següents:

  1. Es busca el coeficient d’elevació, és a dir, el nombre d’elements de l’univers a què equival cada element de la mostra, N/n, on N és el nombre d’elements de l’univers i n la grandària de la mostra.
  2. S’obté de manera aleatòria un nombre inferior a aquest coeficient, el qual determinarà el primer element de la mostra.
  3. A aquest nombre se li suma el coeficient d’elevació i el nombre obtingut és el segon element de la mostra, i així successivament fins a obtenir l’últim element segons la mida de la mostra.

Exemple de mostreig aleatori sistemàtic

Suposem que l’univers objecte d’estudi són els 3.000 estudiants d’una universitat i que la mostra que es necessita és de 20 estudiants. El coeficient d’elevació és 150 (3.000/20). Escollim de la llista de nombres aleatoris el primer que no superi el nombre 150: suposem que és el 110. Aleshores, els 20 elements que han de formar part de la mostra corresponen als nombres següents:

  • 110
  • 110 + (1·150) = 260
  • 110 + (2·150) = 410
  • 110 + (18·150) = 2.810
  • 110 + (19·150) = 2.960

Els inconvenients principals de la utilització del mètode de mostreig aleatori sistemàtic són els mateixos que en el cas del mostreig aleatori simple.

Mostreig estratificat

Quan l’univers que és objecte d’estudi és tan heterogeni que la informació que es pugui obtenir a partir de la mostra no és representativa, s’acostuma a utilitzar el mostreig estratificat. Aquest mètode és un dels que més es fan servir perquè s’acostumen a obtenir millors resultats.

L’estratificació consisteix a fer grups o classes com més homogenis millor a partir de l’univers que és objecte d’estudi. Aquests grups s’anomenen estrats.

Per a cada estrat, les unitats que s’han d’entrevistar cal obtenir-les a l’atzar pel mètode aleatori simple o pel mètode aleatori sistemàtic. La taula mostra les fórmules que permeten obtenir la mitjana i la proporció de la mostra a partir de la mitjana i la proporció de cada estrat; sent:

  • Nh: mida de l’estrat h.
  • : mitjana de la mostra en l’estrat h.
  • ph: proporció de la mostra en l’estrat h.
Taula: Estimadors poblacionals a partir dels estimadors dels estrats
Paràmetre Mitjana Proporció
Estimador

Les dues qüestions que s’han de decidir per poder aplicar el mètode de mostreig estratificat són les següents:

  • Determinar els estrats.
  • Repartir la mostra entre els diferents estrats.

Variable d'estratificació

Les variables d’estratificació que s’acostumen a utilitzar són: sexe, edat, classe social, zona geogràfica, tipus d’hàbitat, possessió del producte…

Per tal d’obtenir els estrats, es poden seguir els passos següents:

  1. En primer lloc, cal escollir el criteri o els criteris d’estratificació. Si X és la variable per la qual es vol estratificar, i Y la variable estudiada, X és un criteri adequat d’estratificació si hi ha una correlació elevada entre X i Y.
  2. Quan s’ha escollit el criteri o els criteris de classificació, el pas següent és determinar el nombre d’estrats i els punts de tall o fronteres entre estrats.

El repartiment de la mostra entre els estrats s’anomena assignació de la mostra. Hi ha diversos sistemes d’assignació i el fet d’utilitzar-ne un o un altre depèn, en darrer terme, de les característiques dels problemes que s’hagin d’investigar. Les assignacions més usuals són les següents:

  • Assignació simple. Consisteix a repartir la mostra total en parts iguals per a cada estrat. D’aquesta manera, si n és la mida de la mostra que s’ha d’obtenir, l és el nombre d’estrats fixats, i ni la mida de la mostra que s’ha d’obtenir en l’estrat i. La mida de la mostra que s’ha d’obtenir en cada estrat es calcula de la manera següent:

La fórmula per a l’assignació simple és:

  • Assignació proporcional. Consisteixen a dividir la mostra en parts proporcionals a la població de cada estrat. Si N és la mida de l’univers que és objecte d’estudi, i Ni la mida de l’univers en cada estrat, la mida de la mostra que s’ha d’obtenir en cada cas es calcula de la manera següent:

La fórmula per a l’assignació proporcional és:

  • Assignació òptima. Es reparteix la mostra no solament tenint en compte la població de cada estrat, sinó també la dispersió de resultats que hi pot haver en cada un (σi). Llavors, la mida de la mostra es calcula de la manera següent:

La fórmula per a l’assignació òptima és:

Exemple de mostreig estratificat

L’objectiu d’una investigació era conèixer el nombre mitjà de cerveses que es consumeixen per setmana.

L’univers objecte d’estudi es va definir així: individus d’ambdós sexes, de 18 a 44 anys, residents a Paislàndia, l’any 2015 i que consumeixen cervesa com a mínim un cop per setmana. Suposem que la mida d’aquest univers és de 5.000.000 d’individus.

Es va decidir que la mida de la mostra seria de 1.200 individus i que el criteri d’estratificació de la mostra seria l’edat.

La taula mostra la informació sobre l’univers objecte d’estudi.

Taula: Informació sobre l’univers que és objecte d’estudi
Estrats Mida de l’estrat Desviació típica del nombre mitjà de cerveses que es consumeixen per setmana
De 18 a 24 anys 2.100.000 8,6
De 25 a 34 anys 1.850.000 10,5
De 35 a 44 anys 1.050.000 11,7

En funció d’aquesta informació, el repartiment de la mostra per estrat es faria com es mostra en la taula en cada un dels tres tipus d’assignació:

Taula: Repartiment de la mostra per estrats
Estrats Assignació simple Assignació proporcional Assignació òptima
De 18 a 24 anys 400 504 436
De 25 a 34 anys 400 444 468
De 35 a 44 anys 400 252 296
Total 1.200 1.200 1.200

Mostreig per conglomerats

El mostreig per conglomerats es caracteritza pel fet que es prenen grups d’elements de l’univers que és objecte d’estudi, anomenats conglomerats, en lloc d’elements aïllats.

Conglomerats

La població es divideix en conglomerats que siguin mútuament excloents i a continuació se seleccionen els que han de formar part de la mostra mitjançant qualsevol procediment aleatori.

Quan ja s’han extret els conglomerats que han de formar part de la mostra, es pot optar entre els dos procediments següents:

  • Mostreig per conglomerats simple. Tots els elements que integren els conglomerats seleccionats formaran part de la mostra.
  • Mostreig per conglomerats polietàpic. Dins de cada conglomerat s’escullen a l’atzar els elements que formaran part de la mostra.

Mostreig per conglomerats

Suposem que s’ha de fer una enquesta en una ciutat. Es pot començar per escollir a l’atzar un determinat nombre de barris (recorrent a la llista de nombres aleatoris o qualsevol altre mètode sistemàtic) una vegada enumerats. A continuació, i de manera anàloga, s’escull a l’atzar un cert nombre de blocs o illes de cases que pertanyin als barris sortejats en la primera fase. En cada illa així determinada, es considera un cert nombre de famílies de manera que al final es tingui un nombre específic de famílies per entrevistar.

Per exemple, es pot prendre un barri de cada tres; de cada un dels que s’han obtingut així, una illa de cada vuit; d’aquestes illes, una casa de cada deu; i d’aquestes cases, una família de cada tres.

D’aquesta manera, s’obté una mostra aleatòria amb una família de cada 720.

Mostreig per àrees

El mostreig per àrees és un cas particular del mostreig per conglomerats, en el qual els conglomerats estan constituïts per zones geogràfiques o àrees. Com en el cas del mostreig per conglomerats, també pot ser simple o polietàpic.

El procediment de selecció dels integrants de la mostra inclou, en aquest cas, els passos següents:

  1. La superfície total sobre la qual s’ha de fer la investigació se subdivideix en petites àrees que es numeren consecutivament.
  2. La delimitació d’aquestes petites àrees és flexible; en alguns casos, es prenen illes de cases, mentre que d’altres vegades es delimiten àrees amb independència del traçat de les illes, de manera que les illes poden quedar fragmentades i pertànyer a àrees diferents.
  3. Una vegada numerades totes les àrees de l’univers, se seleccionen aquelles que han d’integrar la mostra per mitjà d’un procediment que garanteixi formalment l’aleatorietat, com ara d’acord amb una llista de nombres aleatoris.
  4. Per a cadascuna d’aquestes àrees seleccionades, s’interroga tots els seus integrants (simple o d’una etapa) o bé es determinen les persones que han de ser interrogades en l’àmbit d’aquestes àrees, utilitzant qualsevol mètode que en garanteixi l’aleatorietat (polietàpic).

Mostreig per ruta aleatòria

En el mostreig per ruta aleatòria es construeix un camí aleatori per la zona que es vol estudiar, sense cap criteri aparent sobre quin carrer, edifici, pis… es continuarà fent enquestes. Tot i que l’eina que es fa servir és una taula de nombre aleatoris o equivalent, el seu objectiu és assegurar una cobertura geogràfica de la mostra i/o suplir la falta de cens.

S’escull una ruta per una ciutat com a punt de partida aleatori. Aquest mètode acostuma a ser complementari dels altres mètodes perquè els aporta l’aleatorietat que els manca.

És un mètode que se sol utilitzar quan no es té molta informació sobre la població objecte d’estudi. Es dóna als entrevistadors un “full de ruta” indicant el nombre d’entrevistes que han de fer i per on han de començar la ruta.

Les característiques principals d’aquest mètode són:

  • La selecció dels membres de la mostra es realitza com a part del treball de camp.
  • Un cop establerta una àrea de mostreig, es defineix un punt de partida i s’aplica una ruta predefinida en la qual es van seleccionant els membres de la mostra heurísticament, és a dir, trobant solucions per mitjà dels progressos que s’han fet.

Els principals avantatges d’aquest mètode són:

  • Elimina la subjectivitat en la selecció de la mostra i augmenta la credibilitat dels resultats, permetent la seva generalització.
  • Permet calcular la variabilitat de la mostra, reduint els possibles errors deguts a aquesta variabilitat.
  • Es treballa amb un marge d’error conegut i establert per l’investigador, reduint d’aquesta manera la incertesa.

El principal inconvenient d’aquest mètode és que no s’aconsella el seu ús si es tracta de plans no linials o poc homogenies.

Mètodes de mostreig no probabilístic o empíric

Les tècniques de mostreig no probabilístic no proporcionen mostres representatives, en el sentit que no es pot mesurar el grau de fiabilitat dels resultats. Tot i així, són molt utilitzats ja que són molt senzills i ràpids per a l’obtenció de mostres.

La figura mostra els diferents tipus de mostreig no probabilístic.

Figura Tipus de mostreig no probabilístics

Mostreig de conveniència

En aquest procediment de mostreig les unitats mostrals se seleccionen segons la conveniència de l’investigador, és a dir, es tria la mostra d’elements amb característiques similars a les de la població objectiu de forma no aleatòria, perquè és més fàcil de mesurar o d’accedir-hi. Per exemple, quan s’entrevisten persones que passen per un lloc concret o bé es contacta amb persones properes perquè és més fàcil accedir-hi.

Tot i que aquest procediment redueix els costos, la mostra que s’obté no es gaire representativa i, per tant, les estimacions dels paràmetres poden ser molt diferents als valors poblacionals reals.

Mostreig per judici o per criteri

Aquest procediment de mostreig es basa en l’experiència d’algú, és a dir, es determina els elements de la mostra segons el seu criteri de l’investigador, escollint els individus que considera que poden ser més representatius.

Si el criteri és adequat, les mostres poden ser més representatives que en el mostraig per conveniència, però tampoc permeten fer estimacions amb precisió. Per exemple, quan s’estudia una població i es divideix en grups homogenis, escollint un únic subgrup tipus dins de cada grup que s’analitza amb profunditat.

Mostreig per quotes

El mètode del mostreig per quotes es basa a constituir una mostra “semblant” en l’univers que és objecte d’estudi. S’escullen algunes característiques que descriuen la població estudiada (per exemple, classe social, sexe, edat, professió…) i, a continuació, es reparteix la mostra seguint les variables escollides de manera que s’aconsegueixi una distribució “semblant” a la que es produeix en la població objecte d’estudi.

Exemple de mostreig per quotes

Un entrevistador ha de fer cinquanta entrevistes en una ciutat petita per a una enquesta en què les característiques que descriuen l’univers que és objecte d’estudi són el sexe, l’edat i la professió de la persona que aporta més ingressos a la seva família. Com a instruccions, rep el quadre de la taula, en el qual s’especifica el repartiment de la mostra per sexe, edat i professió.

Taula: Repartiment de la mostra per variables sòciodemogràfiques
Característiques diferenciadores Nivell de les característiques Proporció de la població Mida de la mostra
Sexe Homes 46% 23
Dones 54% 27
Edat 18-24 anys 14% 7
25-44 anys 36% 18
45-64 anys 36% 18
65 anys o mes 14% 7
Professió de la persona que aporta més ingressos a la família Patrons 12% 6
Quadres superiors / professions liberals 8% 4
Quadres mitjans / empleats 16% 8
Obrers 40% 20
Inactius 24% 12
Total 100% 50

Mostreig per itineraris

Sovint s’utilitza el terme anglès random route per referir-se al mostreig per itineraris.

El mètode del mostreig per itineraris és molt utilitzat en enquestes on la unitat mostral és la llar.

Aquest mètode es basa en l’elaboració de rutes o itineraris dins d’un barri o una ciutat amb un punt de partida aleatori. Posteriorment, i en cada encreuament (cruïlla de carrers, plaça…), la ruta es marca segons una direcció que també s’ha de triar aleatòriament. Els domicilis que s’han de considerar s’obtenen segons unes normes que permeten definir edificis (un de cada x) i, dins d’aquests, l’habitatge. Finalment, si la ruta finalitza, per “sortida” del barri o la localitat, sense concloure el nombre d’entrevistes, s’inicia de nou amb un altre punt de partida.

L’entrevistador veu limitada la selecció de persones a entrevistar, però a canvi no està obligat a conservar quotes de cap tipus. És l’atzar qui influeix exclusivament a l’hora de seleccionar la casa escollida.

L'atzar

Quan es parla de mostreig per itineraris, el terme atzar té un sentit diferent del que té en la teoria probabilística de mostreig, atès que realment i amb exactitud no es coneix a priori que la probabilitat de cada element de l’univers de formar part de la mostra sigui constant.

Per a seleccionar les unitats mostrals que cal entrevistar, l’entrevistador disposa del “full de ruta”. Cada full de ruta sol indicar l’adreça del punt de partida, el nombre de persones a les quals haurà d’entrevistar i la manera específica com s’hauran de seleccionar.

Exemple de mostreig per itineraris

L’entrevistador o entrevistadora se situarà davant de l’edifici de partida i començarà a caminar cap a l’esquerra (una moneda llençada a l’aire pot decidir si la ruta es farà cap a l’esquerra o cap a la dreta). Si a la resta del carrer hi ha algun edifici el número del qual acabi amb la xifra de terminació indicada, haurà de fer allà la seva primera entrevista (una bossa amb 10 boles pot decidir quina ha de ser la terminació del número de l’edifici). Per exemple, si la terminació fixada és 2, haurà de fer entrevistes en els números 2, 12, 22…

Una vegada efectuades les entrevistes pertinents, continuarà el seu recorregut pel carrer fins a arribar a la primera travessia, on haurà de trencar a la dreta i buscar els edificis que acabin amb el número indicat fins a arribar novament a la primera cruïlla, on haurà de trencar a l’esquerra, i així successivament, dreta, esquerra, fins que s’hagi completat el nombre d’entrevistes fixat. La figura mostra un exemple d’una selecció del recorregut d’aquest tipus.

Figura Exemple de taula de selecció

Per seleccionar la planta dins d’un edifici de diferents plantes i per determinar l’habitatge que cal entrevistar dins de la planta seleccionada, s’utilitza una taula de selecció o selector, com la que es mostra en la taula.

La selecció de la planta es fa creuant la columna corresponent al número d’ordre de l’entrevista, amb la fila corresponent al nombre total de plantes que té l’edifici (comptant soterranis, àtic…). El número resultant de l’encreuament correspondrà a la planta on s’ha de fer l’entrevista. La selecció de la porta s’efectua de la mateixa manera.

Suposem, per exemple, que l’entrevistador es disposa a fer l’entrevista número cinc d’una de les seves rutes i que es troba en un edifici de tres plantes. En la taula de selecció, l’encreuament de la columna cinc amb la fila tres correspon al número dos. Això significa que ha de fer l’entrevista a la segona planta.

Finalment, si la ruta “s’acaba” (perquè se surt del barri o la localitat, segons els casos) sense concloure el nombre d’entrevistes volgut, s’inicia un altre cop amb un altre punt de partida aleatori.

Taula: Exemple de taula de selecció
Número d’ordre d’entrevistes
Nbre. plantes o portes 1 2 3 4 5 6 7 8 9 10
1 1 1 1 1 1 1 1 1 1 1
2 2 2 1 1 2 1 2 1 1 1
3 1 1 3 3 1 3 3 3 2 1
4 - - - - - - - - - -
5 - - - - - - - - - -
6 - - - - - - - - - -
7 - - - - - - - - - -
8 - - - - - - - - - -
9 - - - - - - - - - -
10 1 1 1 1 1 1 1 1 1 1
11 - - - - - - - - - -
12 - - - - - - - - - -
13 - - - - - - - - - -
14 - - - - - - - - - -
15 - - - - - - - - - -

L’únic perill per a aquest mètode és l’urbanisme. Les característiques demogràfiques de cada municipi han de ser analitzades prèviament a l’aplicació del mètode.

Mostreig dels màxims possibles ('oversampling')

En el mostreig dels màxims possibles, de vegades, la mostra, en lloc d’estar constituïda amb proporcionalitat exacta respecte als diversos caràcters que figuren a l’univers, és deliberadament deformada per raons pràctiques.

Consisteix a incloure a la mostra, per exemple, una proporció de persones que pertanyen a les classe acomodades molt superior a la que es podria esperar al cens. És a dir, en aquest exemple se sobrevaloraria la proporció de rics a costa de les classes pobres. El material recollit es ponderarà per tornar a donar a la mostra les proporcions que hauria de tenir la mostra norma.

Mostreig raonat

En el mostreig raonat, els elements que formaran part de la mostra se seleccionen d’acord amb alguna condició que estableix un expert coneixedor de la matèria que es vol estudiar i que considera que la mostra ha de complir.

Per exemple, imaginem una mostra de 100 poblacions espanyoles per fer un estudi. L’investigador pot considerar que és molt important que, per a aquest estudi en concret, a les 100 poblacions estiguin incloses les 10 més grans i almenys una de cada província. Si es fa aleatòriament, no hi ha garantia que es compleixin les condicions especificades, per la qual cosa la selecció dels elements de la mostra haurà de seguir els criteris fixats per l’investigador.

Mostreig de bola de neu

En el mostreig de bola de neu, la mostra es construeix partint d’un nombre reduït d’integrants de la població que és objecte d’estudi. A aquests, un cop entrevistats, se’ls sol·licita que subministrin el nom d’un altre o altres integrants de l’univers que és objecte d’estudi, i així successivament fins a aconseguir tants noms com necessiti la mida de la mostra inicialment prevista.

Un exemple seria una població constituïda per persones que tenen rendes altes i que tenen una embarcació. Si l’entrevistat proporciona el nom d’una altra persona de les mateixes característiques facilitarà la feina de completar la mostra.

Errors mostrals i no mostrals

Quan només es té en compte una part de la població, la mostra, s’ha d’assumir un nivell d’error respecte a la realitat de la població, és a dir, els resultats que s’obtenen no seran exactament els mateixos que s’obtindrien amb l’estudi de tota la població. Es poden distingir dos tipus d’errors: mostrals i no mostrals.

L’error mostral és una mesura de la precisió o exactitud dels resultats obtinguts mitjançant una mostra. Està determinat pel tipus de disseny mostral seleccionat, la mida de la mostra, el nivell de confiança utilitzat i la variància de la població.

L’error mostral és de tipus estadístic i fa referència a l’exactitud amb què es poden inferir valors a l’univers estudiat a través dels valors d’una mostra. L’investigador és qui determina el nivell d’error que està disposat a acceptar en funció dels objectius de l’estudi, dels criteris estadístics (mida i variància de la població) i dels recursos disponibles (econòmics i de temps). D’alguna manera, es considera que l’error mostral és el peatge que s’ha de pagar pel fet d’analitzar només una part de la població (mostra) i no tota ella (cens).

Per altra banda, l’error no mostral és una mesura de la precisió que no depèn del disseny mostral, sinó del desenvolupament del treball de camp entre d’altres factors. Com els errors mostrals, els errors no mostrals també afecten a la capacitat d’inferència dels resultats obtinguts i es refereixen a les possibles discrepàncies que es produeixen si es comparen els estadístics calculats a partir de la mostra i els valors que s’obtindrien de tota la població objecte d’estudi.

Els errors no mostrals es poden produir per una gran varietat de causes i durant totes les fases del procés d’investigació. Per això, donada la dificultat de seva quantificació i mesura, els esforços s’han de destinar a ser conscients dels seus efectes per de controlar-los o mitigar-los, abans i durant la fase de recollida de dades, per mantenir i/o augmentar la qualitat de les dades obtingudes. Entre els errors no mostrals destaquen els següents:

  • Errors de cobertura: es produeixen quan no es disposa de la llista completa de la població, ja sigui perquè no hi ha registres d’algun dels seus sectors o bé perquè les llistes no estan actualitzades, hi ha duplicacions o omissions… Per resoldre aquest tipus d’error s’hauria de redefinir la població, obviar els element exclosos o bé utilitzar un altre tipus de mostreig.
  • Errors de no resposta: sorgeix de la impossibilitat o la no voluntat de les unitats mostrals de participar en la recerca. Pot ser que no es pugui localitzar alguna persona, o bé que es negui a respondre, per això es provoca un biaix que, a vegades, fa necessari replantejar-se si la mostra és o no és representativa. Per solucionar aquest tipus d’error cal substituir els individus que amb qui no es pot contactar o no volen respondre o, com a alternativa, cal fer una ponderació dels resultats obtinguts.

Càlcul de l'error de mostreig

L’error de mostreig o error mostral també s’anomena marge d’error. Aquest valor és l’error màxim que es pot cometre i és vàlid per a totes les possibles mostres de la mateixa mida i que hagin estat seleccionades aleatòriament de la mateixa població.

L’error de mostreig és l’error causat per la variabilitat de les mostres, és a dir, és degut a la divergència entre els valors obtinguts de la mostra (estadístics) i els valors corresponents a la població (paràmetres).

L’error de mostreig es pot calcular quan es tracta de mostres aleatòries o probabilístiques i depèn de:

  • el tipus de mostreig,
  • la mida de la mostra,
  • la variància poblacional i
  • el nivell de confiança

Encara que s’hagi utilitzat un mètode de selecció de la mostra que no sigui l’aleatori simple, l’error es calcula com si s’hagués utilitzat aquest procediment i serveix per obtenir l’interval de confiança.

Com més gran és la mostra, més petit és l’error de mostreig. Com més elevada és la variància de la població, més gran és l’error de mostreig, en canvi, en poblacions homogènies l’error disminueix. Pel que fa al nivell de confiança, com més gran és el nivell de confiança, més petit és l’error de mostreig.

El marge d’error és l’interval en el qual esperem trobar la dada de l’univers o de la població total que volem mesurar.

Habitualment es treballa amb errors entre ±2% i ±3,5%. L’única forma de reduir aquest error és utilitzar una mostra més gran, la qual cosa normalment no és possible o és inviable econòmicament.

Per calcular l’error de mostreig s’ha de diferenciar entre variables (estadístics) i atributs (proporcions). La nomenclatura que s’utilitza és la següent:

  • ε = error de mostreig.
  • ±K = constant relacionada amb el nivell de confiança.
  • σ = desviació típica de la població (si no es coneix s’utilitza la desviació típica de la mostra S).
  • p = Proporció de la característica analitzada de la població o de la mostra (si no es coneix, s’utilitza el 50% que és el cas de màxima indeterminació).
  • q = Proporció complementària de la característica analitzada de la població o de la mostra, tenint en compte que la suma de p i q ha de donar 100%.

Per a les poblacions finites (fins a 100.000 elements) les fórmules de l’error de mostreig són les que apareixen a la taula.

Taula: Fórmules d’error de mostreig per a poblacions finites.
Variables Atributs

Per a les poblacions infinites (>100.000 elements) les fórmules de l’error de mostreig són les que apareixen a la taula.

Taula: Fórmules d’error de mostreig per a poblacions infinites.
Variables Atributs

Exemple de càlcul de l'error de mostreig per a un atribut (proporció)

Un institut d’investigació de mercats ha seleccionat una mostra de 900 famílies, sobre una població total de 125.000, per calcular la proporció que utilitza un determinat rentavaixelles. La proporció estimada és 0,35 i el nivell de confiança és del 90%. Quin és l’error de mostreig?


Solució:


Així doncs, l’error de mostreig és ±1,43%.

Només hi ha una manera d’eliminar l’error de mostreig, consisteix a eliminar el concepte de mostra i treballar amb el conjunt de la població. Tanmateix, la majoria de vegades és impossible, per tant, el que cal fer és minimitzar l’error de mostreig amb un mostreig probabilístic adequat, no esbiaixat i amb una mostra prou gran.

Exemple de càlcul de l'error de mostreig per a una variable

Se sap que la desviació estàndard d’una característica determinada dels consumidors d’un producte és 3. Si s’ha escollit una mostra de 100 individus d’un total és de 50.000 i el nivell de confiança és del 95%, quin és l’error de mostreig? I si la mostra és de 200 individus?


Solució:

Per a una mostra de 100 individus:

Per a una mostra de 200 individus:


En duplicar la mostra, l’error disminueix menys de la meitat.

Criteris per contactar amb les persones enquestades

Un cop s’ha determinat la mida de la mostra i s’han seleccionat els elements de la mostra, quan es tracta d’una enquesta o d’una entrevista cal contactar amb les persones de les quals es vol obtenir informació.

Bàsicament, hi ha quatre formes de contactar-hi:

  • Personalment: normalment és l’entrevistador el que es desplaça fins al lloc on es troba la persona amb la qual es vol contactar per formular-li les preguntes corresponents. És un dels mètodes més populars, tot i que l’ús de les noves tecnologies permet fer enquestes menys invasives però no s’aconsegueix un grau de resposta tan gran.
  • Telefònicament: és un procediment similar a l’anterior, si bé l’entrevistador contacta amb la persona entrevistada a través del telèfon. A vegades, també s’utilitza aquest canal per concertar una cita i fer l’enquesta, o bé per reclamar qüestionaris que han estat enviat per correu. D’altra banda, també es pot utilitzar el telèfon per completar enquestes que han pogut quedar incompletes i, sovint, mitjançant una trucada telefònica es controla la feina dels enquestadors, és a dir, es comprova que realment una persona va respondre les preguntes formulades per un entrevistador.
    És important que el qüestionari sigui breu, es recomana no excedir dels 15 minuts i aquesta limitació pot suposa haver d’escurçar-lo i formular preguntes que es puguin respondre ràpidament.
  • Correu postal: es demana a les persones enquestades que omplin el qüestionari que s’ha enviat per correu postal i que el retornin per aquesta mateixa via. La tramesa dels qüestionaris ha d’anar acompanyada d’una carta de presentació mitjançant la qual s’ha d’incentivar als destinataris perquè responguin. A vegades, per aconseguir més respostes s’ofereixen recompenses com vals de compra o participació en sortejos.
    El principal avantatge d’aquest sistema és la seva flexibilitat ja que l’entrevistat pot respondre el qüestionari en el moment en què li vagi millor i pot pendre’s el temps necessari per rumiar les respostes, així no hi ha el biaix que pot provocar la presència de l’entrevistador o d’altres persones. Tanmateix, no es pot garantir que les respostes corresponguin a la persona que s’ha escollit.
    D’altra banda, el principal inconvenient és que l’índex de resposta sol ser molt baix, normalment entre el 10 i el 20%, per això és important oferir algun incentiu. També es pot donar el cas que alguna de les persones que responen no siguin representatives perquè, per exemple, es rebin moltes respostes d’un determinat estrat i poques d’un altre. En aquests casos, cal aconseguir altres enquestes per completar un estrat i es pot fer mitjançant contacte telefònic o personalment.
  • Internet: el qüestionari es pot fer arribar adjunt a un missatge de correu electrònic o bé mitjançant un enllaç a un lloc web. Actualment, aquesta és una de les formes més ràpides d’aconseguir informació primària.
    A través d’aquest canal de comunicació es poden distingir 3 tipus d’enquestes: correu electrònic (sovint per completar les respostes obtingudes per altres vies), web (permet automatitzar el procés de recollida i tractament de dades) i a través de fòrums de discussió (newsgroups) o servidors de llistes (list server) que permeten accedir a col·lectius específics, la qual cosa afavoreix l’obtenció de respostes més raonades i, per tant, més útils.

La taula recull els principals avantatges i inconvenients de les diferents formes de contacte amb l’entrevistat.

Taula: Avantatges i inconvenients de les diferents formes de contacte amb l’entrevistat
Tipus d’enquestes Avantatges Inconvenients
Personal • Alt percentatge de respostes.
• Es coneix a qui contesta.
• No hi ha influències d’altres persones.
• Es pot controlar el grau de sinceritat.
• Es redueixen les respostes evasives.
• Poden ser en el carrer o al domicili, que són les més representatives.
• Són les més cares.
• L’entrevistador ha d’estar entrenat i tenir certes habilitats.
• Biaixos per les influències de l’entrevistador.
• Cal controlar els investigadors per evitar errors o faltes.
• En el carrer molta gent es nega a contestar.
Telèfon • Més econòmiques.
• Rapidesa en l’obtenció de dades.
• Permet preguntar a persones poc accessibles.
• Més índex de resposta que per via postal.
• Més facilitat d’accés a gent ocupada.
• Biaix provocat per les persones que no tenen telèfon o no responen.
• El qüestionari ha de ser breu.
• No es pot utilitzar material auxiliar.
• Per evitar el rebuig, cal deixar molt clar a l’enquestat que no li volem vendre res.
Correu postal • Cost baix.
• Facilitat d’accés a les persones que es volen enquestar.
• Flexibilitat de temps.
• L’entrevistat pot contestar en qualsevol moment.
• No hi ha influència de l’entrevistador.
• Poc índex de resposta.
• El qüestionari ha de ser curt.
• Pot respondre una altra persona.
Internet • Populars però complexes.
• Fàcilitat i comoditat de resposta.
• Desapareixen les barreres geogràfiques.
• Flexibilitat de temps.
• L’entrevistat pot contestar en qualsevol moment.
• Si són via web, l’enquestat ja introdueix les dades al sistema.
• Es poden dirigir a col·lectius molt concrets i representatius.
• Accés limitat d’alguns sectors de la població.
• Dificultat d’accés en algun països.
• Només es poden respondre si es disposa de connexió a la xarxa.

Inferència estadística

La inferència estadística o estadística inferencial és el conjunt de tècniques i mètodes que permeten generalitzar el comportament d’una determinada població, a partir de la informació empírica proporcionada per una mostra i amb un risc que es pot mesurar amb termes de probabilitat.

Els mètodes que s’utilitzen en inferència estadística es poden dividir, bàsicament, en els dos: mètodes d’estimació de paràmetres i mètodes de contrast d’hipòtesis. Ambdós mètodes es basen en el coneixement teòric de la distribució de probabilitat de l’estadístic obtingut a partir d’una mostra que s’utilitza com a estimador del paràmetre de la població.

L’estimació de paràmetres consisteix a assignar un valor concret als paràmetres que caracteritzen la distribució de probabilitats de la població. Quan s’estima un paràmetre poblacional se sol cometre un error d’estimació que és la diferència entre el paràmetre estimat i el valor veritable del paràmetre poblacional. Per valorar el grau de precisió d’una estimació puntual es contrueix un interval de confiança que, de forma sintètica, està format pel conjunt de valors numèrics que inclouen el valor real del paràmetre estimat i que es pot fixar tan gran com es vulgui. Aquesta probabilitat s’anomena nivell de confiança i determina el grau de precisió amb què s’estima el paràmetre poblacional.

Els mètodes de contrat d’hipòtesis permeten comprovar si un determinat supòsit referit a un paràmetre poblacional, o a paràmetres anàlegs de dues o més poblacions, és compatible amb l’evidència empírica que conté la mostra. El contrast es basa en establir un criteri de decisió, segons la naturalesa de la població, de la distribució de probabilitat de l’estimador del paràmetre i del control que es fixa a priori sobre la probabilitat de rebutjar la hipòtesi que es contrasta en el cas que sigui certa.

En la unitat “Tractament, anàlisi i conclusions” d’aquest mòdul es treballen a fons els conceptes relacionats amb la inferència estadística.

Anar a la pàgina anterior:
Referències
Anar a la pàgina següent:
Activitats