|
El model adequat per estudiar les enquestes |
|
|
|
La distribució binomial és el model teòric adequat per al tractament
formal de les enquestes d'opinió i per aprendre a donar-ne les conclusions
de manera consistent. En aquesta pràctica, es comença a treballar aquest
tema que més endavant reprendreu en diverses ocasions (sobretot en el
mòdul 7). Ara treballareu:
- El càlcul de probabilitats i la recerca de valors crítics que ja heu vist a la pràctica anterior.
- La formulació dels problemes fent servir el llenguatge de les enquestes: nivell de confiança, marge d'error, etc.
|
|
...una enquesta als diaris...
|
|
|
 |
Comencem amb unes consideracions |
|
|
|
La definició de probabilitat que donen el GDLC i el DIEC ens
diu que la probabilitat d'un esdeveniment és un "nombre que
permet d'expressar quantitativament el caràcter aleatori d'un esdeveniment
o fenomen que hom creu que pot succeir".
En el primer document conceptual d'aquest mòdul n'hem donat una visió
un xic més intuïtiva, tot dient que és "un nombre que representa
la proporció de vegades que podem esperar que l'esdeveniment succeeixi
quan l'experiment és repetit moltes vegades en idèntiques condicions".
Les dues visions, però, ens porten a la idea que els problemes relacionats
amb el càlcul de probabilitats en experiències aleatòries es poden formular
en termes de prediccions del que pot passar quan fem una experiència aleatòria.
Des d'aquest punt de vista, s'incorporen al llenguatge diversos conceptes
que tot seguit s'enuncien i en el transcurs d'aquesta pràctica s'exemplificaran
adequadament.
Els dos primers que es comenten són contraris l'un de l'altre:
 |
En una experiència aleatòria,
s'anomena risc d'una predicció (o més explícitament
risc d'error) el nombre que representa la probabilitat que
la predicció no es compleixi.
|
 |
En una experiència
aleatòria, s'anomena nivell de confiança (o, de vegades,
marge de confiança) d'una predicció el nombre que
representa la probabilitat que s'encerti la predicció en
una realització de l'experiència.
|
- Habitualment, el nivell de confiança i el risc s'expressen en tant
per cent.
- Per exemple, si tirem un dau enlaire i fem la predicció "Sortirà
un sis", la probabilitat d'èxit és 1/6 = 0,167. El nivell
de confiança d'aquesta predicció és del 16,7 % i el risc d'error és
del 83,3 %.
- Si tirem cinc monedes enlaire i fem la predicció "Sortirà alguna cara",
la probabilitat de l'esdeveniment contrari (tot creus) és 1/32 = 0,031.
La predicció, doncs, té un risc d'error del 3,1 % i, per tant, podem
enunciar-la amb un nivell de confiança del 96,9 %.
Les prediccions que podem fer en el marc de les experiències aleatòries
poden tenir formulacions molt diverses segons el tipus d'experiència i
els esdeveniments que ens pugui interessar estudiar. Ara bé, en les experiències
que corresponen al model de la distribució binomial –de què en tenim
l'exemple més paradigmàtic en la realització d'enquestes d'opinió–,
hi ha un tipus de prediccions que són les que es consideren més sovint.
En aquestes situacions, repetim de manera independent i moltes vegades
una experiència. Llavors, si estudiem el percentatge d'èxits que tenim,
és lògic preguntar-se quin és el conjunt més versemblant dels resultats
que es poden obtenir.
Com que aquest tipus d'experiències, quan tenen aplicació pràctica,
es fan amb un nombre gran de repeticions, llavors es pot suposar que hi
ha una simetria de la distribució respecte de la mitjana que, per altra
banda, és el valor esperat (i, per tant, el més versemblant). Per aquesta
raó, la resposta a la pregunta anterior es dóna com un interval de valors
centrat en la mitjana.
 |
En una experiència aleatòria
que correspon al model binomial B(n, p) i que, per
tant, té mitjana m = n · p, s'anomena
interval de confiança (o de tolerància) amb un nivell
de confiança del c % (o, abreujadament, interval de confiança
del c %) el més petit dels intervals centrats en la mitjana
que té la propietat que el resultat de l'experimentació pertanyi
a aquest interval supera el c %.
Simbòlicament, l'interval de confiança del c % és el
més petit dels intervals
[m - e, m + e] que compleix p[m - e, m + e] c/100.
|
 |
El radi e de l'interval de confiança rep el nom de marge d'error.
|
- Habitualment, els límits de l'interval de confiança i el marge d'error
s'expressen en tant per cent respecte a la mida n de la mostra
(o nombre de repeticions en la distribució binomial). La previsió lligada
amb aquests conceptes es pot fer, doncs, de dues maneres:
- Es pot preveure, amb un nivell de confiança del c %, que
la proporció d'èxits observada pertany a l'interval [a %,
b %] (aquest interval està centrat en la mitjana expressada
en tant per cent, és a dir (p · 100)%.
- Es pot preveure, amb un nivell de confiança del c %, que
la proporció d'èxits observada és aproximadament igual a (p ·
100)%; amb rigor, expressada en tant per cent és igual a (p ·
100)
(e/n
· 100)
- Al mòdul 7 aprofundirem el comentari següent: no s'ha de confondre
el significat del mot error en l'expressió marge d'error de l'estimació,
concepte lligat amb el fet que els resultats de l'estadística sempre
tenen un marge de variabilitat (i, per tant, no podem fer mai
cap previsió segura) amb el sentit que té error quan parlem de
risc d'error on volem dir, exactament, risc d'equivocació
en les prediccions que fem.
L'esquema següent
explica que (basant-nos com ja s'ha dit en què l'àmbit d'aplicació permet
suposar la simetria de la distribució binomial) per calcular els límits
de l'interval de confiança del 90 % hem de buscar els valors crítics del
5 % (probabilitat acumulada de 0,05) i del 95 % (probabilitat acumulada
de 0,95).
Semblantment, si volem l'interval de confiança del 95 %, els valors
crítics que cal buscar són els que corresponen a les probabilitats acumulades
de 0,025 i 0,975.
L'exemple que es treballa en aquesta pràctica il·lustra a bastament aquestes consideracions.
|
 |
Calculem probabilitats com a camí per entendre les estimacions |
|
|
|
Una enquesta: suposem que en una població només
el 45 % de persones són favorables a la gestió municipal.
Se selecciona aleatòriament una mostra de 100 persones i se'ls
passa una enquesta, de manera independent a una persona i una altra.
- Quina és la probabilitat que a la mostra hi surtin exactament
el 45 % de persones favorables al govern municipal?
- Quina és la probabilitat que el percentatge de persones de
la mostra favorables a l'alcalde estigui en l'interval [40 %, 50 %]?
(Vegeu que aquest enunciat es podria formular,
de manera equivalent, dient que volem saber el nivell de confiança de
la previsió "el percentatge serà aproximadament del 45 % amb un marge
d'error del 5 %".)
- És gaire probable que a la mostra, si està ben triada,
hi pugui sortir una majoria de persones favorables a l'alcalde?
- Si l'ajuntament pretén fer una previsió a partir de
la mostra dient que "la majoria dels enquestats estaran a favor nostre",
quin risc té aquesta predicció?
- Quina previsió podem fer que comenci dient "Hi ha més
del...% d'opinions favorables a l'alcalde" si volem fer la predicció
amb un nivell de confiança del 80 %?
- Quin és l'interval de tolerància (o de confiança) en la realització
de l'enquesta que s'ha plantejat en aquest exemple si es vol treballar
amb un nivell de confiança del 95 %?
(Aquesta pregunta equival a estudiar quina
previsió podem fer per al "percentatge més habitual de
persones favorables a l'alcalde que sortiran a la mostra" si admetem
un risc màxim d'equivocar-nos del
5 %.)
Vegeu que el model per a aquesta experiència aleatòria és la distribució
binomial
B(n = 100, p = 0,45).
Per tot el que heu treballat a la pràctica anterior, ja sabeu que tenim
dues maneres d'enfocar el problema: amb la construcció i observació de
la taula de la distribució binomial o amb el càlcul, pas per pas, només
de les dades que ens interessen.
Podeu, doncs, obrir el llibre DISTRIBUCIONS-DISCRETES.XLS que
heu elaborat a la pràctica anterior. Al full Binomial, poseu 0,45
a la cel·la A2 i 100 a la cel·la A4. Comentarem les respostes a les qüestions
plantejades amb l'ús d'aquesta taula i de les fórmules DISTR.BINOM
i BINOM.CRIT.
- Heu de mirar la cel·la C47 de la taula o bé escriure la fórmula
=DISTR.BINOM(45; 100; 0,45; 0) [Recordeu
que els arguments són: nombre d'èxits de què volem trobar la probabilitat;
nombre de proves; probabilitat d'èxit; acumulat o no, i que, en cas
de dubte sobre la sintaxi podeu fer Insertar|Función.]
Així trobareu la resposta, que arrodonint és 0,080. Potser pensareu
que és un valor molt petit, però és que en realitat les enquestes no
pretenen trobar valors concrets, sinó fer estimacions relatives a intervals.
- Ara ja volem calcular la probabilitat d'un interval. Com que el 40
% i el 50 % de persones de la mostra són 40 i 50 (i aquests valors estan
inclosos), si indiquem amb X el nombre de persones de la mostra
favorables a l'ajuntament, heu de calcular p[X
50] – p[X
39]. Podeu fer-ho amb la fórmula =DISTR.BINOM(50; 100; 0,45; 1) –
DISTR.BINOM(39; 100; 0,45; 1) o bé sumar el rang C42:C52 de la taula
de valors que teniu al full de l'Excel. Recordeu que si teniu activat
Ver | Barra de Estado | Suma, només seleccionant el rang podeu
llegir la suma a la part inferior de la pantalla. La resposta és 0,731
o bé una probabilitat del 73,1 %. Aquest és el nivell de confiança amb
què es pot fer la predicció "a la mostra sortirà el 45 %
de persones favorables a l'ajuntament, amb un marge d'error/variabilitat
del 5 %".
- És poc probable que es pugi fer aquesta "trampa", però a causa de
l'atzar, pot ser que succeeixi. A la taula hem de fer 1 – D52 o
bé sumar el rang C53:C102 i per fórmules seria = 1-DISTR.BINOM(50; 100;
0,45; 1). La resposta és una probabilitat del 13,5 %, però més avall
veureu que si s'augmenta la mida de la mostra, aquesta probabilitat
es fa molt més petita.
- És una reflexió entorn a la resposta anterior: el risc d'error/equivocació
seria del 86,5 % (el contrari de la probabilitat d'encert, és clar)
- L'esdeveniment "Hi ha més de x persones favorables" és el contrari
de "Com a màxim x–1 persones seran favorables", que és allò
que calcula la funció de distribució o probabilitat acumulada. Si el
nivell de confiança o probabilitat d'encert del primer enunciat ha de
ser superior al 80 %, la del segon ha de ser inferior al 20 % (però
el més propera al 20 % possible). Podem mirar la columna D del full
de càlcul i veurem que aquesta probabilitat acumulada correspon al valor
40 (el 40 % de la mostra). És a dir, que si l'alcalde vol tenir un nivell
de confiança del 80 % (i això ja comporta tenir un risc d'error del
20 %) l'enunciat més optimista que pot fer és: "Més del
40% de persones estan a favor de la gestió de l'equip de govern".
La fórmula que respon a la qüestió que ara ens ocupa és: =BINOM.CRIT(100;
0,45; 0,2), que dóna com a resultat 41; és a dir, 41 persones o més,
equivalent a més del 40 %.
- En aquest cas, recordeu-ho, donarem la resposta centrada en la mitjana
o el valor esperat, 45 persones. Hi ha, fonamentalment, dues maneres
de fer-ho:
- La més semblant a la manual seria estudiar els rangs centrats
a la cel·la C47 de la taula, a saber, C46:C48, C45:C49... fins que
se'n trobés un que sumés més de 0,95. Si ho feu, veureu que el que
correspon a l'interval de valors [36, 54] té una probabilitat total
del 94,43 %. Encara no ens serveix! Hem de prendre l'interval [35,
55] (rang de la taula C37:C57), que dóna una probabilitat d'encert
o nivell de confiança del 96,57 % (és que en aquest cas no podem
trobar exactament el 95 % com a valor de la probabilitat d'un interval
centrat en la mitjana).
- L'altra manera correspon al que ja s'ha comentat anteriorment
i a buscar el nombre que correspon a una probabilitat acumulada
superior al 95 % i el nombre més gran que té una probabilitat acumulada
inferior al 5 %. Els nombres que interessen (extrems de l'interval
de tolerància/confiança) són =BINOM.CRIT(100; 0,45; 0,025) i =BINOM.CRIT(100;
0,45; 0,975). Arribeu, naturalment, al mateix resultat.
Si formulem la conclusió d'aquest apartat amb el llenguatge de les enquestes,
tenim:
- L'interval de confiança corresponent a un nivell de confiança
del 95 % és
[35 %, 55 %].
- O, equivalentment: amb un nivell de confiança del 95 %, (o risc
d'error/equivocació del 5 %) podem fer la predicció que sortirà
el 45 % de persones favorables a l'ajuntament amb un marge d'error/variabilitat
de
10 %.
De seguida sorgeix la pregunta: "I com es pot abaixar el marge
d'error?"
Augmentant la mida de la mostra!
|
 |
Augmentem la mida de la mostra i millorem els
resultats |
|
|
|
Una nova enquesta: som encara en una població en què només
el 45 % de persones són favorables a la gestió municipal. Se selecciona
ara una mostra de 500 persones i se'ls passa una enquesta, de manera independent
a una persona i una altra. Quines són, en aquestes condicions,
les respostes a les qüestions a) - f)
estudiades anteriorment?
Cal repetit tot el que s'ha fet, però posant 500 a la cel·la A4 del
full Binomial del llibre DISTRIBUCIONS-DISCRETES.XLS o bé,
si treballeu amb fórmules, substituint els 100 que representaven el nombre
de proves del model binomial per 500.
Podeu pensar, primer de tot, que el valor esperat (o mitjana de la variable
aleatòria) que correspon al 45 % de 500 és 225. Tot seguit, podeu comprovar
que les respostes són:
- En aquest cas, 0,0358. Com és natural, aquest valor tan concret ha
disminuït, però això no és representatiu; el que cal és que ens
fixem en els intervals.
- Hem d'estudiar l'interval [200, 250]. Probabilitat: 97,8 %.
- Majoria: més de 250. Probabilitat: 0,011. Només l'1,1 %.
- Com en el cas anterior el risc d'equivoació és el contrari
de la probabilitat d'encert. Serà del 98,9%.
- Resulta més de 215 persones, és a dir, el 43 %; però aquest no és
el tipus d'estimacions que es fan a les enquestes.
- Resulta l'interval [203, 247], o sigui, [40,6 %, 49,4 %], que també
es pot enunciar com a 45 %
4,4 %.
Adoneu-vos, doncs, que el fet d'augmentar la mida de la mostra de 100
a 500 persones ha fet que el radi de l'interval de tolerància/confiança
disminueixi del 10 % al 4,4 %.
Hem d'aumentar més la mida de la mostra! Efectivament, però ja hem comentat
que això fa de vegades impossibles els càlculs amb la distribució binomial.
Hem d'esperar el mòdul següent i treballar amb la distribució normal!
|
 |
Acabem amb una consideració |
|
|
|
Hi ha una diferència fonamental entre el que s'ha treballat en aquesta pràctica
i la realització d'una enquesta d'opinió per fer una estimació.
Ara hem estat treballant en una situació de laboratori: partíem d'una
situació coneguda (la proporció de persones favorables ben determinada)
i fèiem simulacions d'enquestes per estudiar la variabilitat dels
resultats observats pel que fa a la proporció mostral.
Quan es fa una enquesta d'opinió, la situació és justament la contrària:
es fa una sola observació i, a la vista de la proporció observada a la
mostra, es vol fer una estimació del valor (desconegut) de la proporció
de persones que manifesten una determinada característica.
Ara bé, el coneixement del model teòric (la distribució binomial) és
el que ens permet, al mòdul 7, afrontar decididament el problema
de l'estimació d'una proporció.
Per acabar, comentarem que a la bibliografia estadística es feia, fa
un temps, una clara distinció en la denominació entre interval de tolerància
(expressió que feia referència sempre a problemes de probabilitat) i interval
de confiança (d'aplicació a les conclusions de les estimacions fetes
a partir d'un mostratge). Actualment, però, en tots dos casos es parla
d'interval de confiança.
|
|
|
 |
|
|