La rappresentativita’ statistica

Il significato e la significanza del campionamento casuale stratificato.

Premessa

Premettiamo che qui si useranno i termini della statistica per descrivere il campionamento, per poi cercare di spiegare i punti difficili con parole piu’ semplici.

Poiche’ nell’Osservatorio ci occupiamo di cittadinə, parlando di Campione faremo riferimento a essə. Va da se’ che le stesse formule possono essere applicate a ogni entita’ individuabile come indipendente (biglie, temporali, mele…).

Premettiamo inoltre che non teniamo conto, in questa sede, del fattore “educazionale” a cui viene sottoposto il Campione in sede di AC, per cui parliamo soltanto di “rappresentativita’ ” da un punto di vista puramente statistico e non sulla qualita’ delle decisioni che le AC potranno prendere.

Popolazione e Campione

Innanzitutto si parla di Popolazione quando si fa riferimento a tutti gli individui di cui si vuole valutare un parametro. Nel caso delle AC potrebbe essere ad esempio l’intera popolazione italiana, o quella che risiede in una determinata Regione o Comune o quartiere. La Popolazione e’ il primo parametro che dev’essere definito a priori con precisione.

Della Popolazione si potrebbe voler valutare per esempio l’altezza media, il voto politico, il consumo di yogurt, la percentuale di accordo sulla costruzione di una ferrovia o di un ponte.

Si ricavano tipicamente percentuali o medie.

Il Campione sono invece gli individui che si scelgono per i conteggi e di cui si raccolgono i dati.

La statistica inferenziale tratta quindi del rapporto tra Campione e Popolazione.

Quando il Campione e’ rappresentativo dell’intera Popolazione? A quali condizioni? Con quale precisione?

Quanto dev’essere numeroso?

Restando sempre nell’ambito delle AC, interessa sapere quantə cittadinə inserire nelle AC per avere un dato affidabile su un certo argomento.

Affidabile significa che deve rappresentare nel modo piu’ preciso ed esaustivo la Popolazione. Affidabile significa che le sue risposte e i suoi comportamenti devono corrispondere a quelli della popolazione.

A questo punto bisogna fare una dichiarazione fondamentale: la statistica – e il campionamento – non definiscono delle certezze, ma definiscono solo e unicamente delle Probabilita’ e delle Imprecisioni.

Allora a cosa serve? Serve a farci sapere quando le probabilita’ sono cosi’ alte da essere affidabili, e quando l’imprecisione e’ cosi’ piccola da poter essere accettata.

Si tratta quindi di definire a priori che probabilita’ e che imprecisione accettare.

In base a questi numeri, si puo’ estrapolare il numero campionario.

Per avere un dato altamente affidabile e facendo i puri calcoli teorici, pero’, la dimensione del campione potrebbe essere troppo numerosa da gestire coi mezzi a disposizione, per cui nella pratica bisogna anche tener conto degli aspetti organizzativi ed economici dello studio.

L’affidabilita’ del dato

Il quesito fondamentale nelle AC allora e’: qual e’ il numero di cittadin3 che bisogna prendere per avere un campione rappresentativo e che si possa considerare come Rappresentativo e quindi Deliberativo a tutti gli effetti? Se ad esempio un Campione di 100 persone decide, con un accordo del 70%, di eliminare le centrali a combustione, quanto e’ probabile che l’intera popolazione, a un referendum, dia un risultato uguale o molto simile a questo, con uno scarto accettabile , per esempio del 5% ? E se la risposta e’ al 50% si e 50% no, quanto e’ affidabile? E nel caso del 90% contro il 10%?

Lasciando da parte le implicazioni del fatto che, come detto, i partecipanti alla AC vengono dotati di molti strumenti di conoscenza in piu’ rispetto alla Popolazione, prima di considerare la formula, va chiarito un altro aspetto poco intuitivo ma molto importante.

Con la statistica applicata a questo tipo di casistiche come le AC, cio’ che si puo’ ricavare dalle formule e’ piu’ o meno questo:

“Quante probabilita’ ho che una determinata Popolazione risponda come il campione, pur con lievi differenze ma restando all’interno di un intervallo (“forchetta”) accettabile?”

La risposta puo’ essere: “Accetto che con il 95% di probabilita’ la Popolazione risponda nella stessa percentuale data dal Campione, se pur con uno scarto massimo di piu’ o meno del 5%, se la risposta e’ positiva almeno all’80%.”

Detto in altri termini, si puo’ accettare che, se il Campione risponde con un 80% di “si”, il 95% della popolazione dara’ una risposta positiva tra il 75% e l’85%.

In questo caso si vede che l’intervallo di fiducia della risposta della Popolazione sara’ affidabilmente simile a quella del Campione.

Come esposto nella tabella seguente, possiamo sintetizzare dicendo che l’intervallo di fiducia/ forchetta varia notevolmente a seconda che le risposte siano polarizzate su valori estremi (verso lo 0% e il 100%) o verso valori medi (50% vs. 50%). Piu’ la percentuale va verso i limiti, piu’ affidabile e’ il dato.

Cioe’ nel caso di una risposta al 50% favorevole e 50% contraria, l’intervallo/ forchetta sara’ decisamente piu’ ampio rispetto a un 80% di “si” vs 20% di “no”.

Finora non abbiamo considerato un aspetto importante, e cioe’ la numerosita’ della Popolazione. In linea di principio, la numerosita’ del Campione deve cambiare a seconda che la Popolazione sia piu’ o meno numerosa.

Nel caso delle AC, pero’, il compito e’ facile: le formule mostrano che con una Popolazione al di sopra di poche migliaia (3.000/4.000), i dati restano stabili. Pertanto nel caso delle AC il numero della Popolazione non viene preso in considerazione, in quanto non e’ piu’ una “variabile”, e quindi non e’ influente. In statistica si parla di “Popolazione infinita”.

A questo punto presentiamo la formula, dove % e’ la percentuale di accordo, e n il numero campionario:

Questa formula (facilmente utilizzabile con la calcolatrice) che ha come costante 1,96, richiede, come esemplificato sopra, un’affidabilita’ del dato del 95%. Qui uno schema esemplificativo per vedere come, a un aumento del campione e/o a una polarizzazione della percentuale di accordo, l’intervallo (forchetta) diminuisca e quindi aumenti l’affidabiita’.

In definitiva, senza bisogno di conoscere la formula e di fare i calcoli, basta tenere presente che l’affidabilita’ dal dato e’ in funzione della dimensione del campione e della percentuale di accordo.

Piu’ essi sono alti piu’ affidabile e’ il dato.

La scelta campionaria

La scelta campionaria dovrebbe essere fatta da un ente indipendente esperto di statistica e di sondaggi. Puo’ essere un Istituto esterno, un Istituto pubblico o uno o piu’ esperti.

Bisogna definire a priori su quali caratteristiche stratificare il campione per rispettare al massimo la sua rappresentativita’. Piu’ il campione e’ grande, piu’ parametri possono essere adottati nella composizione.

Usualmente si accetta di stratificare il campione come minimo per genere, fascia di eta’ e zona geografica (se il campione e’ ampiamente distribuito). In caso di AC su Popolazioni specifiche, bisogna valutare se adottare o meno altri parametri di stratificazione.

L’estrazione del campione dev’essere fatta a partire da un elenco completo e aggiornato della Popolazione.

Questo e’ un aspetto delicato, in quanto spesso gli elenchi di partenza non sono aggiornati e/o completi.

Normalmente si adotta (e si consiglia) uno di questi metodi di estrazione:

Casuale: estrazione casuale senza alcun metodo preordinato. E’ un metodo che presenta molti rischi, poiche’ la casualita’ pura non esiste. Ci sono programmi statistici che creano numeri casuali, ma nessuna di tali applicazioni e’ totalmente affidabile.

A Intervallo: si prende un elemento ogni tot fino a esaurimento del campione, e considerando tutto l’elenco. Ad esempio per creare una campione di 1.000 individui da una lista elettorale di 100.000 persone, prendo un nome ogni 100 senza altri criteri.

A Chiave: dall’elenco prendo gli elementi che hanno una o piu’ caratteristiche che nulla hanno a che vedere con la loro tipologia. Per esempio posso prendere tutti coloro che hanno la lettera “o” nella seconda posizione del nome, o quelli nati il 1 di ogni mese di ogni anno. Questo metodo va utilizzato con diversi parametri, per evitare di creare delle distorsioni involontarie.

Misto: il metodo piu’ consigliato e’ di utilizzare piu’ di uno dei metodi sopra esposti. Con programmi base tipo Excel il lavoro e’ molto semplice e veloce, ma dev’essere fatto comunque da unə espertə.

Se un campione viene estratto in modo corretto, si avra’ certamente una distribuzione uniforme delle varie caratteristiche della Popolazione. Questa e’ un’ affidabile regola dei grandi numeri.

Per i fenomeni molto rari, ci potrebbero essere degli scostamenti, ma in questo caso la tipologia del fenomeno raro non verra’ presa in considerazione nelle analisi finali.

Se ad esempio si volesse cercare di sapere cosa pensano gli informatici maschi amanti di insetti e tifosi della Juve a proposito del nuovo stadio da costruire, con una AC non si riuscira’ a analizzare un aspetto cosi’ dettagliato, che d’altronde non riveste alcun interesse.

La cosiddetta stratificazione e’ il modo in cui il campione viene creato a partire da determinate caratteristiche o “celle”.

Per esempio, le prime due celle normalmente sono quelle del genere: Maschio/Femmina, sempre circa al 50%-50%.

Poi si possono fare delle celle per eta’; per esempio, in caso di liste elettorali: 18-34, 35-55, 56 anni e oltre,

oppure una cella ogni 10 anni, e cosi’ via.

Maggiore e’ il numero di celle, maggiore e’ la differenziazione dei partecipanti, per cui maggiore e’ il lavoro da fare per avere una giusta distribuzione nelle celle. Questo e’ un aspetto molto importante poiche’ spesso trovare le persone che stiano “dentro” le celle giuste diventa un lavoro lungo e molto oneroso.

Il reclutamento

A seconda della metodologia di reclutamento e di altre variabili in gioco, e’ necessario decidere come reclutare il campione.

Normalmente non si obbligano i prescelti a partecipare, per cui e’ necessario fare una stima a priori dei rifiuti e di altre rinunce per poter avere, alla fine, un numero sufficiente e ben bilanciato di partecipanti.

Non si accettano neppure i volontari, poiche’ il criterio dev’essere totalmente casuale.

Il rapporto tra i potenziali partecipanti (prima selezione) e il numero effettivo di partecipanti, puo’ essere molto alto, anche di 1.000 a 1.

Per facilitare questo grosso lavoro, sarebbe bene informare ampiamente la Popolazione del fatto che ci sia una AC in preparazione, cosicche’ le persone siano meno diffidenti e piu’ predisposte alla collaborazione.

La ricerca dei partecipanti

La ricerca dei partecipanti fisici non fa strettamente parte del lavoro statistico, ma se fatta in modo corretto, i parametri statistici vengono rispettati, altrimenti ci si puo’ trovare, alla fine del reclutamento, con un Campione gravemente sbilanciato, e quindi non rappresentativo. E’ quindi indispensabile tenere sotto controllo i parametri richiesti (celle e stratificazione) durante tutta la fase di reclutamento, fino al completamento del Campione.