Eroarea ne-statistică și alte lucruri pe care nu le știați despre sondaje

Exit-poll-urile din 6 decembrie 2009 și respectarea recomandărilor ESOMAR (via Bogdan Voicu)

Pe blogul Sociollogica am citit de curând o analiză care încearcă să argumenteze că deseori cea ce apare cititorului de rând ca manipulare grosolană prin sondaje reflectă de fapt diferențe de metodologie și/sau trenduri pe care un cititor avizat le poate înțelege la o lectură atentă.

Dincolo de argumentele în sine – pe care vă invit sa le citiți – m-au frapat două lucruri. Pe de o parte există o tendință de a spune că eroarea unui sondaj este în mod fundamental eroarea statistică – ceea ce este fals. Pe de altă parte autorul Barbu Mateescu pare să transfere responsabilitatea interpretării serilor de date de la producător la consumator – ceea ce este discutabil.

Autorul blogului încearcă să arate că majoritatea sondajelor tind să difere între ele în interiorul marjei de 3% (aplicată în mod ciudat și la exit-poll). Dar chiar adevărat fiind, această concidență ține puțin și de noroc. Să vă explic. Eroarea statistică obișnuită ne arată că 95% dintre sondaje vor avea o eroare de maxim 3%, presupunând că din culegerea datelor nu reies nici un fel de erori. Ori, lucrurile nu stau așa.

Poate că atunci când operatorii sunt trimiși pe teren aceștia sunt preponderent băieți sau fete. Poate că ei sunt instruiți mai bine sau mai prost, mai egal sau inegal. Poate că sunt la primul sondaj, poate că au experiență sau poate că sunt vulpi bătrâne care știu să fenteze sistemul. Poate că la aceeași adresă (sau telefon) se revine o dată, de două ori, sau deloc. Poate că se verifică chestionarele după ce au fost completate revenind telefonic la respondenți sau poate nu. Poate că pe una din regiuni coordonatorul și-a luat oamenii cei mai buni, a fugit cu ei la concurență iar „sondatorul” a fost nevoit să trimită pe teren organizația de tineret a partidului (aici sunt aproape rău).

Toate acestea pot influența într-o proporție oarecare rezultatele unui sondaj, sau chiar al unui recensământ. Iar proporția este (răpăit de tobe)… în mod fundamental… ne-mă-su-ra-bi-lă. Putem uneori să măsurăm eroarea totală. Spre exemplu, dacă am estimat că se vând n mii de litri din uleiul X, producătorul poate valida oricând cu cifra de ieșiri la poarta fabricii. Analize pe serii mai lungi pot arăta (empiric, nu statistic) cât de mare este de obicei eroarea totală pentru un domeniu dat. Dar și așa nu vom ști cât a fost eroarea statistică și cât a fost cea ne-statistică.

(Paranteză: de altfel însuși sondajul de opinie ca metodologie de cercetare a fost validat empiric și nu statistic)

Mai departe, eroarea statistică poate fi manipulată într-un mod relativ subtil. Să zicem că din software am extras 200 de eșantioane. Clientul se grăbește și/sau nu are bani, iar rețeaua noastră de operatori nu acoperă în mod egal țara. Poate că o parte din eșantioane includ sate care nu au nici măcar drum de piatră. Dar stă în puterea noastră să alegem cu mâna un eșantion care cuprinde preponderent orașe unde avem operatori și sate aflate la o distanță rezonabilă de acele orașe. Deși scopul nostru este să economisim timp și bani de transport, o asemenea practică ar deteriora aproape sigur calitatea datelor. Cum structura eșantionului nu prea se publică iar structura rețelei de operatori nu se publică de loc, singurele obstacole care ne opresc să abuzăm de aceasta putere sunt propria conștiință și teama de client.

Ce facem deci? Domnul Mateescu sugerează o mai mare atenție din partea noastră, a cititorilor. Poate că momentul diferă între sondaje, ne spune el, sau poate că întrebările sunt altele. Dar nouă datele nu ne vin neapărat din tabele. Institutele publică și comunicate de presă, rapoartele au de regulă un sumar executiv (scuzați barbarismul). Aceste texte sunt pentru publicul ne-specializat și trebuie să aibă sens atunci când sunt citite independent.

În plus, am arătat cum nu toate informațiile necesare unei înțelegeri coerente sunt mereu disponibile. Dar cel mai important nu este următorul fapt: nu (mai) este în interesul publicului să facă aceste analize. Există deja pe piață suficiente companii de sondare încât să putem face o „triangulare” (expresia lui Barbu Mateescu). Iar o asemenea triangulare (compararea mai multor sondaje pentru a exclude valorile aberante) este mult mai simplă i sigură decât o critică sociologică făcută cu date incomplete.

Dacă cercetătorii își doresc cu adevărat o reputație mai bună sunt liberi să facă trei lucruri: (1) să creeze standarde de transparență, (2) să creeze standarde de bună practică sau să le promoveze mai agresiv pe cele existente și (3) să se penalizeze atunci când nu respectă punctele (1) și (2). Apreciez eforturile de clarificare și popularizare făcute pe Sociollogica și în alte locuri. Dar dacă breasla nu face mai mult, înseamnă că, per total, presiunea societății pare încă suportabilă.

Alternativ, putem aștepta ca retailerii de informație (adică presa) să ne ofere ei acest gen de analize și acțiuni. Dar, serios, care sunt șansele?

De citit:

Articolul lui Barbu Mateescu de la care am pornit această discuție: „Toate sondajele minte!” – un răspuns calm de la un sociolog.
Un articol pe Sociollogica despre intenția de vot față de USL. De urmărit modul în care cele două sondaje diferite urmăresc participarea la vot.
4 articole (1, 2, 3, 4) ale lui Bogdan Voicu despre eroarea exit-poll-urilor și greutatea de a obține date metodologice.

Andrei Tiut

Un comentariu

Interesant! Am aflat multe lucruri! dar, dincolo de statistici sociologice si economice, se „scapa” din vedere componenta emotional-afectiva. De exemplu, bursa de pe Wall-Street tocmai de asta e condusa! Sau in ziua alegerilor tocmai asta prevaleaza!
Multumesc!

Răspunde

Andrei Tiut spune:

februarie 4, 2012 la 3:52 pm

Si exit-poll-ul dom’judecator? Onoarea lui cine o repara?

Răspunde

Mulţumesc pentru dialogare şi critici. Eroarea ne-statistică are surse foarte multe, dar triangularea ajută la identificarea celor care au dat-o în bară (nu că ar fi atât de mulţi). În postare am menţionat tocmai strânsa legătură dintre sondaje şi rezultate – în majoritatea covârşitoare a cazurilor *nu* s-a dat în bară.

Sunt întru totul cu tine de acord că sondajele nu sunt explicate în profunzime. Dar.. tu vorbeşti la un moment dat despre „consumator”, inferând prin acest termen publicul larg. Din nefericire, „consumatorul” este cine a plătit pentru sondaj. Între anumite limite, ei aleg ce şi cât se prezintă publicului. Trist dar adevărat.

Sper ca dialogul să continue – dacă am creat mai multă confuzie, trage-mă de mânecă.

Răspunde

Andrei Tiut spune:

februarie 4, 2012 la 3:50 pm

Desigur, triangularea rulz, :)))

Eu as zice ca responsabilitatea cercetatorului este designul total, si daca pui intrebari proaste este treaba ta (adica nu a ta Barbu ci a companiilor 🙂 ). In cazul USL, spre exemplu, cele 2 seturi de intrebari vor sa masoare acelasi lucru (daca inteleg corect). Chiar daca statistica e buna in ambele cazuri, numai unul dintre seturi poate fi indicator valid.

Ai si tu dreptate cu „consumatorul”. Dar rezultatele sunt publicate folosind numele cercetatorului si acesta are dreptul sa puna niste limite vis-a-vis de cum e folosit acest nume. Desigur, atata vreme cat teama de a se face de ras depaseste dorinta de a incasa un ban rapid.

Răspunde

Pingback: Raport despre starea analizei politice în mediul online « Civitas Politics

Pingback: 600 de sondaje şi ceva mărunţiş (OSINT 8) « Civitas Politics

Marian spune:

februarie 4, 2012 la 1:39 pm

Interesant! Am aflat multe lucruri! dar, dincolo de statistici sociologice si economice, se „scapa” din vedere componenta emotional-afectiva. De exemplu, bursa de pe Wall-Street tocmai de asta e condusa! Sau in ziua alegerilor tocmai asta prevaleaza!
Multumesc!

Răspunde
- Andrei Tiut spune:
  
  februarie 4, 2012 la 3:52 pm
  
  Si exit-poll-ul dom’judecator? Onoarea lui cine o repara?
  
  Răspunde
Barbu Mateescu spune:

februarie 4, 2012 la 3:39 pm

Mulţumesc pentru dialogare şi critici. Eroarea ne-statistică are surse foarte multe, dar triangularea ajută la identificarea celor care au dat-o în bară (nu că ar fi atât de mulţi). În postare am menţionat tocmai strânsa legătură dintre sondaje şi rezultate – în majoritatea covârşitoare a cazurilor *nu* s-a dat în bară.

Sunt întru totul cu tine de acord că sondajele nu sunt explicate în profunzime. Dar.. tu vorbeşti la un moment dat despre „consumator”, inferând prin acest termen publicul larg. Din nefericire, „consumatorul” este cine a plătit pentru sondaj. Între anumite limite, ei aleg ce şi cât se prezintă publicului. Trist dar adevărat.

Sper ca dialogul să continue – dacă am creat mai multă confuzie, trage-mă de mânecă.

Răspunde
- Andrei Tiut spune:
  
  februarie 4, 2012 la 3:50 pm
  
  Desigur, triangularea rulz, :)))
  
  Eu as zice ca responsabilitatea cercetatorului este designul total, si daca pui intrebari proaste este treaba ta (adica nu a ta Barbu ci a companiilor 🙂 ). In cazul USL, spre exemplu, cele 2 seturi de intrebari vor sa masoare acelasi lucru (daca inteleg corect). Chiar daca statistica e buna in ambele cazuri, numai unul dintre seturi poate fi indicator valid.
  
  Ai si tu dreptate cu „consumatorul”. Dar rezultatele sunt publicate folosind numele cercetatorului si acesta are dreptul sa puna niste limite vis-a-vis de cum e folosit acest nume. Desigur, atata vreme cat teama de a se face de ras depaseste dorinta de a incasa un ban rapid.
  
  Răspunde
Pingback: Raport despre starea analizei politice în mediul online « Civitas Politics
Pingback: 600 de sondaje şi ceva mărunţiş (OSINT 8) « Civitas Politics