Szerző: BIRKÁS GYÖRGY
2025.09.23.
"A statisztika olyan, mint a bikini: sok mindent megmutat, de a lényeget eltakarja." - mondta Aaron Levenstein, és a mintavételi torzítás pont erről szól. Amikor egy minta nem reprezentatív az általa képviselni kívánt populációra nézve, akkor a következtetések annyira megbízhatók, mint egy neres konzultációból kiolvasni a nép akaratát.
A mintavételi torzítás (sampling bias) akkor jelentkezik, amikor a kutatásunkban vagy érvelésünkben használt minta szisztematikusan eltér attól a populációtól, amelyről állítást kívánunk tenni. A torzítás lehet tudatos (amikor szándékosan válogatjuk ki, hogy kit kérdezünk meg), de gyakrabban tudattalan következménye annak, hogy egyszerűen nem gondoljuk végig, kik maradnak ki a mintából.
A Literary Digest magazin 1936-os fiaskója jól illusztrálja a hibát. 2,4 millió embert kérdezett meg, és magabiztosan jósolta Alf Landon győzelmét Franklin D. Roosevelt ellen. Roosevelt végül az egyik legnagyobb fölénnyel nyerte meg a választást az amerikai történelemben. Mi volt a hiba? A magazin telefonkönyvekből és autótulajdonosi nyilvántartásokból válogatta a címeket. 1936-ban azonban ezek elsősorban a jómódú polgárokat fedték le, akik természetesen republikánus szavazók voltak. A munkásosztály, amely Roosevelt masszív támogatói bázisát alkotta, nagyrészt kimaradt a mintából.
A 2016-os amerikai elnökválasztás előtt szinte minden közvélemény-kutatás Hillary Clinton győzelmét jósolta. A kutatók azonban alulbecsülték azt, hogy mennyi korábban nem szavazó fehér munkás fog elmenni Trump mellett voksolni. Ezek az emberek gyakran nem válaszoltak telefonhívásokra, nem töltöttek ki online kérdőíveket, egyszerűen láthatatlanok maradtak a hagyományos módszerek számára.
Magyarországon a közvélemény-kutatásoknak különös kihívással kell szembenézniük. A Medián egy elemzése szerint az emberek jelentős része egyszerűen nem hajlandó őszintén válaszolni politikai kérdésekre idegeneknek, ez különösen a kormánykritikus vélemények esetén jellemző. Online felmérésekben viszont a vidéki, idősebb korosztály (amely a fidesz fő támogatói bázisa) kevésbé elérhető, míg a fiatalabb, városi rétegek túlreprezentáltak az internetes mintákban. Ezért van olyan nagy (az elvi hibahatárnál nagyobb) eltérés a különböző kutatóintézetek pártpreferencia felméréseiben, az eltérő módszertanok különböző szisztematikus hibákat eredményez (ez lehet tudatos, hiszen a megrendelőnek hízelgő eredmény további megrendeléseket eredményezhet).
A közösségi média korában új típusú mintavételi torzítások jelentek meg. Amikor valaki a facebook-feedje alapján próbál következtetni a közhangulatra, olyan mintát használ, amely már előre megszűrt, algoritmusok döntik el, hogy milyen tartalmakat látunk, és ezek az algoritmusok kifejezetten arra vannak optimalizálva, hogy a saját nézeteinkhez hasonló tartalmakat mutassanak.
Ez vezetett oda, hogy 2016-ban rengeteg amerikai liberális meg volt győződve arról, hogy senki nem szavaz Trump-ra, egyszerűen azért, mert a saját közösségi média buborékjukban valóban nem találkoztak ilyen emberekkel. Nálunk is sokan vannak, akik nem értik (én sem), hogy szavazhat még 15 év ner után valaki a fideszre, de az ő buborékuk azt nem érti, hogyan választhat valaki mást, mint Európa első emberét, aki egymaga megállította a migránsokat és a háborút, jobbkezével (M. Gy.) letörte az inflációt és beindította a gazdasági növekedést, bal kezével (S. Zs. bácsi) megállította az LMBTQ lobbit.
Az online korszak másik jellegzetessége, hogy egyre több "kutatás" alapul önkéntes válaszadásokon. Amikor egy hírportál olvasóit kéri meg szavazásra, vagy amikor egy influencer instagram-sztorijában tesz fel kérdést, a kapott eredmény csak azokra a követőkre reprezentatív, akik elég motiváltak ahhoz, hogy válaszoljanak, márpedig ezek gyakran a szélsőségesebb véleményekkel rendelkezők.
Mielőtt egy statisztika vagy kutatási eredmény alapján következtetést vonnánk le, érdemes megkérdezni, mennyire reprezentatív volt. Ki volt a célcsoport, és ki maradt ki belőle? Hogyan gyűjtötték az adatokat? Mennyire hajlandóak voltak az emberek őszintén válaszolni? Ez utóbbira jó példa, hogy az összes európai ország közül a magyar férfiaké a legnagyobb Európában, de csak önbevallás alapján. Objektív orvosi mérések ezt nem támasztják alá.
Amikor hamis biztonságérzetbe ringatnak minket a torz minták, amikor úgy gondoljuk, hogy mindenki a mi véleményünkön van, mert csak a hozzánk hasonlóakat halljuk meg, akkor elveszítjük a képességünket arra, hogy valóban megértsük a körülöttünk élő társadalmat.
Talán a legfontosabb, hogy megtanuljuk figyelni arra, ami nem szerepel a mintában. Ki az, aki nem válaszol? Ki az, aki nem elérhető? Ki az, aki nem akar őszintén beszélni? Gyakran épp ezek az elnémult hangok döntik el a választásokat és formálják a valóságot.

Nincsenek megjegyzések:
Megjegyzés küldése
Megjegyzés: Megjegyzéseket csak a blog tagjai írhatnak a blogba.