Az eredményekben a legmegdöbbentőbb, hogy a statisztikai korrekció erősítette a vezető pártok előnyét
Ahogy az köztudott, a Voks 14 egy mobil platformon működő közvélemény-kutatási szoftver, amelynek fő célja a pártszimpátia felmérése, mellékesen pedig politikusok népszerűségét is megkérdezi, továbbá napi kérdéseket is feltesznek, amelyek változóan érdekesek, értelmesek vagy érdektelenek vagy értelmetlenek. Ezekről nem fogok most értekezni, az egyik napi felmérésről itt írtam.
A VOKS 14-nek a hagyományos közvélemény-kutatókkal szembeni előnye, és újdonsága, hogy nem egy előre fixált, kis mintán dolgoznak, hanem bárki szavazhat. Pontosabban akinek van a megfelelő android, windows phone, vagy ad absurdum iphone platformot futtató eszköze, az szavazhat. Mindjárt van még egy hátrány: akinek több ilyen eszköze van, az többször is tud szavazni. De ez a hiba vélhetően nem akkora, mint az egyéb torzítások.
Egyébként a különbség a Voks 14 és a közvéleménykutatók között ebben nem olyan nagy, mint ahogy gondolná az ember. Az igaz, hogy a közvéleménykutatóknál csak az válaszolhat, akit megkeresnek. De az nem igaz, hogy akit megkeresnek, az válaszol. Egy önkéntességi faktor a közvéleménykutatóknál is van, és a szavazatok esetleges titkolásával ott is lehetséges torzulás.
A Voks 14 fejlesztői az internetes szavazást nem engedik meg, illetve nem fejlesztették ki, interneten se szavazni, se megnézni nem lehet a szavazás állását. Ezt azzal indokolják, hogy az internet tetemes többszörös szavazást tenne lehetővé, a mobil platform pedig az előbb említett lehetőség ellenére azért mégiscsak nagyjából egy szavazatot enged meg fejenként. Az interneten megnézni a szavazatokat, ez csak fejlesztés kérdése, amelyre eddig még nem jutott idő.
Ezzel a tervezéssel és ezen döntések mentén sikerült egy viszonylag nagy közönséget elérő, de még így is nagyon torz felmérést összehozni. A Voks 14 több tízezer szavazatból állítja össze az eredményt, ami egy nagyságrenddel több a klasszikus közvélemény-kutatók mintanagyságánál (pár ezer). Másrészt viszont durván torz, hiszen azon szavazók köre, akik ilyen szavazási lehetőséggel rendelkeznek, elég speciális. Viszonylag kevés embernek van eszköze a megfelelő platformmal, még kevesebben telepítik az appot, és szavaznak le.
Feltehetően ennek köszönhető az, hogy amióta én ismerem a szavazás állását, a kormányváltó koalíció (akkor még a Bajnai féle Együtt) toronymagasan vezetett. Ez pedig szöges ellentétben van a klasszikus közvélemény-kutatók eredményeivel. Erre szerintem két magyarázat lehetséges:
A) Ez vagy a Voks 14 torzítása miatt van. Azaz azon emberek körében, és csak azon emberek körében, akik a megfelelő mobil platformmal rendelkeznek, valóban a kormányváltó koalíció vezet.
B) Vagy a hagyományos közvélemény-kutatók torzítanak, és valóban a kormányváltó koalíció a népszerűbb. Ennek magyarázata lehet, hogy az emberek titkolják a valós pártpreferenciájukat, ha a hagyományos közvélemény-kutatók telefonon felkeresik őket. Ezzel szemben őszintébbek, ha a Voks 14-ben maguk szavazhatnak.
A) és B) egyszerre is igaz lehet, és ekkor egy kevert effektust kapunk. Sőt, ez valószínű.
Annak kiderítésére, hogy A) és B) effektus közül melyik milyen erős lehet, illetve a felmérésük hitelesebbé tétele érdekében a fejlesztők néhány alapkérdés alapján megpróbálják kiegyensúlyozni a felmérést. Így jelent meg nemrég a felmérés "reprezentatív" változata. Például megkérdezik a lakhelyedet, és ez alapján próbálják kiegyensúlyozni az adatokat. Mert vélhetően a kisebb falukból kevesebb szavazat jön be, mint a fővárosból, még a lakosság természetes eloszlásához képest is torz módon. A lakosság valós eloszlását ismerve ezen elvileg lehet némi korrekciót végezni, és reprezentatív felmérést készíteni egy torz felmérésből is. A lakosság valódi eloszlásának és a szavazásbeli eloszlásának arányában kell ellensúlyozni az adatokat.
Az is téves elképzelés, ha valaki azt hiszi, a közvéleménykutatók ilyet nem csinálnak. De csinálnak. A közvéleménykutatók sem eleve reprezentatív mintát kérdeznek meg. Igyekeznek amennyire lehet kiegyensúlyozott mintát használni, de végül kénytelenek ők is statisztikai korrekciókat végezni. A voks 14 esetében ez a korrekció valószínűleg nagyobb, mert a nyers minta messzebb van attól, hogy reprezentatív legyen.
Csakhogy - meglepő módon - a Voks 14 esetében a reprezentatívnak mondott felmérés a meglévő tendenciákat nem megfordítja, nem gyengíti, hanem még erősíti is. A vezető Kormányváltó Koalíció még jobban vezet, a második Jobbik még nagyobb előnnyel második. A Fidesz és az LMP pedig gyengébb, mint a nyers adatoknál. Ezek közül csak az LMP esetében kézenfekvő a magyarázat: az LMP esetén kézenfekvő, hogy a nyers adatokban felül van reprezentálva, és a falusi illetve szegényebb lakosság körében nem olyan népszerű. A Jobbik esetében kevésbé egyértelmű a dolog, de elképzelhető, hogy vidéki, szegényebb rétegekben erősebb, mint a gazdagabb, városi szavazók között. A Fidesz esetében bármi lehet, ezt nem is próbálom megtippelni sem.
Ami a Jobbik második helyét illeti, itt lehetett olvasni arról, hogy a párt kifejezetten rágyúrt, hogy jobb eredményt érjen el a Voks szavazásán. Ez pedig a Voks14 rendszerének újabb, immár kiküszöbölhetetlen hibája. Egy párt mozgósítással közvetlenül manipulálni tudja a felmérést. Igaz, más pártok is, és ez esetben kérdés, hogy a Fidesz miért nem csinálta ezt, illetve az MSZP sem. Az MSZP-nek ugyanis önmagában igen alacsony támogatottsága volt a nyers adatoknál korábban. Elvben, ha mindegyik párt ugyanannyi jelentőséget adna a VOKS-nak, akkor a VOKS tulajdonképpen a kampánnyal együtt, a mozgósítási kapacitással együtt tudná modellezni a valódi választást, és ezáltal a hátrányból előny válna, de ez a feltételezés valószínűleg nem teljesül. Nem mindegyik párt tekinti ezt most egyenlő mértékben fontosnak.
Ami a kormányváltó koalíció sikerét illeti, ez is lehet közvetlen kampány eredménye, mégpedig akkor a Bajnai féle Együtt-PM kampányolt. Egy másik magyarázatot is el tudok viszont elképzelni: ez pedig az, hogy a nyers adatokban korábban oly gyenge MSZP vidéken sokkal erősebb, és a statisztikai korrekciónál ez sokkal erősebben nyom a latba, mint a fővárosban vélhetően erősebb Együtt-PM visszasúlyozása. Egyszerűbben mondva: az MSZP vidéken sokkal többet hoz, mint amennyit az Együtt-PM vagy a DK vidéken gyengül. A statisztikai korrekció során ugye feltehetően a vidéki, szegényebb, idősebb rétegek lettek felsúlyozva, és feltehetően itt nem az Együtt-PM lett még erősebb, hanem inkább az MSZP szavazatokat értékelték fel. De ahhoz, hogy ez az eredmény kijöjjön, ahhoz az kellett, hogy ezekben az alulreprezentált rétegekben az MSZP-nek tetemes előnye legyen a Fidesszel szemben.
Lehet persze, hogy a reprezentatív adatok egyszerűen el vannak rontva. De ha elfogadjuk, hogy a reprezentatív adatok korrekciója alapvetően helyes irányba mutat, akkor egyetlen tanulságot vonhatunk le: a Voks 14 reprezentatív felmérése akármilyen furcsa, de a valós helyzet irányába mutat: a kormánykoalíció és a Jobbik erősebb, mint azt a közvélemény-kutatók mondják, a Fidesz pedig sokkal gyengébb. Ennek alapvető magyarázata pedig a B) effektus lehet, azaz az, hogy a kormányváltók titkolják a hagyományos közvélemény-kutatóknál a szavazatukat.
Minderre a Voks 14 felmérése az egyetlen valamire való bizonyíték, amelyről tudok, és mindez azon múlik, hogy a reprezentatív korrekciót jól implementálták-e a fejlesztők. Ezért a Voks 14-nek, és annak a kérdésnek, hogy mennyire csinálták meg jól a korrekciót, mérhetetlen jelentősége van.
Frissítés: A VOKS 14 fejlesztői a cikk írása után több részletet tettek közzé a statisztikai korrekcióról:
"Reprezentatív: az összes válaszadó közül valószínűségi mintavétellel (tehát véletlenszerűen) kiválasztottunk embereket úgy, hogy a végleges minta megoszlása megfeleljen a teljes lakosság összetételének. Például a férfiak és nők, a különböző korcsoportok, a városban vagy falun élők aránya a mintánkban pontosan annyi, mint a teljes magyar lakosság körében.
A mintavétel során felhasznált demográfiai tényezők, amelyek szerint a minta reprezentálja a magyar lakosságot (a KSH 2011-es népszámlálási adatok szerint):
- nem
- kor
- iskolai végzettség
- régió
- településtípus
A minta adatbázis szinten reprezentatív."
Ez pedig elég jó módszernek látszik, bár én nem a subsampling, hanem a súlyozás módszerét választottam volna.
A Voks 14 a politikusok eredményét is közzé tette. A peprezentatív adatok és a nyers adatok aránya itt is hasonló: Vona Gábor sokkal erősebb a reprezentatív adatban, Gyurcsány és Mesterházy is. Az Együtt-PM politikai kb egyensúlyban vannak, Schiffer sokkal gyengébb, a Fidesz politikusai közül a többség inkább gyengébb a reprezentatív adatokban.
Ebből azt a következtetést lehet levonni, hogy visszaigazolódik a pártpreferenciák trendje: a Jobbik, és a Koalíció erősebb, a Fidesz és az LMP gyengébb a reprezentatív adatokon. Ez igazolni látszik azt, hogy a Kormányváltó Koalíció és a Jobbik valóban erős. A Kormányváltók ereje pedig az Együtt-PM ereje a fővárosi, fiatalabb, jómódúbb rétegekben, továbbá a DK ereje a vidéki, szegényebb, idősebb rétegben, illetve az MSZP némi ereje ugyan eme rétegekben. A fenti analízisem tehát helyes volt, csak a DK erejét kell hozzátenni, erről nem tudtam mit jósolni eme újabb adatok nélkül.
Ma pedig már a pártok nyers:
És reprezentatív adatait
is meg tudom osztani.
Ez alapján is az látszik, hogy a reprezentatív adatokban a DK sokkal, az MSZP pedig jelentősen erősebb, az Együtt-PM pedig valamivel gyengébb. Ez adja ki azt, hogy a reprezentatív adatokban összességében a kormányváltók erősebbé válnak. Azt is látjuk, hogy a több, mint 20ezer szavazóból csak 764-et válogatnak ki. Ez egyébként sok adat eldobását jelenti. Szerintem ez így rosszabb, mint ha fel és lesúlyozással egyenlítenének ki. No mindegy, ez a 764 fő állítólag legalább a felsorolt tulajdonságban KSH reprezentatív. És a 764 nem kevés adat.
Természetesen továbbra is ott van a lehetőség, hogy a pártok mozgósítása miatt torz a reprezentatív adat is. De az továbbra is nehezen magyarázható, hogy a DK és az MSZP miért lett erősebb a reprezentatív adatokban, ha nem azért, mert valóban erősebbek vidéken.