sunnuntai 10. huhtikuuta 2011

Avoin data: Kyllä kansa tietää - Vuoden 2007 eduskuntavaalit

Alustavan analyysin mukaan kansalle ei tarjota vuonna 2007 tarpeeksi valinnanvaraa liberaali/konservatiivi akselilla, kun puolueiden pääpaino on keskittynyt vasemmisto/oikeisto akselille. Olen kuitenkin huomannut, että tulokset ovat kvalitatiivisesti herkkiä sille, että miten kysymysten käsittelyn tekee, joten antamani prosentit vaihtelevat huomattavasti eri tavoista riippuen.

Helsingin Sanomat julkisti vaalikonedatansa vuodelta 2007 ja 2009. Olennaista tässä on se, että nyt käytettävissä on myös ihmisten vastaukset.

Tästä asetelmasta herää mielenkiintoisia ongelmanasetteluja. Edustaako kansan mielipide poliitikkojen mielipiteitä, eli ts. toteutuuko demokratia? Syntyykö välillä poliittisia tyhjiöitä ja täyttyvätkö ne?

Pääkomponenttianalyysin avulla voimme määrittää jokaiselle vaalikonevastaukselle paikan 2D-tasolla. Aiemmin on jo käynyt ilmi, että nämä kuvaavat vuoden 2010 ehdokkaiden mukaan suuntaa-antavasti vasemmisto-oikesto akselia, sekä arvokonservatiivi-liberaali akselia.

Vuoden 2007 vaalikonedatasta tehty pääkomponenttianalyysi päätyy samanlaisiin tuloksiin kuin aikaisemmat työt vuodesta 2011. Kuvassa on tehty kansanedustajaehdokkaille pääkomponenttianalyysi, ja jossa ehdokkaan puoluekanta on kuvattu pisteen värillä. Tämän jälkeen 'kansan mielipide' eli kaikkien 380 000:n vaalikonevastauksen jakauma on piirretty kuvaan kansanedustajaehdokkaiden määräämille akseleille. Huomatkaa, että tämä on tietenkin vinoutunut otos koko kansan mielipiteestä. Tarkoituksenani on käsitellä data vielä alueittain ja ikäryhmittäin normalisoituna. Tästä kuvasta kuitenkin huomataan, että kansa on tiivistynyt vasemmisto-oikeisto akselilla enemmän keskelle kuin mitä puolueiden ehdokkaat (eli puolueet ovat levittäytyneet ikäänkuin turhaan vasemmisto-oikeisto akselille).


Kyllä kansa tietää

Puolueita on syytetty siitä, että ne eivät edusta kansan ääntä. Miten siis HS-vaalikoneen käyttäjät sijoittuvat, kun heille tehdään pääkompoenttianalyysi (eli erona aikaisempaan, sijoitetaan vaalikoneenkäyttäjät akseleille, ikäänkuin he olisivat 380 000 kansanedustajaehdokasta). Näihin samoihin akseleihin voimme nyt sijoittaa myös kansanedustajaehdokkaat. Yleiskuva ei juurikaan muutu ja akselit ovat edelleen samat. Ehkä siis myös kansalle on tärkeää oikeisto/vasemmisto ajattelu sekä liberaali/konservatiivi. Tosin toinen vaihtoehto on se, että vaalikone on laadittu niin että nämä erot korostuvat.


Kun kansa itse määrää mielipideakselinsa, hot-spot levenee, koska itseasiassa koko pääkomponenttianalyysin ideana on maksimoida datan varianssi. Nämä pisteet kuvaavat siis kansan mielipiteitä optimaalisesti, niin hyvin kuin kaksi koortinaattia sen voi vain suinkin tehdä. Itseasiassa demokratian toteutumisen asteen voisi jopa määritellä niin, että kansanedustajaehdokkaat (tai kansanedustajat, TULOSSA!) ovat asettuneet yhtä leveästi kansan määräämälle akselille kuin itse kansa. Laskin alustavasti toteutuneet varianssit, niin kansanedustajaehdokkaat olivat levinneet vasemmisto oikeisto akselille 30% enemmän kuin kansa, mutta liberaali/konservatiiviakselilla kansanedustajaehdokkaat ovat 40% suppeampia kuin kansa. Alustavasti siis: vuoden 2007 politiikkaan tarvitaan enemmän hajontaa kuin perinteinen oikeisto/vasemmisto jaottelu. Näin itseasiassa on käynytkin, mutta valitettavasti vain konservatiiviseen suuntaan.

Henkilökohtaisesti olen tällä hetkellä hyvin tyytymätön demokratian toimintaan Suomessa. Keltaisen lehdistön sensaatiokulttuuri on levinnyt jo valtamediaan ja kokonaisuuden kannalta epäolennaisia asioita nostetaan usein esille. Demokratia vaatii toimiakseen kunnolla valistuneen äänestäjän ja nykymedia ei valistumiseen tarvittavaa tietoa valitettavasti pysty tarjoamaan.

Teknistä tietoa ja vastuuvapautus: Kaikki vaalikoneen muuttujat on otettu mukaan. Mikäli vaalikoneen kysymysvaihtoehdot voi esittää skaalalla, on käytetty yhtä muuttujaa ja numerointia tasavälein, mutta mikäli vaihtoehdot olivat tasaiset keskenään, niin jokaiselle vastausvaihtoehdolle on tehty oma muuttujansa. En ole varsinaisesti tilastomatematiikan asiantuntija, joten en uskalla luvata tietojen absoluuttista tarkkuutta - kaikki on so far mutua. Laitan lähdekoodit, joilla tämä data on kerätty tähän esille. Dataa on niin paljon, että siitä voi tehdä monenlaista analyysiä: Python parseri, matlab pääkomponenttianalyysi, kuvan piirto ja pääohjelma.

Ei kommentteja:

Lähetä kommentti