torstai 7. huhtikuuta 2011

HS vaalikoneen avoin data

Helsingin Sanomat julkaisi sisällön, jonka ehdokkaat olivat sen vaalikoneeseen syöttäneet. Tässä on ensimmäinen analyysini aineistosta. Pallojen halkaisija ja väri kuvaavat sitä, että miten paljon täsmälleen samoja vastauksia vaalikoneen kysymyksiin satunnaisella kahden eri puolueen ehdokkaalla on. Luonnollisesti voimme laskea myös paljonko puolueen ehdokkailla on keskenään samoja vastauksia.

Lähteenä on käytetty http://blogit.hs.fi/hsnext/hsn-vaalikone-on-nyt-avointa-tietoa.

Suurin ero tulee välille KOK-SKP (ja KOK-VAS), mutta myös VIHR-PS ero on merkittävä. Piraattipuolue loistaa hajonneilla vastauksillaan, sillä piraattipuolue on keskenään enemmän eri mieltä kuin kaikki ehdokkaat yhteensä (keskimäärin kaikki ehdokkaat olivat samaa mieltä 12.3:sta kysymyksestä keskenään). Perussuomalaisia lähimpänä on KD, ja yllättäen SDP. Vihreät ovat yllättävän vasemmalla ja kaukana kokoomuksesta.

Laskettu suure ei ole optimaalinen kuvaamaan puolueiden eroja, ja se perustuu vain yhteen 30 kysymyksen aineistoon. Siinä on mukana kaikki ehdokkaat ja kysymykset samalla painolla. Siitä huolimatta tästäkin datasta näkee hyvin puolueiden välisiä eroja eli ts. kuva on odotettu.

Mikäli haluat itse leikkiä datalla, saat parsittua dataa tällä skriptillä, jota käytin tämän kuvan tekemiseen. Skripti tarvitsee alkuperäisen datan tabeilla erotettuna (alkuperäinen annettu CSV ei toimi, sillä ehdokkaat ovat käyttäneet puolipisteitä kommenteissaan). En takaa, että skripti tai kuva toimii.

Ei kommentteja:

Lähetä kommentti