Metodebeskrivelse

13. maj 2019 0 Af kasperrisager

Dette er en lidt mere formel metodebeskrivelse, som kan bruges hvis man allerede ved lidt om modellering, og gerne vil vide præcist hvad vi laver.

Data

Vi har brugt data for sidste meningsmålinger før valgene i 2007, 2011 og 2015. Vi har flere data liggende, men det viste sig at være besværligt at bygge en god historik op, så vi nøjes med meningsmålingerne dagen før valgene.

Disse data består af meningsmålinger hvor stemmeprocenterne, p_i, summer til 1. For at kunne lave den efterfølgende modellering, transformeres de med en form for multidimensional logistisk transformation

q_i = log p_i – 1/n sum(log p_j)

Det gælder for q_i‘erne at de summer til 0 over hver meningsmåling.

Modellering

Når vi ser på tidligere valg, kan vi få et indtryk af, hvor godt middelværdien af institutternes q_i for hvert parti rammer. Standardafvigelsen er omkring 0,1. Da q_i‘erne er omtrent logaritmetransformerede svarer det til en standardafvigelse i tilslutningen på ca. 10 procent – ikke procentpoint. For et parti med 20% tilslutning må vi altså forvente at gennemsnittet af meningsmålingerne rammer omkring 2%-points forkert.

Det skal dog bemærkes, at det varierer meget over de tre valg, hvor meget meningsmålingerne rammer forkert. De ramte godt i 2007 og dårligt i 2015.

Hvis man bare lavede en model baseret på de 0,1 ovenfor ville man imidlertid miste noget af den information som ligger i at have flere meningsmålinger. Variabiliteten mellem målingerne må forventes at sige noget om, hvor præcise de er. Hvis det samtidig er sådan, at institutterne er enige om, hvor stor støtten er til to partier tilsammen, men uenige om, hvordan det skal fordeles internt, må det forventes at sige noget om, at partiernes stemmeantal er antikorrelerede.

Derfor vægter vi den observerede korrelation i meningsmålingerne ind. Vi vægter den dog kun ind med halv vægt, da den også kan bidrage med en del støj. Samtidig, hvis nogle partier får meget forskellig tilslutning i to målinger, er det mest rimeligt at antage at det rigtige er i midten, frem for at antage at enten den ene eller den anden har ret.

Der kan også komme lidt støj fra, at man ikke spørger alle stemmeberettigede, men kun et udsnit. Når man tager alle meningsmålinger med kommer de op på at spørge i størrelsesorden 10.000 personer. Halvdelen af den støj er dog allerede repræsenteret i leddet ovenfor, så vi tilføjer støj svarende til 20.000 respondenter

Vores foreløbige model for valgets q‘er derfor at de er normalfordelte, med middelværdi lig det observerede gennemsnit over målinger, og med kovarians

0.5 CovObs + 1/20000 CovSampling + 0.006 CovNoise

Her er CovObs den observerede kovarians, CovSampling er den (uskalerede) støj man ville få fra samling og CovNoise er en kovariansmatrix hvor alle diagonalelementerne er 1, og hvor off-diagonalelementerne er -1/(antal partier) for at vi får genereret q_i‘er som summer til 0.

Denne model ser overordnet ud til at passe meget godt, men når vi sammenligner den med valgresultaterne i de tre år, får vi det resultat at meningsmålingerne ramte usandsynligt godt i 2007, ok i 2011 og usandsynligt dårligt i 2015. Der mangler derfor noget yderligere usikkerhed til at beskrive dette.

Til dette har vi valgt at skalere kovariansen med et tilfældigt trukket tal, så den bliver

S ( 0.5 CovObs + 1/20000 CovSampling + 0.006 CovNoise )

hvor S er invers χ2-fordelt med 5 frihedsgrader. Det gør forelingen til en multidimensional t-fordeling. Tallet er valgt ud fra erfaringen for, hvor godt meningsmålinger generelt rammer valgresultater

Simulering

Vi har nu en model for fordelingen af valgresultater givet meningsmålinger. Vi gør herefter følgende

  1. Indsaml seneste meningsmålinger fra hvert institut (Berlingske Barometer og Erik Gahner på GitHub)
  2. Lav den multidimensionelle logistiske transformation på dem
  3. Regn middel og kovarians
  4. Simulér 10.000 realisationer af q under modellen
  5. For alle disse, transformér dem tilbage til valgresultater i procent
  6. Fordel mandater efter sædvanlige regler

Hermed har vi 10.000 mandatfordelinger at lave statistik på

Resultater til rådighed

De seneste resultater er til rådighed som www.hvisdervarvalgimorgen.dk/data/MCResults4.RData. I dette datasæt ligger et tibble (tidyverse) med 10.000 rækker for hver dato, og hvor kolonnerne repræsenterer antal mandater til hvert parti. Partierne er angivet ved partibogstav. Der er tilføjet partierne ‘FO1’, ‘FO2′, GL1’ og ‘GL2’ som repræsenterer nordatlantiske mandater.

0 Shares