Ein kleines bisschen statistischer Hintergrund zur ARD/ZDF-Onlinestudie 2010

August 12, 2010

Das folgende ist eine Ergänzung zur Zusammenfassung der ARD/ZDF-Onlinestudie, die ich drüben bei Netzpolitik.org gepostet habe.

Auffällig ist, dass die Stichprobe 2010 mit 1.806 Personen nur noch ein Bruchteil der der Stichprobe von 1997, die mit 15.431 Personen die bisher größte war, ausmacht - obwohl sie nun einen größeren Bevölkerungsanteil abdeckt: Dieses Mal wurde nicht nur die deutsche, sondern die gesamte deutschsprachige Bevölkerung über 14 Jahren mit aufgenommen (ca. 70,57 Mio Menschen), weshalb gerade der interessante Vergleich mit den Vorjahren mit Vorsicht zu genießen sei.

Das ist eigentlich kein Problem, sondern eher interessant: Man nimmt für die Veränderungswerte einfach nur den “deutschen” Anteil, und kann durch diese Trennung direkt auch schön ausweisen, welchen Effekt die Aufnahme der deutschsprachigen hatte.

Das tun die Autorinnen auch an einigen Stellen, jedoch nicht generell - vermutlich, weil sie wissen, dass ihre Stichprobe dafür dann doch ein bisschen klein geraten ist.

Die Stichprobe wurde nach einem stratifizierten System erhoben, das hier erklärt ist.

Als Goldstandard der Statistik gelten reine Zufallsstichproben. Leider weist aber bei (kleinen) Stichproben fast immer irgendein Parameter (Durchschnittsalter, Verteilung Bundesländer oder Stadt/Land…) eine Abweichung von der Grundgesamtheit auf, wodurch dann die Repräsentativität der Aussagen angegriffen werden kann.

Bei stratifizierten Stichproben beeinflusst man die Auswahlmethode so, dass diese Parameter näher an denen der Grundgesamtheit liegen: Man ruft zum Beispiel gezielt nur eine bestimmte Anzahl Städter, Rentner etc. an, und sorgt dafür, dass sich die Anrufe möglichst gleichmäßig über die (demografische) Fläche der Bundesrepublik verteilen.

Insbesondere kann man dadurch zum Beispiel auch sicherstellen, bestimmte Minderheiten zu berücksichtigen. Somit stimmen dann die Verteilungsparameter, über die man die Repräsentativität angreifen/widerlegen könnte, eher mit denen der Grundgesamtheit überein (deswegen wird im Text auch stolz die “national repräsentative Stichprobe” betont). Allerdings bedeutet das nicht notwendigerweise im Umkehrschluss, dass die Aussagen über die untersuchten Variablen auch tatsächlich “repräsentativer” seien. Die Erfahrungen der Demoskopen haben aber ihre Genauigkeit inzwischen auf ein beeindruckendes Niveau gehoben.

Die Ausschöpfungsrate betrug 70%, was 1.804 (an anderer Stelle steht 1.806) nutzbare Interviews ergab. Davon waren 1.252 Befragte “Onliner”. Bei einer stratifizierten Zufallsstichprobe kann man auf dieser Basis durchaus schon überraschend genaue Aussagen treffen. Man sollte trotzdem im Hinterkopf behalten, dass alles, was hier über “Onliner” gesagt wird, auf 0,0025% der gesamtdeutschen Bevölkerung über 14 Jahren basiert. Diese Zahl ist auch Basis der Schätzung, dass 69,56% (1.252 von 1.804) der Deutschen ‘online’ seien.

Für relativ häufige Variablen sind die Parameterschätzungen in diesen Fällen überraschend genau, bei “selteneren Ereignissen” wird der Messfehler aber recht groß: Markus wies mich zum Beispiel gerade auf folgendes hin: 1% der Befragten (18 Personen) gaben an, Twitter wöchentlich zu nutzen, 2% (36 Personen) nutzen es seltener. Daraus würden dann stolze 2,1 Mio. Nutzer in Deutschland. Die Webevangelisten erfassen mit einer sehr viel geeigneteren Methode für April 2010 270.000 aktive deutschsprachige Twitterer. So viel erstmal zur Genauigkeit der Parameterschätzungen, die ungenauer werden, je seltener die Variable ist.

In der Regel geht man bei (psychologischen) Studien auch davon aus, dass die 30%, die keine (vollständigen) Daten geliefert haben, einen Grund dafür hatten, der irgendwie im Zusammenhang mit den untersuchten Variablen steht.

Dennoch handelt es sich bei dieser Studie ohne Zweifel um die sauberste ihrer Art. Mit diesen kleinen Anmerkungen möchte ich sie keinesfalls diskreditieren, aber das Bewusstsein der Leser dafür schärfen, die Ergebnisse richtig einzuordnen.