10. Oktober 2022

Die signifikante Schülerzahl für eine aussagekräftige Studie

Wie viele Schüler müssen in eine Studie einbezogen werden, damit die Aussagekraft Relevanz hat?

Ich bin kein Statistiker und kein Mathematiker. Ich schreibe hier nur aus der subjektiven Beobachtung eines - in meinen Augen - etwas kuriosen Phänomens.

So gab es jüngst eine Studie, in der 324 Kinder- und Jugendpsychiater über die Situation der Versorgung von psychosomatischen Phänomenen bei Kindern und Jugendlichen befragt wurden. Eine Zusammenfassung hat das Deutsche Schulportal gemacht. Wenn ich mir die Arbeit so durchlese, dann kommt mir so ganz spontan der Gedanke: es hätte ausgereicht einen einzigen Kinder- und Jugendpsychiater zu befragen. Ich will damit nicht die wissenschaftliche Arbeit der beteiligten Wissenschaftler diskreditieren, kritisieren oder klein reden. Aber die Frage stellt sich natürlich schon, ob dieser Aufwand gerechtfertigt ist, um zum Ergebnis zu kommen: die Situation ist katastrophal. Viel wichtiger wäre ja, der Frage nachzugehen: "warum ist die Situation wirklich so katastrophal?"! Denn wenn man jetzt nur so ein zusammenfassendes Ergebnis hat, dann verbergen sich ja dahinter tausende, hunderttausende von Einzelschicksalen, von denen jedes anders ist. Und die Antwort, die sehr schnell nach einem solchen Studienergebnis zur Hand ist "wir brauchen mehr Kinder- und Jugendpsychiater" ist möglicherweise falsch.

Bei der berühmten Hattie-Studie, ich habe diese ja auch schon mehrfach genutzt und zitiert, wurden 750 Metaanalysen zurate gezogen und über ein statistisch-mathematisch verifizierbares Verfahren 138 Parameter ausgewertet. Insgesamt erfasste die Studie immerhin 250 Mio. Schülerinnen und Schüler. Die Studie wird kontinuierlich weiter geführt. Zwischenzeitlich sind 1850 Metaanalysen mit mehr als 300 Mio. Schülerinnen in die Ergebnisse eingeflossen. Doch auch in Fachkreisen gilt die Aussagekraft als beschränkt. Schon im Jahr 2013, als die Studie nach ca. 15 Jahren Arbeit veröffentlich wurde, zeigt Remo Largo, dass sich eindeutige Aussagen auch nur mit einer gezielten Interpretation herauslesen lassen.

John Hattie schreibt beispielsweise selbst in seiner lesenswerten Einleitung zur Studie

In New Zealand, for example, it is clear to me why we rank in the top half-dozen nations in reading, mathematics, and science—we have a nation of excellent teachers.

In Neuseeland zum Beispiel ist mir klar, warum wir in den Bereichen Lesen, Mathematik und Naturwissenschaften zum besten halben Dutzend in den Bereichen Lesen, Mathematik und Naturwissenschaften gehören - wir haben eine Vielzahl hervorragender Lehrer.

oder

It is not a book that includes qualitative studies. It only includes studies that have used basic statistics (means, variances, sample sizes). Again, this should not mean qualitative studies are not important or powerful but just that I have had to draw some lines around what can be accomplished over a 15-year writing span.

Das Buch enthält keine qualitativen Studien. Es umfasst nur Studien, die grundlegende Statistikwerte (Mittelwerte, Varianzen, Stichprobengrößen) enthalten. Auch das soll nicht heißen, dass qualitativetive Studien nicht wichtig oder nicht aussagekräftig sind, sondern nur, dass ich beschränken musste auf das, was in 15 Jahren erfasst werden kann.

Interpretation des Werkes ist also ausdrücklich erlaubt, erwünscht und auch erforderlich.

Remo Largo und Kollegen untersuchten in der Züricher Longitudinalstudie "nur" etwa 320 Kinder über dreißig Jahre. Dafür hat Remo Largo seine Probanden persönlich besucht und wissenschaftliche Tests mit ihnen durchgeführt. Welche Studie ist nun "besser"? Jene mit 250.000.000 Teilnehmern, jene mit 324 Kinder- und Jugendpsychiatern oder jene mit 320 Personen? Vielleicht könnte man auch darüber eine Studie machen, aber das ist hier jetzt nicht das Thema.

In den meisten Fachbüchern finden wir Falldarstellungen. Diese können fiktiv sein, häufig handelt es sich um exemplarische reale Fälle. Es wird also ein einziger Fall, hinter dem ein komplexer Kontext steht, reduziert auf eine prägnante Falldarstellung. Da wird vielleicht die Wirkung von Ritalin beschrieben oder das Verhalten eines 12-jährigen im Mathematikunterricht. Manchmal wird noch dazugeschrieben, ob das Kind einen Migrationshintergrund hat oder nicht oder aus welchen sozialen Verhältnissen es kommt. Ist nun so ein Einzelschicksal aussagekräftig?

Meine Antwort ist auch sehr klar: wenn wir keine Konsequenzen aus den Einzelfallstudien, den Studien, Metaanalysen oder Metametastudien ziehen, ist jede Beobachtung, jede Bewertung, jede Auswertung sinnlos.

Nun schauen wir mal von einer anderen Seite auf Studienzahlteilnehmer. Zunächst einmal erscheint die Zahl von 250 oder 300 Mio. Studienteilnehmer groß. Aber ist sie das auch wirklich? Die Studie besteht ja aus 1.850 Metastudien, die dann auf 138 Parameter abgebildet werden. Ich habe keine Angabe gefunden, wieviele Studienteilnehmer im Durchschnitt auf einen Parameter eingewirkt haben. Wir können aber mal grob davon ausgehen, dass es sicher nicht mehr als 1-2% der Gesamtzahl an Schülern ist. Bei Bevölkerungsumfragen in Deutschland mit ca. 80 Mio. Einwohner gelten z.B. auch Umfragen unter 1.000 Teilnehmern schon als repräsentativ. Das entspricht 0,00125%. Wir können also diverse Studien einen Moment beiseite schieben und folgende Überlegung anstellen. Wenn 1% aus einer Gesamtzahl als relevante Größe gesehen werden, können wir uns aus einer Schule mit 1.000 Schülern zufällig 10 - 20 raus nehmen und aus diesen einen Expertenrat zusammenstellen. Dieser Expertenrat sollte in der Lage sein die wichtigsten Belange aller Schüler zu repräsentieren. Wichtig dabei ist, dass dieser Expertenrat nicht gewählt wird. Denn eine Wahl wird niemals einen Querschnitt aus einer Gesamtzahl hervorbringen.

Wenn wir noch einen Schritt weiter gehen und sagen, dass 0,1% aus der Gesamtmenge als repräsentativ gelten kann, reicht sogar ein einzelner Schüler aus, um alle Schüler einer Schule zu repräsentieren. Diese These ist zugegebenermaßen sehr kühn. Denn wenn es sich um einen Durchschnittschschüler handelt, wird er nicht in der Lage sein den Schüler zu repräsentieren, der nicht dem Durchschnitt entspricht. Umgekehrt wird ein Schüler, der nicht dem Durchschnitt entspricht kaum eine Schülergruppe repräsentieren können, die eher dem Durchschnitt entspricht.

Warum eigentlich der ganze Zauber? Keine halbwegs seriöse Studie der letzten dreißig Jahre bringt wirklich neue Ergebnisse hervor. Im Gegenteil: jeder nur halbwegs vernunftbegabte Blick bringt aus allen Studien die gleichen Ergebnisse hervor. Egal wie die Studien heißen. IQB Ländervergleich, PISA, Hattie, IGLU und was sie noch alles für tolle Namen haben. Jeder halbwegs ungestörte Blick auf das deutsche Bildungswesen aus Kindersicht, aus Lehrersicht und aus aufgeklärter Elternsicht bringt das gleiche Ergebnis hervor. Jede wissenschaftliche Publikation zaubert das gleiche Ergebnis hervor. Nur: es passiert genau nichts! Von ein paar punktuellen mehr oder weniger halbherzigen Versuchen einmal abgesehen. Schule im Aufbruch, der Deutsche Schulpreis, die Dayton Bewegung, 17 SDGs und andere operieren und laborieren, bemühen sich und erringen wenige lokale punktuelle Veränderungen. Beim aktuellen Tempo wird es noch etwa 1000 Jahre brauchen, bis das Schulsystem auf dem heutigen Stand der Erkenntnis ist. Ich möchte die Bemühungen nicht klein reden. Sie sind wichtig. Aber: es geht zu langsam.