Wie Randomisierung zu fairen Vergleichen in kontrollierten Studien führt

Was wir aus reinen Beobachtungsstudien lernen können – und was nicht

vom Recherche-Kollektiv Plan G:
8 Minuten
Ein Mann hält zwischen Daumen und Zeigefinger zwei Kapseln: Links eine rote, rechts eine blaue.

Endlich mal eine Studie mit einer Kontrollgruppe – darauf kannst du dich jetzt doch wirklich mal verlassen, oder? Leider ist es wie immer nicht ganz so einfach…

Rotwein schützt das Herz. Brokkoli verhindert Krebs. Und Kaffee verlängert das Leben. Oder doch nicht?

Vielleicht kennst du das auch: Je häufiger du in die Zeitung schaust, desto mehr widersprüchliche Studienergebnisse findest du. Letzte Woche noch sollen Rotwein, Brokkoli und Kaffee total gesund gewesen sein – und heute schon heimliche Killer. Wenn du dich von Berichten über Ernährungsstudien veralbert fühlst, bist du nicht allein.

Ein Grund für „heute so, morgen so“: Nicht selten beruhen solche Schlagzeilen auf Tier- oder Laborexperimenten, die keinerlei Rückschlüsse auf die Situation beim Menschen erlauben [1]. Aber – wenn du Glück hast – wurden für die neueste Studie tatsächlich Menschen untersucht. Vielleicht sogar mehrere tausend Menschen über viele Jahre. Und es sind nicht nur Erfahrungswerte, sondern es gibt einen echten Vergleich, sprich eine Kontrollgruppe.

Und die, die mehr Rotwein tranken, bekamen seltener einen Herzinfarkt. Aber da gibt es doch auch eine Studie, in der die Rotweintrinker früher starben. Welche von diesen Studien stimmt denn jetzt?

Du ahnst es sicher schon: Auch kontrollierte Studien sind keine Garantie, dass wir nicht doch aufs Glatteis geführt werden. Aber woran liegt das?

Einfach vergleichen?

Zuerst sollten wir uns klarmachen, was der Begriff „verlässliche Ergebnisse“ genau bedeutet. Ein wichtiger Aspekt für Verlässlichkeit ist: Die Ausgangsbedingungen für alle Beteiligten müssen in der Studie gleich gewesen sein. Warum das so wichtig ist? Stell dir mal diesen Fall vor: In einem Rennen haben die Läuferinnen und Läufer ganz unterschiedliche Startpunkte. Wie aussagekräftig sind jetzt die gemessenen Zeiten, wenn sie dadurch unterschiedlich lange Strecken zurücklegen mussten? Nicht so besonders, oder? Anders ausgedrückt: Wenn die Ausgangsbedingungen nicht gleich sind, vergleicht die Studie eigentlich Äpfel mit Birnen.

Wie sieht das jetzt bei vielen der Ernährungsstudien aus? Oft werden Menschen für die Studien rekrutiert und müssen in bestimmten Abständen Ernährungsfragebögen ausfüllen. Sie geben also zum Beispiel an, wie viel und wie oft sie Fleisch essen, Obst und Gemüse verzehren oder Kaffee trinken. Über einen kürzeren oder längeren Zeitraum werden die Studienteilnehmer*innen dann beobachtet und der Gesundheitszustand erfasst [2]. Die Forscher*innen bilden aus diesen Angaben dann Gruppen: Im einfachsten Fall gehören dann zum Beispiel diejenigen, die fünfmal oder öfter pro Woche Obst essen, in die eine Gruppe. Wer seltener als fünfmal pro Woche Obst isst, wird Teil der Kontrollgruppe.

Und dann wird der Gesundheitszustand verglichen: Erkranken diejenigen, die häufiger Obst essen, seltener an Krebs? Oder bekommen sie seltener einen Herzinfarkt? Das hört sich erst einmal ganz intuitiv und simpel an. Wie so häufig steckt aber der Teufel aber im Detail.

Achtung Störfaktor!

Denn bei dieser Art von Studien entscheiden die Menschen selbst, was sie wann und in welcher Menge essen. Diese Entscheidung wird aber möglicherweise durch andere Faktoren bestimmt, die sich auch auf das Erkrankungsrisiko auswirken.

Ein Beispiel: Vielleicht lebt derjenige, der besonders viel Obst ist, auch sonst gesundheitsbewusst. Dann verzichtet er bestimmt auch aufs Rauchen und geht regelmäßig zum Sport. Diese beiden Gewohnheiten führen aber – unabhängig davon, wieviel Obst der Mensch isst – ebenfalls dazu, dass das Risiko für einen Herzinfarkt sinkt. Der gesundheitsbewusste Lebensstil würde dann einen schützenden Zusammenhang zwischen Obstverzehr und Herzinfarkt vorgaukeln, der in Wirklichkeit vielleicht gar nicht besteht oder nur einen kleinen Teil ausmacht. Solche Faktoren nennt man auch Störfaktoren oder auf Englisch „confounder“.

Ignoriert man solche Faktoren, können sich – im besten Fall – sehr lustige Zusammenhänge (Assoziationen) ergeben, bei denen du den Unfug auf den ersten Blick erkennst. Ein Beispiel: Wenn Menschen, die viel Käse essen, sich häufiger in ihren eigenen Bettlaken so verheddern, dass sie sterben [3]. Da wirst du sicher sofort stutzig. Aber im schlechtesten Fall wirst du total aufs Glatteis geführt, ohne Verdacht zu schöpfen. Schuld sind dann oft die Störfaktoren. Dieser Podcast erklärt das Phänomen sehr anschaulich.

Unfairer Vorteil

Solche Störfaktoren haben in unserer Ernährungsstudie eine sehr unangenehme Eigenschaft: Sie sorgen nämlich dafür, dass in den Gruppen mit niedrigem bzw. hohem Obstverzehr die Ausgangsbedingungen nicht vergleichbar sind. So finden sich vermutlich in der Gruppe mit dem hohen Obstverzehr mehr gesundheitsbewusste Menschen. Und die haben natürlich gegenüber weniger gesundheitsbewussten Menschen einen Startvorteil, der sich dann wahrscheinlich auch auf der Ziellinie noch widerspiegelt.

Einen Teil der Störfaktoren können Forscher*innen messen bzw. abfragen und dann bei der Auswertung mit einrechnen. Allerdings ist das naturgemäß nicht für alle möglich und manche der möglichen Störfaktoren kennt man vielleicht auch noch gar nicht. Deshalb sind solche Beobachtungsstudien immer mit einem großen Teil Unsicherheit behaftet [4].

Wie es der Zufall will

Ähnliche Probleme gibt es übrigens auch bei Studien, die nicht Ernährung, sondern den Einsatz von Medikamenten anhand von solchen oder ähnlichen Studien untersuchen. Denn die Entscheidung, ein bestimmtes Medikament einzunehmen oder zu verschreiben, wird oft von Faktoren bestimmt, die sich auch auf das gesundheitliche Ergebnis der Studie auswirken.

Was oft missverstanden wird: Die Auswirkungen von Störfaktoren lassen sich nicht durch die Verwendung von großen Datenmengen ausschließen (Stichwort „big data“), auch nicht, wenn die Daten aus der Routineversorgung (Stichwort „real world data“) stammen und damit vermeintlich besonders praxisnah erscheinen [5].

Aus gutem Grund fordern Zulassungsbehörden deshalb in der Regel eine besondere Vorsichtsmaßnahme in Studien, wenn ein neues Medikament auf den Markt kommen soll: In den Studien müssen die Teilnehmer*innen nach dem Zufallsprinzip auf die Behandlungs- und die Kontrollgruppe zugeordnet werden. Solche Untersuchungen werden entsprechend „randomisierte kontrollierte Studien“ genannt. Der Sinn der Randomisierung: Durch die zufällige Zuteilung verteilen sich die Störfaktoren hinreichend ähnlich in den Gruppen und damit starten alle Teilnehmer*innen mit den gleichen Voraussetzungen [6].

Das ist eine wichtige Voraussetzung dafür, damit sich die gemessenen oder beobachteten Effekte in den Studien auch tatsächlich auf die verwendeten Medikamente zurückführen lassen. Anders ausgedrückt: Nur so kann man herausbekommen, ob das Medikament auch tatsächlich für die Verbesserung des Gesundheitszustands verantwortlich ist, also ein kausaler Zusammenhang mit der Einnahme des Medikaments besteht.

Wann Beobachtungsstudien nützlich sind

Sind Beobachtungsstudien dann nicht vollkommen sinnlos? Nein, denn in einigen Zusammenhängen spielen sie trotz ihrer Beschränkungen eine wichtige Rolle. So beruht zum Beispiel die Erkenntnis, dass Rauchen ein wichtiger Risikofaktor für Lungenkrebs ist, zu einem großen Teil auf einer Beobachtungsstudie [7]. Diese Ergebnisse wurden aber zusätzlich durch einen sehr großen Effekt sowie weitere Daten, zum Beispiel aus Labor- und Tierexperimenten gestützt.

Beobachtungsstudien, die Teilnehmer*innen über einen längeren Zeitraum beobachten, spielen auch für die Entdeckung von seltenen Nebenwirkungen von Medikamenten eine Rolle, für die die meisten randomisierten Studien nicht lange genug dauern [8]. In manchen Fällen ist es ethisch oder praktisch auch schwierig oder unmöglich, Menschen absichtlich bestimmten Einflüssen auszusetzen (etwa Schwangeren das Rauchen zu verordnen) oder sie dazu zu bewegen, sich an bestimmte Vorschriften zu halten (wie es etwa bei Ernährungsstudien über mehrere Jahrzehnte der Fall wäre). Dann ist es oft notwendig, auf die besten Daten zurückzugreifen, die zur Verfügung stehen – auch wenn es sich um Erkenntnisse aus Beobachtungsstudien handelt.

Allerdings muss man dabei immer im Hinterkopf behalten, dass es in Wirklichkeit ganz anders sein kann. Das zeigt ein Blick in die Vergangenheit: So erschien die Hormontherapie in den Wechseljahren auf der Basis von Beobachtungsstudien zuerst äußerst vorteilhaft für die Herz-Kreislauf-Gesundheit. Spätere randomisierte Studien widerlegten das aber – und zeigten sogar, dass gesundheitliche Gefahren auftreten können [9]. Fachleute gehen davon aus, dass Beobachtungsstudien die positiven Effekte von Therapien im Vergleich zu randomisierten Studien in der Regel tendenziell überschätzen [10].

Meldungen im Check

Was heißt das jetzt für Gesundheitsmeldungen, egal ob Online oder in Print, zu Ernährung oder anderen Fragen?

  1. Lass dich nicht von Überschriften aufs Glatteis führen: Nicht alles, was sich in dieser Kürzestfassung nach Ursache-Wirkung anhört, hält auch dem genauen Blick stand – selbst wenn es von einem scheinbar renommierten Absender kommt [11]. Lies deshalb immer auch den restlichen Text und schau genau hin, auf welchen Daten die Meldung beruht.
  2. Ganz klar: Berichte über Tier- oder Laborversuche kannst du getrost in der Ablage “P” versenken. Falls sich die Ergebnisse mal irgendwann auf den Menschen übertragen lassen, wirst du es sicherlich erfahren.
  3. Gab es in der Studie eine Kontrollgruppe? Wenn nicht, brauchst du deine Zeit nicht weiter damit verschwenden. Die Gründe dafür kannst du in unserem Artikel zu Erfahrungswerten nachlesen, s.o.
  4. Wurden die Studienteilnehmer*innen zufällig/randomisiert den Gruppen zugeordnet? Das ist schonmal gut. Allerdings müssen auch in randomisierten kontrollierten Studien noch weitere Bedingungen erfüllt sein, um tatsächlich aussagekräftige Aussagen ableiten zu können. So sollen sie etwa Verzerrungen bei der Bewertung des Behandlungserfolgs oder bei der Auswertung der Ergebnisse vermeiden.
  5. Wenn es sich nicht um eine randomisierte Studie handelt: Ist es plausibel, dass eine zufällige Zuteilung für die Fragestellung nicht machbar ist? Thematisiert der Artikel, welche möglichen Probleme sich daraus ergeben, dass die Teilnehmer*innen nicht zufällig auf die Gruppen zugeteilt wurden? Und welche alternativen Interpretationen der Ergebnisse dadurch möglich sind? Verlässliche Informationen werden diesen Aspekt immer ansprechen. Natürlich ist es auch möglich, dass die Studie an sich sehr zuverlässig ist, aber die Meldung die Regeln für gute Gesundheitsinformationen ignoriert. Aber dann solltest du sowieso nach einer verlässlicheren Quelle suchen.

Quellen, Anmerkungen und weiterführende Literatur

[1] Wenn du dich darüber ärgerst, dass viele „Sensationen“ nur auf Tierstudien beruhen, haben wir zwei Twitter-Empfehlungen für dich. @justsaysinmice und @justsaysinrats spießen solche irreführenden Meldungen in den Medien auf und versehen sie mit einer korrigierenden Ergänzung „in mice“ bzw. „in rats“.

[2] Auch auf Ebene der Informationserfassung gibt es viel berechtigte Kritik an Ernährungsstudien, wie sie derzeit oft durchgeführt werden. Eine häufige Frage ist etwa, wie gut sich die Studienteilnehmer*innen tatsächlich an das erinnern, was sie etwa im letzten Jahr gegessen haben, oder wie gut eine zweimalige Erhebung über 20 Jahre tatsächlich repräsentativ für die gesamte Ernährung in diesem Zeitraum war. Ganz kompakt wird das Thema in einem Beitrag der Stiftung Gesundheitswissen behandelt. Du willst noch mehr zu den aktuellen Debatten um Ernährungsstudien wissen? Dann haben wir noch einige Literaturempfehlungen für dich [12].

[3] Sehr amüsante Zusammenhänge findest du auf der Seite „Spurious correlations“. Wusstest du zum Beispiel, dass sich ein Zusammenhang zwischen dem Margarinekonsum und den Scheidungsraten im US-Bundesstaat Maine findet? Wenn du nur ein bisschen nachdenkst, findest du bestimmt einen plausiblen Grund dafür – ohne dass er tatsächlich wahr sein muss.

[4] Weitere Informationen zu Beobachtungsstudien findest du im Patientenportal des IQWiG und auf dem deutschsprachigen Blog von Cochrane “Wissen was wirkt”.

[5] Was im Kontext von Wirksamkeitsnachweisen das Problem mit “big data” ist, beschreibt der ehemalige Direktor von Cochrane Deutschland Gerd Antes in diesem Beitrag.

[6] Noch mehr zum Thema Randomisierung kannst du in diesem frei zugänglichen Artikel aus dem Schweizerischen Ärzteblatt nachlesen:

[7] Mehr zu den Hintergründen der Studie und den Ergebnissen findest du auf dieser Seite.

[8] Das liegt aber nicht an der zufälligen Zuteilung, sondern mehr am Kontext, in dem randomisierte Studien meistens durchgeführt werden.

[9] Die Geschichte der Hormontherapie in den Wechseljahren wird im deutschsprachigen Blog von Cochrane erzählt.

[10] Zu diesem Ergebnis kommt eine Auswertung im BMJ, die die Ergebnisse von randomisierten Untersuchungen und Beobachtungsstudien auf der Basis von Versorgungsdaten verglichen hat (Zusammenfassung frei)

[11] Diese Untersuchung hat Meldungen aus dem Deutschen Ärzteblatt analysiert. Die Frage: Wie sehr suggeriert die Überschrift einen kausalen Zusammenhang, zum Beispiel zwischen Brokkoli und Krebs? Was davon relativiert der restliche Text wieder? Und wie gut sind die Zusammenhänge tatsächlich durch die zugrundeliegenden Daten abgesichert? Das Ergebnis: Oh, oh…

[12] Eine schöne Zusammenfassung zum ganzen Thema „Probleme von Ernährungsstudien“ liefert ein frei zugänglicher Vortrag von John Ioannidis auf YouTube. Wer noch mehr in die fachlichen Details einsteigen will: Es gibt auch eine schriftliche Zusammenfassung in JAMA (leider hinter der Paywall) sowie eine ganze Reihe von Artikeln im BMJ (frei zugänglich). Auf Englisch sind auch allgemeinverständliche Beiträge zu der Misere erschienen: In FiveThirtyEight und auf vox.com.

Sie haben Feedback? Schreiben Sie uns an info@riffreporter.de!
VGWort Pixel