Anonim

Die Verwendung von Beweisen unterscheidet Ärzte von Palmenlesern. Beweise verhindern, dass wir uns etwas vormachen. Es drückt unsere Hybris nieder.

Einige Fachkliniker haben jedoch zu Recht den übermäßigen Einsatz evidenzbasierter Praktiken kritisiert, da dies zu einer undenkbaren algorithmischen Medizin führen kann. Diese Art von Übung ist beängstigend, weil Beweise selten einfache Antworten liefern, wie in Ja, mach das, nein, mach das nicht.

Mit fortschreitender medizinischer Wissenschaft sind Patienten zunehmend auf Ärzte angewiesen, um die Übersetzung von Beweisen zu unterstützen. Dazu müssen wir fragen: Haben die Prüfer die richtige Frage gestellt, haben sie Patienten rekrutiert, die alltäglichen Patienten ähnlich sind, haben sie faire Vergleichspräparate ausgewählt und haben die statistisch signifikanten Ergebnisse klinische Relevanz erreicht? Diese sind hart genug, um sie zu sortieren.

Die Ergebnisse einer eleganten Studie [1] von Forschern unter der Leitung von Professor Brian Nosek von der University of Virginia in Charlottesville erschweren die Übersetzung medizinischer Beweise. Sein Team hat gezeigt, dass die Entscheidungen, die Forscher bei der Analyse eines Datensatzes treffen, die Ergebnisse erheblich beeinflussen können.

Als ich jahrelang eine wissenschaftliche Arbeit las, dachte ich jahrelang, dass die Daten das veröffentlichte Ergebnis liefern. Was Nosek und seine Kollegen festgestellt haben, ist, dass die Ergebnisse stark von der Art und Weise abhängen können, wie die Forscher die Daten analysieren. Und verstehen Sie Folgendes: Es gibt wenig Einigkeit darüber, wie Daten am besten analysiert werden können.

Die Gruppe von Nosek rekrutierte 29 Teams mit 61 Forschern, um denselben Datensatz zur Beantwortung einer einfachen Frage zu verwenden: Geben professionelle Fußballschiedsrichter eher Spielern mit dunkler Hautfarbe rote Karten als Spielern mit heller Hautfarbe? Rote Karten führen zum sofortigen Ausschluss aus dem Spiel, während eine gelbe Karte es den Spielern ermöglicht, fortzufahren, sofern sie keinen weiteren Verstoß erleiden.

Dies war ein mehrjähriges Projekt, bei dem ein Datensatz mit Sportstatistiken größtenteils aus der Saison 2012-2013 für vier europäische Männer-Premierenligen erstellt und anschließend Forscherteams aus verschiedenen Bereichen und Erfahrungen für eine erste Analyse rekrutiert wurden. In der ersten Phase des Experiments reichten die Teams Zusammenfassungen ihres Ansatzes zur Beantwortung der Frage ein, arbeiteten jedoch unabhängig voneinander.

In der nächsten Phase brachte das Team von Nosek die 29 Gruppen zu einem Round-Robin-Verfahren mit Peer-Bewertungen zusammen, bei dem jedes Team Feedback zur Analysemethode anderer Teams gab. Jedem Team wurde eine Zusammenfassung dieser Bewertungen zur Verfügung gestellt, die es den Gruppen ermöglichte, voneinander zu lernen.

In der nächsten Phase könnten die Teams, die von ihren Kollegen gelernt haben, ihre Herangehensweise an die Analyse ändern und möglicherweise ihre Schlussfolgerungen ändern.

In der sechsten Phase der Studie diskutierten und debattierten die Forscher die endgültigen Analysen. Dies veranlasste einige Teams, zusätzliche Tests durchzuführen, um festzustellen, ob die Ergebnisse von einigen Ausreißern gesteuert wurden - dies war nicht der Fall. Die Diskussion führte zu der Entdeckung, dass die Variabilität der Ergebnisse nicht nur aufgrund von Analysemethoden, sondern auch aufgrund der Wahl der Kovariaten auftrat.

Die 29 Teams wählten 21 einzigartige Kombinationen von Kovariaten aus und verwendeten viele verschiedene Analysetechniken, die von einfacher linearer Regression über komplexe mehrstufige Regression bis hin zu Bayes'schen Ansätzen reichten.

Die Punktschätzung des Odds Ratio für die Effektgröße lag zwischen 0, 89 (leicht negativ) und 2, 93 (mäßig positiv).

Zwanzig Teams (69%) fanden einen statistisch signifikanten Effekt und neun Teams (31%) nicht. Weder das Fachwissen, die Peer-Ratings noch die früheren Überzeugungen der Ermittler (die in Umfragen bewertet wurden, bevor die Ermittler den Datensatz sahen) erklärten die Variabilität der Effektgröße.

Dies ist wichtig, da jeder versteht, dass die Analyse unterschiedlicher Daten oder das Stellen unterschiedlicher Fragen zu unterschiedlichen Ergebnissen führt. Dies waren die gleichen Daten und die gleiche Frage!

Wenn Sie eine Forschungsstudie lesen, enthält der Methodenabschnitt normalerweise einen oder zwei Sätze, die die (singuläre) Analysemethode beschreiben. Dieses Papier zeigt, dass identische Datensätze zu variablen Ergebnissen führen können - einige statistisch signifikant, andere nicht.

Was diesen bisher unbeschriebenen Bereich der Heterogenität so auffällig macht, ist, dass die meisten in Noseks Studie verwendeten analytischen Ansätze vertretbar waren und von den anderen Methodologen als vernünftig eingestuft wurden.

Diese analyseabhängigen Ergebnisse sind nicht dasselbe wie P-Hacking oder der Garten der Gabelpfade. P-Hacking (auch bekannt als Cheating) tritt auf, wenn Forscher aktiv nach Bedeutung streben und zahlreiche Analysen der Daten durchführen und dann die Methode auswählen und veröffentlichen, die das signifikante Ergebnis liefert. In dieser Studie legte jedes Forschungsteam seine Methode fest, bevor es die Daten hatte.

Das Problem des Gabelweges tritt auf, wenn Forscher ihren Analyseplan verfeinern, nachdem Muster in den Daten beobachtet wurden. [2] Wenn beispielsweise ein erwartetes Ergebnis nicht als Haupteffekt angezeigt wird, können die Forscher nach Wechselwirkungen suchen. Nosek und Kollegen erklärten, dass dies das Problem der Gabelpfade einschränkte, da sie nur eine grundlegende Frage stellten: Würden Fußballschiedsrichter Spielern mit dunklerer Haut eher rote Karten geben? Darüber hinaus hatten die 29 Teams keinen Anreiz, positive Ergebnisse zu erzielen.

Denken Sie nicht, dass dies nur ein Problem mit sozialwissenschaftlichen Fragen ist. In einer E-Mail wies mich Dr. Brahmajee Nallamothu von der University of Michigan in Ann Arbor auf ein hervorragendes klinisches Beispiel hin: 2010 veröffentlichte JAMA einen Artikel unter Verwendung der britischen Forschungsdatenbank für Allgemeinmedizin, aus dem hervorgeht, dass Bisphosphonate nicht mit Krebs assoziiert sind. [3] 1 Monat später veröffentlichte das BMJ ein Papier, das auf derselben Datenbank basiert und zeigt, dass Bisphosphonate mit Krebs assoziiert sind. [4]

Was ist mit der jüngsten Analyse einer britischen Datenbank, in der ein Zusammenhang zwischen der Verwendung von Angiotensin-Converting-Enzym-Inhibitoren und Lungenkrebs festgestellt wurde? [5] Die Punktschätzung der Gefährdung erreichte mit 1, 14 bei einem 95% -Konfidenzintervall von 1, 01 bis 1, 29 kaum eine Signifikanz. Hätte eine andere Analysemethode zu nicht signifikanten Ergebnissen geführt? Was ist mit 10 verschiedenen Analysemethoden?

Die erste Frage, die ich Professor Nosek stellte, als wir am Telefon sprachen, war, ob analyseabhängige Ergebnisse für randomisierte kontrollierte Studien (RCTs) gelten könnten. Seine "Ja" Antwort alarmierte mich. Nosek sagte, dass man Variabilität erwarten kann, wenn es Flexibilität bei der Auswahl gibt, wie zum Beispiel bei der Auswahl der Ergebnisse, der Einbeziehung der Patienten und der Dichotomisierung von Variablen.

Harlan Krumholz, MD von der Yale University in New Haven, Connecticut, sah ebenfalls Relevanz für das RCT. Per E-Mail schrieb er: „Für jede Frage können verschiedene Gruppen sie auf sehr unterschiedliche Weise beantworten - selbst mit einem RCT…. Wenn Sie ihnen die Frage mit der Freiheit geben, das Experiment zu entwerfen, können sie verschiedene Schlussfolgerungen ziehen. “

Nallamothu unterstrich die Realität der Variabilität bei RCTS, indem er die unterschiedlichen Ergebnisse der scheinbar ähnlichen MitraClip-Studien Mitra-FR [6] und COAPT feststellte. [7]

Sie können diesem Argument entgegenwirken, indem Sie sagen, dass RCTs und ihre Analysemethoden vorregistriert sind und dies Forscher daran hindert, die Methoden zu wechseln, nachdem sie die Daten gesehen haben. Während immer mehr Studien vorregistriert werden, wies Nosek darauf hin, dass in Wirklichkeit mangelnde Spezifität bei der Beschreibung von Protokollen den Forschern Flexibilität bei der endgültigen Analyse ermöglichen kann.

In einem Artikel aus den Proceedings der National Academy of Sciences [8] listen er und seine Mitautoren nicht weniger als neun praktische Herausforderungen für die Datenanalyse auf, selbst bei Vorregistrierung. Die kurze Nachricht aus diesem langen Artikel ist in diesem Zitat festgehalten: „Abweichungen von Datenerfassungs- und Analyseplänen sind bei den vorhersehbarsten Untersuchungen häufig.“

Ein weiteres relevantes und aktuelles Beispiel für Flexibilität in RCTs betrifft das Problem, wie sich eine Änderung der Versuchsendpunkte auf die Ergebnisse auswirken kann. [9] Dieses Problem hat eine Debatte über die noch nicht abgeschlossene ISCHEMIA-Studie mit PCI im Vergleich zur medizinischen Therapie bei Patienten mit stabiler koronarer Herzkrankheit ausgelöst. [10, 11]

Ein Weitwinkelblick auf das Papier von Nosek und Kollegen zeigt ein paar gute Nachrichten und vielleicht einen Weg zur wissenschaftlichen Wahrheit. In Abbildung 2 zeigen die Autoren die 29 verschiedenen Quotenverhältnisse und Konfidenzintervalle in absteigender Reihenfolge. Während ungefähr zwei Drittel der Punktschätzungen signifikante positive Effekte ergaben und ein Drittel nicht, zeigt das Gesamtbild relativ konsistente Ergebnisse. Die meisten Konfidenzintervalle überschneiden sich, und wenn sie zusammengenommen werden, kann man einen Trend zu einem positiven Effekt erkennen. Ja, Fußballschiedsrichter geben Spielern mit dunklen Hauttönen wahrscheinlich mehr rote Karten.

Das brachte mich zum Nachdenken: Warum führen Ermittler nicht öfter mehrere Analysen durch? Nosek sagte mir, dass statistische Software es relativ einfach macht, verschiedene Analysen der Daten durchzuführen. Krumholz fügte hinzu, dass die Entdeckung datenabhängiger Ergebnisse auf den Wert offener Wissenschaft und des Datenaustauschs hinweist, da dies viele Entwürfe ermöglichen würde, sich weiterzuentwickeln.

Ein Team belgischer und US-amerikanischer Autoren bezeichnete einen solchen Prozess als Multiversum-Analyse. [12] Sie schrieben, dass das Denken hinter der Mehrfachanalyse von Daten „von der Beobachtung ausgeht, dass Daten in einem Experiment oder einer Beobachtungsstudie nicht passiv aufgezeichnet werden. Vielmehr werden Daten bis zu einem gewissen Grad aktiv konstruiert. “

Diese Gruppe verwendete eine Multiversum-Analyse, um eine provokative Analyse in Frage zu stellen [13], die darauf hinweist, dass der Menstruationszyklus einer Frau die Religiosität und die politische Einstellung beeinflusst. Als sie dieselben Daten auf andere Weise mit unterschiedlichen, aber vertretbaren Methoden analysierten, stellten sie fest, dass die meisten P-Werte keine signifikanten Unterschiede zeigten.

Für mich besteht der beste Teil des multiversen Ansatzes für eine wissenschaftliche Frage darin, dass eine Einschränkung der Vorregistrierung angesprochen wird. Das Vorab-Engagement für eine experimentelle Methode ist zwar von entscheidender Bedeutung, ermöglicht jedoch nur einen von vielen analytischen Ansätzen. Vielleicht wäre die medizinische Wissenschaft zuverlässiger und vertrauenswürdiger, wenn die Wissenschaftler den Ratschlägen von Nosek und Kollegen in ihren abschließenden Bemerkungen folgen würden: „Wir ermutigen die Wissenschaftler, jede andere mögliche vertretbare Analyse zu erstellen, sie alle durchzuführen und dann die Wahrscheinlichkeit zu berechnen, dass die Die Anzahl der beobachteten signifikanten Ergebnisse wäre zu sehen, wenn es wirklich keine Wirkung gäbe. “

Dieses Papier hat mich als Anwender der Medizin gelehrt, noch vorsichtiger zu sein, wenn ich aus ein oder zwei Papieren Schlussfolgerungen ziehe. Würde das Ergebnis der gewählten Analyse anderen vernünftigen Möglichkeiten zur Analyse der Daten standhalten?

Die andere klare Lehre: Die Berücksichtigung der Verhaltensweisen offener Wissenschaft wie Vorregistrierung, Crowdsourcing und Durchführung mehrerer Analysen kann die Anzahl der „positiven“Nachrichtenpapiere verringern, dies kann jedoch die Geschwindigkeit des tatsächlichen medizinischen Fortschritts tatsächlich beschleunigen.

Weniger wissenschaftliche Umkehrungen würden wahrscheinlich auch das Vertrauen der Öffentlichkeit in die Wissenschaft stärken.