Anonim

John M. Mandrola, MD: Hallo zusammen. Dies ist John Mandrola von theheart.org, Medscape Cardiology. Und ich freue mich, mit Dr. John Carlisle zusammen zu sein, einem Anästhesisten in Großbritannien, der die Forschung im Zusammenhang mit der kürzlich erfolgten PREDIMED-Retraktion durchgeführt hat. Dr. Carlisle, willkommen.

John B. Carlisle, MBChB: Danke, John. Ich freue mich sehr, hier zu sein.

Mandrola: Ich freue mich, Sie kennenzulernen. Sagen Sie uns zunächst, wer Sie sind.

Carlisle: Ich bin ein Krankenhausarzt in Großbritannien. Ich arbeite in einem kleinen Krankenhaus (National Health Service). Ich bin seit 17 Jahren Spezialist hier in Devon, Großbritannien. Ich bin kein Akademiker; Ich bin nicht an einer Universität beschäftigt. Meine tägliche Arbeit ist als Anästhesist. Ich besetze auch eine präoperative Assessment-Klinik, in der Patienten zur Operation getroffen werden. Ich bin auch ein Intensivist.

Mandrola: Wie sind Sie auf dieses Projekt aufmerksam geworden?

Carlisle: Als ich ein Praktikant war, suchte ich nach Dingen, um meinen Lebenslauf zu erweitern, und ein Job kam mit der Cochrane Collaboration auf. Ende der neunziger Jahre wurde gerade die Cochrane Anesthesia Review Group mit Sitz in Dänemark, Kopenhagen, gegründet und wollte, dass jemand auf Kommentare reagiert. Ich hatte diesen Job ein paar Jahre lang inne. Und dann sagten sie: "Nun, es ist an der Zeit, dass Sie Ihre eigene systematische Überprüfung durchführen."

Also habe ich eine systematische Überprüfung der Medikamente durchgeführt, um postoperative Übelkeit und Erbrechen zu verhindern. Während ich mir Papiere für diese systematische Überprüfung ansah, stieß ich auf einige von einem japanischen Anästhesisten. Ungefähr 10 Jahre später stellte sich heraus, dass er die meisten seiner Daten zusammengestellt hatte. Daraus habe ich wirklich ein Interesse an diesem Bereich entwickelt.

Mandrola: Sie haben die Unregelmäßigkeiten im Prozess aufgrund der systematischen Überprüfung bemerkt, stimmt das?

Carlisle: Das stimmt.

Mandrola: Haben Sie einen Hintergrund in Statistik oder Informatik?

Carlisle: Nein, nicht wirklich, außer dem Bestehen, das Sie haben, um Prüfungen zu bestehen, mit denen viele Medizinstudenten vertraut sind. Es ist eines der letzten Dinge, die Sie sich vor der Prüfung ansehen und dann vergessen. Das andere Mal habe ich etwas über Statistik gelernt, indem ich systematische Überprüfungen durchgeführt habe und mir angesehen habe, wie man randomisierte kontrollierte Studien (RCTs) analysiert, wenn man sie kombiniert.

Mandrola: Ich habe Ihr Papier und zahlreiche Beschreibungen Ihrer Methoden gelesen, aber können Sie es einfach machen? Wie hast du das gemacht?

Carlisle: Glücklicherweise ist der Kern der Methode allen Ärzten bekannt. So berechnen wir die Wahrscheinlichkeit, dass zwei Gruppen unterschiedlich sind. Wenn Sie sich eine RCT ansehen, in der gefragt wurde: "Hat dieses Medikament funktioniert?", Suchen Sie im Allgemeinen nach einem kleinen P-Wert. Wenn das Ergebnis etwas Kontinuierliches war, wie Patientengewichte - vielleicht hat eine Gruppe eine Diät gemacht, die andere nicht, und Sie sehen Gewichtsverlust -, machen Sie einen T-Test, der den meisten Ärzten bekannt ist. Bei mehr als zwei Gruppen verwenden Sie eine [Varianzanalyse (ANOVA)]. Die Namen dieser Tests sind bekannt, auch wenn Sie die Schrauben und Muttern nicht kennen.

Meine Methode bestand darin, diese Arten von Tests auf die Merkmale anzuwenden, die vorhanden sind, bevor Sie den Versuch durchführen. Also, die Höhen, die Gewichte, die Dinge, die in der Bevölkerung vorhanden sind, bevor wir die Experimente tatsächlich durchführen.

Mandrola: Die Grundlinienmerkmale in einer RCT sollten, wenn sie wirklich randomisiert sind, nicht unterschiedlich sein.

Carlisle: Es ist wahr, wenn Sie eine ausreichend große Stichprobe haben - Sie würden Hunderttausende benötigen -, dann sind die Mittel ziemlich genau gleich. Die meisten Studien werden nie so groß. Wie viel Unterschied vom Zufall abhängt - die Zufallsunterschiede zwischen den Personen, die einer Gruppe und der anderen zugeordnet sind. Es gibt fast immer einen Unterschied. Wenn eine Studie diese Mittelwerte meldet, werden sie möglicherweise ungenau gemeldet, sodass sie möglicherweise gleich erscheinen. Ein Durchschnittsgewicht von 74, 1 kg in beiden Gruppen kann sich beispielsweise als sehr unterschiedlich herausstellen, wenn Sie dann die Anzahl der Dezimalstellen erhöhen. Meistens gibt es einige Unterschiede zwischen den Gruppen. Wie viel Unterschied sollte zufällig sein.

Mandrola: Wie erkennt Ihre Methode Unregelmäßigkeiten in diesen Basisvariablen?

Carlisle: Im einfachsten Fall machen Sie einen T-Test auf den Höhen. Ein wirklich kleiner P-Wert, der auf einen wirklich großen Unterschied hinweist, würde darauf hindeuten, dass mit dieser Studie möglicherweise etwas nicht stimmt. Am anderen Ende des Spektrums können die Gruppen ungewöhnlich ähnlich sein [und Sie können dafür einen P-Wert berechnen].

Meine Methode unterscheidet sich von den normalen Methoden von T-Tests und ANOVAs nur insofern, als ich Simulationen verwendet habe, um zu versuchen [die Wahrscheinlichkeit, dass zwei Mittelwerte gleich waren], weil dies genauso unwahrscheinlich ist wie zwei Mittelwerte, die sehr unterschiedlich sind.

Mandrola: In der ersten Tabelle von [einem veröffentlichten RCT] listen die Forscher die Grundlinienmerkmale auf. Die P-Werte für jede Grundliniencharakteristik (z. B. Größe, Gewicht, Taillenumfang) sind im Allgemeinen enthalten. In Ihrer Methode betrachten Sie eine Summe des Durchschnitts dieser P-Werte?

Carlisle: Das ist richtig. Ich habe einen einzelnen P-Wert für den gesamten Versuch generiert, was bedeutet, dass Sie diese P-Werte für diese verschiedenen Merkmale irgendwie kombinieren müssen. Manchmal berechnen die Autoren die P-Werte nicht, wie dies in der PREDIMED-Studie der Fall war. [1] Wenn sie es getan hätten, hätten sie vielleicht etwas entdeckt, das nicht ganz richtig war, aber das haben sie nicht getan. Manchmal werden P-Werte falsch berechnet, sodass neben diesem Merkmal ein P-Wert angezeigt wird, der jedoch möglicherweise falsch ist.

Einige Zeitschriften empfehlen, keine P-Werte für Basislinienmerkmale zu berechnen, da Unterschiede eher auf den zufälligen Zuordnungsprozess als auf etwas Wichtiges zurückzuführen sind.

Mandrola: Was würden Sie als die Schwächen Ihrer Methode charakterisieren?

Carlisle: Die Annahmen der Methode [sind die Schwäche]. Wenn sich die Menschen dieser Annahmen nicht bewusst sind, werden sie die Analyse falsch interpretieren. Die Analyse geht davon aus, dass die Stichprobenpopulation auf sehr einfache Weise zugeordnet wird. Es wird davon ausgegangen, dass es keine Block-Randomisierung, keine Schichtung und keine Minimierung gibt. Es gibt einige neue Methoden zur zufälligen Zuordnung von Patienten, die eine Studie effizienter machen.

Der Minimierungsprozess ändert beispielsweise tatsächlich die Wahrscheinlichkeit, im Verlauf des Versuchs der einen oder anderen Gruppe zugeordnet zu werden. Das bedeutet, dass meine Methode einen leicht falschen P-Wert erzeugen würde. Dieser Prozess setzt auch voraus, dass die berechneten Mittelwerte normal verteilt sind. Dinge wie Alter, Größe und Gewicht sind leicht nicht normal verteilt (z. B. logarithmisch normal). Die Verteilung der Mittel ist jedoch normalerweise normal verteilt, so dass dies wahrscheinlich in Ordnung ist.

Mandrola: Was ist mit der Korrelation von Variablen? Zum Beispiel könnten große Menschen schwerere Gewichte haben.

Carlisle: Richtig. Selbst wenn die P-Werte für die einzelnen Statistiken korrekt sind, geht die Methode beim Kombinieren davon aus, dass sie unabhängig voneinander sind. Und wie Sie gerade gesagt haben, werden große Menschen im Allgemeinen schwerer sein, sodass sich jedes leichte Ungleichgewicht in der Höhe auch in einem Ungleichgewicht in den Gewichten niederschlägt, da diese beiden Dinge miteinander verbunden sind. Wann immer man diese Art von Methode verwendet und man das Ergebnis erhält, muss man innehalten und denken: "Okay, Moment mal, wurden die Annahmen, die wir gemacht haben, erfüllt?" Und wenn es Gründe gibt zu glauben, dass dies nicht der Fall ist, müssen Sie ziemlich vorsichtig sein, wie Sie sich dem nächsten Schritt nähern.

Studien zur Analyse auswählen

Mandrola: Wie haben Sie entschieden, welche Studien Sie sich ansehen möchten ?

Carlisle: Bei den ursprünglichen systematischen Überprüfungen, die ich mit Cochrane durchgeführt habe, hatte ich bereits Studien des von mir erwähnten japanischen Autors analysiert. Er steht ganz oben auf der Bestenliste von Retraction Watch - einer Website, an der Ihre Zuschauer interessiert sein könnten. Auf dieser Website wird eine Liste der 30 besten Autoren veröffentlicht, bei denen die meisten Artikel zurückgezogen wurden. Der Zweck der Website ist es, Rückzüge der biomedizinischen Literatur zu verfolgen. Es gibt vier Anästhesisten in den Top 20, was Anästhesisten etwas beunruhigt. Entweder lügen wir mehr als andere Spezialitäten oder wir lügen in der gleichen Menge, aber wirklich schlecht darin und wir werden herausgefunden.

Ich hatte die Studien dieses japanischen Forschers analysiert und wollte dann sehen, wie viele dieser Arten von Studien es in der Zeitschrift, für die ich arbeite, Anästhesie und anderen von ihm veröffentlichten Anästhesie-Zeitschriften geben könnte. Ich habe mir sechs Anästhesie-Journale angesehen und mir am Ende RCTs im Wert von 15 Jahren angesehen. Ich analysierte alles, was mir begegnete. Das spezielle Thema dieser RCTs hat mich nicht interessiert.

Dies bedeutet nicht, dass die Studien mit normalen P-Werten gut waren, und es bedeutet auch nicht, dass die Arbeiten mit kleinen P-Werten auch schlecht sind.

Nachdem ich das getan hatte, waren einige der Leute, mit denen ich auf Konferenzen gesprochen hatte, etwas alarmiert, dass Anästhesisten vielleicht einen schlechten Ruf als Lügner bekamen. Sie schlugen vor, ich schaue mir einige andere Zeitschriften an. Ich habe zwei große Zeitschriften ausgewählt, das New England Journal of Medicine und [das Journal der American Medical Association]. Ich habe mir nur RCTs im Wert von 15 Jahren angesehen, mit dem Vorbehalt, dass ich nicht immer jeden einzelnen berücksichtigt habe, auf den ich gestoßen bin. Es gab einige Tierstudien, die ich absichtlich nicht aufgenommen habe, aber ich habe einige Tierstudien in meine Analyse einbezogen.

Mandrola: Sie haben fast 100 von 5000 Studien mit Unregelmäßigkeiten gefunden?

Carlisle: Wir haben für jede dieser Studien einen P-Wert berechnet und haben jetzt ungefähr 5000 P-Werte. Welche Schwelle Sie wählen, bestimmt, wie Sie diese Studien in weiße "gute" Studien und schwarze "wir sind besorgt über diese" Studien einteilen. Was wahr ist, ist, dass die Verteilung der P-Werte in 2%, ungefähr 100, dieser 5000 nicht den Erwartungen entsprach.

Bei diesen 100 gab es einen Unterschied zwischen erwarteten und beobachteten Verteilungen der P-Werte. Dies bedeutet nicht, dass die Studien mit normalen P-Werten gut waren, und es bedeutet auch nicht, dass die Arbeiten mit kleinen P-Werten auch schlecht sind.

Mandrola: Als Sie bei Versuchen mit großen Namen wie PREDIMED Unregelmäßigkeiten festgestellt haben, haben Sie sich Gedanken über die Benennung von Namen gemacht?

Carlisle: Ja. Wir hatten sehr lange Diskussionen in der Anästhesie-Redaktion. Als ich die systematische Überprüfung für Cochrane durchgeführt hatte, waren einige Rechtsteams beteiligt, und wir haben dies auch für dieses Papier getan. Ich war der festen Überzeugung, dass es wichtig ist, dass die Methode veröffentlicht und die von mir analysierten Daten veröffentlicht werden, damit die Leute in meinem Artikel so viele Fehler erkennen können wie in den Artikeln, die ich mir angesehen habe. Sie können das nur tun, wenn ich veröffentlicht habe, was ich getan habe.

Ich wollte wirklich offen darüber sein und es war wichtig, als ich meine Arbeit schrieb, dass ich niemanden beschuldigte, gelogen, Fehlverhalten recherchiert oder betrogen zu haben. [2] Einige Leute gingen davon aus, dass ich das in meiner Zeitung getan haben könnte, aber wenn Sie es lesen, werden Sie sehen, dass ich bei meinen Aussagen sehr vorsichtig war. Ich sagte nur: "Ich denke, dies könnte der Grund sein, warum dieses Papier einen ungewöhnlichen P-Wert hat." Als es um die PREDIMED-Studie ging, gab ich an, dass ich nicht wusste, warum sie einen kleinen P-Wert bekommen hatte. Ich dachte nicht, dass Korrelationen von Variablen dafür verantwortlich sind, und ich glaube nicht, dass der angegebene Randomisierungsprozess die Unwahrscheinlichkeit dieser bestimmten Studie erklären könnte.

Ich bin hauptsächlich nervös, wenn Leute das Gefühl haben, ich beschuldige sie des Betrugs. Ich mache mir Sorgen, dass Menschen Arbeitsplätze verlieren oder fälschlicherweise beschuldigt werden. Es ist ein sehr sensibles Thema, und das ist mir bewusst. Ich möchte nicht das Leben der Menschen ruinieren, nur um es zu tun. Ich denke, es ist sowohl beim Schreiben als auch beim Überprüfen von Papieren sehr wichtig, dass wir bei getroffenen Annahmen vorsichtig sind.

Replizieren der Methode

Mandrola: Kann Ihre Methode von Journal-Redakteuren oder Peer-Reviewern problemlos repliziert werden?

Carlisle: Ja. Meistens können einfache t-Tests und ANOVAs angewendet und ein angemessener P-Wert berechnet werden. Die einzige Ausnahme, in der Sie möglicherweise eine Simulation ausführen müssen, besteht darin, dass die Mittelwerte als gleich gemeldet werden. Ich habe die Codes veröffentlicht, mit denen ich meine Analyse ausgeführt habe. Diese sind frei verfügbar und für die Ausführung in R ausgelegt, einem kostenlosen Softwareprogramm.

Sobald die Herausgeber und Autoren von Zeitschriften offener für die Möglichkeit sind, dass sie einen Fehler gemacht haben, und besser darauf vorbereitet sind, dass die Menschen ihre Daten einsehen und helfen können, weil wir wirklich versuchen, dies zu tun, denke ich, dass evidenzbasierte Medizin könnte verbessert werden.

Es gibt bereits einige Zeitschriften, die es verwenden. Ich überprüfe alle RCTs, die durch mein Tagebuch kommen. Ich bin mir nicht ganz sicher, was das New England Journal [of Medicine] genau tut, aber ich verstehe, dass sie jetzt diese grundlegenden Merkmale analysieren, die sie zuvor noch nicht getan hatten. Ich bin mir nicht ganz sicher, ob sie meinen oder einen eigenen Code verwenden.

Mandrola: Hat diese Arbeit Ihnen irgendwelche Eindrücke über den Stand der Beweise hinterlassen?

Carlisle: Ich bin in gewisser Weise ziemlich zuversichtlich und optimistisch in Bezug auf die Zukunft, weil ich denke, dass es für die Menschen eine viel größere Tendenz gibt, zu akzeptieren, dass wir alle Menschen sind, fehleranfällig sind und unsere Schwächen haben. Sobald die Herausgeber und Autoren von Zeitschriften offener für die Möglichkeit sind, dass sie einen Fehler gemacht haben, und besser darauf vorbereitet sind, dass die Menschen ihre Daten einsehen und helfen können, weil wir wirklich versuchen, dies zu tun, denke ich, dass evidenzbasierte Medizin könnte verbessert werden. In der Vergangenheit wurden wir hinter unseren eigenen Türen versteckt. Das Herausbringen der Daten und Fragen ist eine gesunde Sache. Ich bin also ziemlich optimistisch.

Mandrola: Hat es Ihren Ansatz geändert, entweder ein Early Adopter oder ein Slow Adopter zu sein? Ich bin eine Art langsamer Anwender. Dafür bekomme ich Kritik. Ich frage mich, wie du dich fühlst und ob sich das geändert hat.

Carlisle: Ich weiß nicht, ob die Jugend geflogen ist oder aus einem anderen Grund, aber als Sie älter wurden, haben Sie Modeerscheinungen kommen und gehen sehen. Oft ist eine Praxis, die ursprünglich durch sehr starke Beweise gestützt wurde, nicht das Beste. John Ioannidis hat über diesen Pendelprozess geschrieben, bei dem etwas anfangs populär ist und dann die Leute dagegen sind und schließlich ein Gleichgewicht finden, das durch die Beweise gestützt wird. Ich bin definitiv dazu übergegangen, ein langsamer Anwender zu sein.

Ich denke, die Analyse von PREDIMED und anderen Studien könnte andere Zuschauer heute dazu ermutigen, darüber nachzudenken, nicht auf einen Zug zu springen und stattdessen einen Schritt zurückzutreten. Ich glaube nicht, dass Ihre Patienten leiden werden, wenn sie nicht die ersten sind, die ein neues Medikament erhalten, aber sie können leiden, wenn Sie ein Early Adopter sind. Ich denke, wir müssen vorsichtig sein, bis es Beweise aus verschiedenen Richtungen gibt, die alle übereinstimmen.

Sind systematische Überprüfungen besser?

Mandrola: Das wirft die Frage nach systematischen Überprüfungen und der Qualität systematischer Überprüfungen im Vergleich zu einer oder zwei auf. Uns wird beigebracht, dass eine systematische Überprüfung ein hohes Maß an Beweisen darstellt, aber es scheint immer mehr davon zu geben. Haben Sie Kommentare zur Qualität dieser Papiere?

Carlisle: Ich denke, die Qualität systematischer Überprüfungen variiert ähnlich wie die Qualität von RCTs. So wie Sie einige ziemlich blöde RCTs sehen und erkennen können, werden Personen, die mit systematischen Überprüfungen vertraut sind, eine schlechte systematische Überprüfung sehen und sie als schlecht erkennen. Nur weil ein Papier mit einem Etikett versehen ist, bedeutet eine systematische Überprüfung nicht, dass das, was es sagt, richtig ist oder sogar die Beweise als Ganzes gut widerspiegelt. Es gibt Fälle, in denen zwei Autorengruppen eine systematische Überprüfung derselben Artikel veröffentlichen und zu unterschiedlichen Schlussfolgerungen kommen, was zeigt, dass eine systematische Überprüfung eine Beobachtungsstudie für sich ist.

Bei einer systematischen Überprüfung werden randomisierte Kontrollstudien und ihre Ergebnisse beobachtet, aber es handelt sich nicht um eine randomisierte kontrollierte Studie, die möglicherweise mehr Verzerrungen ausgesetzt ist als eine randomisierte kontrollierte Studie, die sehr gut durchgeführt wurde. Es gab Argumente dafür, dass eine einzelne, große, multizentrische Studie besser sein könnte als eine systematische Überprüfung mit ebenso vielen oder vielleicht mehr Teilnehmern, da verschiedene Studien zusammengefasst wurden. Eines der Argumente ist, dass eine systematische Überprüfung potenziell schlechte und gute randomisierte kontrollierte Studien umfassen wird.

Wie die PREDIMED-Studie zeigt, sind Sie jedoch anfällig für offene oder verdeckte Probleme innerhalb der Studie, wenn Sie alle Eier in den Korb einer einzigen großen randomisierten kontrollierten Studie legen. Wenn das offenkundig ist, werden Sie den Ergebnissen normalerweise nicht glauben. Aber wie die PREDIMED-Studie gezeigt hat, hatten sie einige Probleme, die sie nicht kannten, und ich denke, einige Leute, die die nach dem Widerruf veröffentlichte neu gestartete PREDIMED-Studie [3] kommentierten, argumentierten, dass es möglicherweise noch Probleme damit gibt, die nur Zuflucht finden. ' wurde nicht entdeckt.

Nur weil ein Papier mit einem Etikett versehen ist, bedeutet eine systematische Überprüfung nicht, dass das, was es sagt, richtig ist oder sogar die Beweise als Ganzes gut widerspiegelt.

Mandrola: Haben Sie weitere Pläne, diese Technik in Zukunft für andere Studien einzusetzen?

Carlisle: Ich habe viele Papiere für mein Tagebuch Anesthesia. Wir haben Probleme mit einer Reihe [von Papieren] festgestellt, die nicht veröffentlicht wurden, einschließlich eindeutiger Fälle von Betrug. Eine meiner Aufgaben wird es sein, [eine Analyse der] Anzahl der durchkommenden Papiere zu schreiben. Ob wir Autoren benennen, ist noch nicht geklärt. Wie ich bereits erwähnt habe, gibt es dabei einige Probleme. Ich denke jedoch, dass es für Leser und andere Zeitschriftenredakteure interessant wäre, sich der Probleme in nicht veröffentlichten Artikeln bewusst zu werden.

Es gibt viele Artikel, die bei verschiedenen Zeitschriften eingereicht wurden und nur 10% bis 15% der Artikel veröffentlichen, die sie sehen. Wenn Sie Basisdaten analysieren, können Sie Probleme erkennen. Wir haben eine Reihe von Autoren nach ihren rohen, individuellen Patientendaten gefragt und werden auf diese Weise Probleme identifizieren. Ich denke, das hat eine Reihe interessanter Aspekte, und ich werde mir diese sicherlich in Zukunft ansehen.