Anonim

Der P-Wert von 0, 05 wurde erneut als Schwelle für die klinische Bedeutung in der medizinischen Forschung in Frage gestellt, diesmal in einem Kommentar, der eine Möglichkeit bietet, relevantere Alternativen zu finden.

"Das Problem mit P-Werten ist, dass, wenn Sie ihre genaue Definition nehmen, das, was sie vermitteln, mit sehr seltenen Ausnahmen nicht etwas ist, an dem sich ein Kliniker jemals interessieren würde", so John PA Ioannidis, MD, DSc, Stanford University, Kalifornien .

Den P-Wert, sagte er theheart.org | Medscape Cardiology, "ist ein Ritual, das in der Literatur verankert ist. Es ist irreführend und falsch. Wir müssen es nur loswerden."

In der Tat sollten Wissenschaftler und Zeitschriften die P-Wert-Schwelle für die Signifikanz, typischerweise P <0, 05, durch ein Zehntel der Größenordnung ersetzen, argumentiert Ioannidis in einem am 22. März in JAMA veröffentlichten Standpunkt.

Der neue Standard P = 0, 005 wäre eine vorübergehende Lösung, bis das Feld einen klinisch relevanteren statistischen Test oder mehrere, je nach Art der Analyse, konsequenter anwendet und festlegt, schlägt er vor.

Dass P-Werte derzeit "falsch interpretiert, übervertraut und missbraucht" werden, bedeutet, dass ein Forschungsergebnis innerhalb des 0, 05-Standards "fälschlicherweise mit einem Ergebnis oder einem Ergebnis (z. B. einer Assoziation oder einem Behandlungseffekt) gleichgesetzt wird, das wahr, gültig und wertvoll ist handeln ", schreibt Ioannidis.

"Diese Missverständnisse betreffen Forscher, Zeitschriften, Leser und Benutzer von Forschungsartikeln sowie Medien und die Öffentlichkeit, die wissenschaftliche Informationen konsumieren. Die meisten Behauptungen, deren P-Werte leicht unter 0, 05 liegen, sind wahrscheinlich falsch (dh die behaupteten Assoziationen und Behandlungseffekte sind falsch) nicht existieren). Selbst unter diesen Behauptungen, die wahr sind, sind nur wenige es wert, in der Medizin und im Gesundheitswesen gehandelt zu werden ", so Ioannidis.

P-Werte werden oft als die Wahrscheinlichkeit missverstanden, dass ein Befund zufällig ist, was falsch ist und außerdem die klinische Relevanz des Befundes nicht berücksichtigt, bemerkt Ioannidis.

Vielmehr "ist ein P-Wert die Wahrscheinlichkeit, dass Sie solch extreme Ergebnisse sehen, wenn die Nullhypothese wahr ist und keine Verzerrung vorliegt." Die beiden "Wenn" sind kritisch, bemerkte er.

Eine bessere Metrik, die den Bedürfnissen der Ärzte gerecht wird, würde widerspiegeln, ob es einen Behandlungseffekt gibt, der groß genug ist, um klinisch sinnvoll zu sein. Der P-Wert, sagte Ioannidis, "ist sehr weit davon entfernt. Er ist so weit davon entfernt, dass die Leute einfach irregeführt werden."

Nützlicher sind Hazard Ratios (oder relative Risiken oder Odds Ratios) mit Konfidenzintervallen, die Effektgrößen vermitteln, die zeigen können, ob ein Behandlungsergebnis klinisch ansprechend sein könnte, sagte er. Diese Metriken dichotomisieren die Ergebnisse nicht einfach in Bezug auf Signifikanz und Nicht-Signifikanz.

"Wir ertrinken in einer Flut von statistischer Bedeutung", sagte Ioannidis. "Wir müssen also schnell etwas unternehmen, um ein Ertrinken zu vermeiden, während wir an besseren und dauerhafteren Lösungen arbeiten. Dazu gehört möglicherweise, dass P-Werte für andere Metriken in etwa 80% oder 90% der Literatur aufgegeben werden, wenn sie nicht das geeignete Werkzeug sind." der Folgerung. "

Sein Standpunkt behauptet, dass "die Verschiebung der P-Wert-Schwelle von 0, 05 auf 0, 005 etwa ein Drittel der statistisch signifikanten Ergebnisse der früheren biomedizinischen Literatur in die Kategorie" nur suggestiv "verschieben wird. Diese Verschiebung ist wesentlich für diejenigen, die (vielleicht grob) an signifikante oder nicht signifikante Schwarz-Weiß-Kategorisierungen glauben. "

Es ist keine neue Idee, und Ioannidis verweist auf eine Reihe von früheren Kritiken und Vorschlägen zur Abkehr von traditionellen P-Wert-Schwellenwerten, einschließlich eines kürzlich geforderten, der einen neuen Standard von 0, 005 fordert.

Ioannidis selbst hat eine lange Tradition darin, Flaggen über das Problem und andere Standards zu hissen, nach denen Studienergebnisse und die Veröffentlichungen, die darüber berichten, bewertet werden. Und seit seinem eigenen Manifest zu diesem Thema mit dem Titel "Warum die meisten veröffentlichten Forschungsergebnisse falsch sind" sind 13 Jahre vergangen.

Sanjay Kaul, MD, Cedars Sinai Medical Center, Los Angeles, der nicht an dem veröffentlichten Standpunkt beteiligt war, sprach sich für die Idee aus, die 0, 05-Schwelle für P zu verschärfen. Er notierte für theheart.org | Medscape Cardiology, dass einige Zeitschriften auf kleineren P-Wert-Schwellenwerten bestanden haben, um die Stärke der Ergebnisse zu messen, während andere die Verwendung von P-Werten überhaupt nicht empfohlen haben.

Er sagte, er habe die Verwendung der Bayes'schen Analyse, "die die Mängel der P-Werte überwindet", als mindestens eine Alternative unterstützt.

Diese Methode, schreibt Ioannidis, sollte allgemein auf verschiedene Arten von Forschung anwendbar sein, ebenso wie die Metriken, die Effektgrößen und Unsicherheitsintervalle anzeigen. Unabhängig von den verwendeten Metriken sollten sie für die Art der Forschung geeignet sein.

"Wir müssen für jede Studie und jede Frage, die wir stellen, nachdenken: Warum machen wir das und was versuchen wir zu beantworten? Und dann können wir die Metrik und das Werkzeug auswählen, die speziell darauf abzielen, was wir beantworten möchten Und das ist sehr selten ein P-Wert ", sagte er in einem Interview.

Derzeit wäre die weitgehende Übernahme von P <0, 005 als Signifikanzstandard ein Schritt in die richtige Richtung, wahrscheinlich "für jede Art von Studiendesign", sei es eine randomisierte Studie, eine Metaanalyse oder eine Beobachtungsstudie, sagte er - obwohl sogar Dieses Niveau "ist wahrscheinlich sehr nachsichtig" für Beobachtungsstudien.

"Für Beobachtungsergebnisse, wie Assoziationen von Ernährung oder Lebensstil mit kardiovaskulären Ergebnissen oder Krebs oder Schlaganfall, würde ich Schwellenwerte wählen, die viel niedriger sind, wie 10-6 . In der Genetik verwenden Menschen Schwellenwerte wie 10-8 ."

Laut Kaul "werden Ergebnisse von Beobachtungsstudien und Metaanalysen höchstwahrscheinlich von der Implementierung einer niedrigeren P-Wert-Schwelle profitieren." Sogar die US-amerikanische Food and Drug Administration habe einen P-Wert von <0, 001 für Metaanalysen von Sicherheitsereignissen gebilligt, und es wäre eine gute Idee, "wenn die Herausgeber der Zeitschrift diesbezüglich dem Beispiel der FDA folgen würden." ""

Ioannidis berichtet, Mitglied des Gremiums zu sein, das an der Erklärung der American Statistical Association arbeitet, und Autor des Artikels, in dem vorgeschlagen wird, die Schwelle der statistischen Signifikanz zu senken. Kaul hat berichtet, Berater oder Berater von Boehringer Ingelheim, Eli Lilly und Novo Nordisk zu sein.

JAMA. Online veröffentlicht am 22. März 2018. Zusammenfassung

Folgen Sie Steve Stiles auf Twitter: @ SteveStiles2. Für mehr von theheart.org | Medscape Cardiology, folgen Sie uns auf Twitter und Facebook.