Anonim

Willkommen bei Impact Factor, Ihrer wöchentlichen Dosis Kommentar zu einer neuen medizinischen Studie. Ich bin Dr. F. Perry Wilson.

Diese Woche versucht ein neuartiger Computeralgorithmus, Querschnittsstudien in Längsschnittstudien umzuwandeln, um neue Einblicke in neurodegenerative Erkrankungen wie Alzheimer zu erhalten. Das Manuskript, das in der Zeitschrift Brain erscheint, könnte die Geburtsstunde einer neuen Technik des maschinellen Lernens sein, die das Feld verändern könnte.

Aber ich bin nicht ganz überzeugt.

Lass uns durchgehen.

Eines der Hauptprobleme in der Forschung zu neurodegenerativen Erkrankungen ist das Fehlen großer Längsschnittdatensätze. Wenn die Ressourcen unbegrenzt wären, könnten wir jahrzehntelang Blutgenexpressionsprofile für Zehntausende von Menschen verfolgen, sehen, wer neurodegenerative Erkrankungen entwickelt, und ein tiefes Verständnis für die longitudinalen Veränderungen der Genexpression gewinnen, die die Krankheit antreiben könnten. Diese Informationen könnten uns nicht nur ein neues Prognosewerkzeug bieten, sondern auch therapeutische Ziele identifizieren.

Natürlich haben wir keine unbegrenzten Ressourcen. Die meisten Datensätze zu neurodegenerativen Erkrankungen sind Querschnittsdatensätze oder nahezu solche - Datensammlungen zu einem bestimmten Zeitpunkt, gelegentlich ergänzt durch postmortale Autopsiestudien.

Forscher unter der Leitung von Yasser Iturria-Medina von der McGill University verfolgten einen anderen Ansatz. Was wäre, wenn die Kraft des maschinellen Lernens genutzt werden könnte, um Querschnittsdaten in Längsschnittdaten umzuwandeln?

Es ist eine komplizierte Idee, aber im Grunde genommen haben sie Genexpressionsprofile aus dem Blut und - in Autopsiefällen - dem Gehirn von Personen mit neurodegenerativen Erkrankungen und gesunden, älteren Kontrollpersonen entnommen. Sie fütterten alle Daten in einen Computeralgorithmus und fragten die Maschine, welche Gentranskripte dazu neigten, sich zusammenzuschließen.

Hier müssen wir einen Jargon für maschinelles Lernen einführen. Das Papier beschreibt diesen Ansatz als "unbeaufsichtigt". Sehen? Es ist genau dort in den Schlüsselwörtern.

Image

Dies bedeutet, dass die Gendaten dem Algorithmus ohne zusätzliche Informationen präsentiert wurden - beispielsweise wie schwer die Demenz war. Der Algorithmus musste nur herausfinden, welche Gene zusammenhalten, ohne zu wissen, wie sie mit Krankheit zusammenhängen. Dies ist wirklich wichtig, denn wenn Sie eine unbeaufsichtigte Methode zur Cluster-Genexpression verwenden und anschließend zeigen, dass diese Cluster die Schwere der Erkrankung vorhersagen, haben Sie ein wirklich starkes Argument dafür, dass Sie etwas Grundlegendes über den Krankheitsprozess entdeckt haben.

Die Autoren haben versucht, das hier zu zeigen. Nachdem der Algorithmus trainiert wurde, konnte jeder Patient in einem eindimensionalen Raum abgebildet werden - wie nah er an dem Muster ist, das bei gesunden Kontrollen beobachtet wird, und wie nahe er an Mustern ist, die bei neurodegenerativen Erkrankungen beobachtet werden.

Image

Unter der Annahme, dass die neurodegenerative Erkrankung langsam von der Gesundheit zur fortgeschrittenen Erkrankung fortschreitet, spiegelt diese Karte die Zeit wider - oder wie die Forscher es nennen, die Pseudotime.

Mit anderen Worten, indem sie das Genexpressionsprofil einer Person betrachten, können sie abschätzen, wie weit diese Person auf dem Krankheitsweg gereist ist. Wenn Sie Personen nach Pseudotime aneinanderreihen, können Sie dann eine pseudolängsbezogene Kohortenstudie erstellen und möglicherweise etwas Grundlegendes über die Krankheit lernen.

Und es scheint zu funktionieren.

Diese Pseudotime-Schätzungen waren in Bezug auf die Ergebnisse von PET-Scans und die postmortale Gehirnpathologie stark mit der Schwere der Erkrankung verbunden. Sie waren auch mit der Leistung bei verschiedenen kognitiven Tests verbunden, wenn auch nicht ganz so stark.

Das ist alles super cool, aber ich bin noch nicht ganz bereit, die super Kool-Aid zu trinken.

Zunächst scheint die gezeigte Technik kohortenspezifisch zu sein. Mit anderen Worten, sie identifizierten kein universelles Genexpressionsprofil, das auf eine Person angewendet werden könnte, um zu sehen, wo sie sich auf dem Weg zur Demenz befinden. Beispielsweise identifizierte diese Technik in einer Kohorte 845 hoch einflussreiche Gene. In einem anderen wurden 416 einflussreiche Gene identifiziert. Das bedeutet, dass Sie wahrscheinlich bald keinen Labortest mehr sehen werden, der diese Technik nutzt.

Das andere Problem ist subtiler. Die Tatsache, dass das neue "Pseudotime" -Konstrukt mit dem Krankheitszustand und dem Fortschreiten korreliert, ist hier der eigentliche Ausbruch. Aber es ist nur so überzeugend, weil die Autoren behaupten, das Modell des maschinellen Lernens sei "unbeaufsichtigt".

Das stimmte aber nicht ganz. Diese Kontrollpatienten, die so wichtig sind, um das Rauschen des normalen Alterns auszumerzen, wurden gemäß meiner Korrespondenz mit Dr. Iturria-Medina als solche gekennzeichnet. Der Algorithmus wusste von Anfang an, wer eine Kontrolle und wer ein Patient war. Ich fragte Dr. Iturria-Medina, ob es fair sei, dies als unbeaufsichtigtes Modell zu bezeichnen. Er schrieb: "Je nach Perspektive könnte 'halb unbeaufsichtigt' wahrscheinlich eine korrektere Kategorisierung sein."

Aber die Autoren erwähnen dies in der Zeitung nicht. Tatsächlich geben sie sich alle Mühe, um darauf hinzuweisen, dass die unbeaufsichtigte Natur des Modells eine besondere Stärke darstellt, da es "das Fehlen von … Datenüberanpassungen garantiert".

Und das kann wahr sein, wenn das Modell wirklich unbeaufsichtigt ist. Da es jedoch etwas überwacht wird, haben wir jetzt die Möglichkeit, dass die beobachteten starken Beziehungen zwischen Pseudotime und verschiedenen Krankheitsergebnissen nicht von der Biologie, sondern von der Überanpassung der Trainingsdaten abhängen.

Dies alles lässt sich leicht feststellen, indem das Modell auf ein durchgehaltenes Test-Set angewendet wird. Dies wurde jedoch nicht durchgeführt.

Ich möchte klarstellen: Dies macht die Ergebnisse nicht ungültig, aber es bedeutet, dass wir eine Replikation in anderen Kohorten mit streng durchdachten Testsätzen sehen müssen, bevor wir wirklich sicher sein können, dass der Algorithmus etwas über die Krankheit lernt und nicht nur der Datensatz, in dem es entwickelt wurde.

Wir befinden uns in einer erstaunlichen neuen Welt, in der die Datenwissenschaft neue Einblicke in Krankheiten verspricht, diese jedoch sehr komplex ist und subtile Variationen im Studiendesign große Auswirkungen auf die Interpretation haben können. Viele von uns, auch ich, lernen immer noch, wie man solche Studien interpretiert. Algorithmen für maschinelles Lernen sind vielleicht noch nicht so kompliziert wie das menschliche Gehirn, aber sie sind so kompliziert, dass das Verständnis dieser Studien alles andere als intuitiv ist.

F. Perry Wilson, MD, MSCE, ist außerordentlicher Professor für Medizin und Direktor des Yale-Programms für angewandte translationale Forschung. Seine wissenschaftliche Kommunikationsarbeit ist in der Huffington Post, bei NPR und hier bei Medscape zu finden. Er twittert @methodsmanmd und hostet ein Repository seiner Kommunikationsarbeit unter www.methodsman.com.

Folgen Sie Medscape auf Facebook, Twitter, Instagram und YouTube