Data Jamboree - Machine Learning

Machine Learning ist eine Methode, die anhand von Erfahrungswerten künstlich Wissen generiert. Hierbei erkennen IT- Systemen in Datensätzen Muster und Gesetzmäßigkeiten und entwickeln daraus Vorhersagen für nie gesehene Daten. Machine Learning findet bereits in vielen Bereichen Anwendung wie zum Beispiel bei Internet Suchmaschinen und Spracherkennung und ist gerade für das Gesundheitswesen mit seinen täglich produzierten, großen Datenmengen ein zentrales Werkzeug, das immer mehr an Bedeutung gewinnt.

Wäre es möglich, aus den Patientendaten alleine mittels Machine Learning eine erfolgsversprechende Therapie vorherzusagen, würde das den Ärzten nicht nur viel Zeit ersparen, sondern auch eine große Hilfe bei der Entscheidung für eine bestimmte Behandlungsmethode sein.

Das ist die Vision, die Sophia Stahl-Toyota und ihre Kollegen verfolgen. „Wir am DKFZ haben die Chance, mit einer großen Anzahl echter Patientendaten zu arbeiten. Dieses Analysepotential ist jedoch noch lange nicht ausgeschöpft“, erzählt die Wissenschaftlerin. Aus diesem Grund hat sich das Team mit einem DAX-notierten Unternehmen aus der Region zusammengetan, das über Expertenwissen im Bereich Machine Learning verfügt, denen jedoch Daten fehlen, um diese Kenntnisse anzuwenden.

Im Mai 2019 wurden beide Bereiche, Machine Learning und Patientendaten, am DKFZ räumlich zusammengeführt, um zu versuchen, die Therapieempfehlungen durch das Heidelberger molekulare Tumorboard mittel Machine Learning vorherzusagen. Beim Tumorboard bespricht eine Expertenrunde aus mehreren Fachrichtungen einen Patienten mit seinem individuellen Befund. Dabei werden alle vorliegende Daten wie Krankheitsverlauf, Röntgenbilder sowie Untersuchungsergebnisse berücksichtigt, um einen individuellen Therapievorschlag zu erarbeiten. Durch die Beteiligung von Medizinern aus unterschiedlichen Fachrichtungen wird eine hohe Qualität der nachfolgenden Behandlung gewährleistet. Diese Methode ist sehr zeitaufwändig und steht daher leider nicht allen Krebspatienten zur Verfügung.

Beim so genannten Data Jamboree trafen sich ein Team von Klinikern, Bioinformatikern und Forschern des DKFZ, sowie Experten für maschinelles Lernen zu einem dreitägigen Workshop. Durch die Einladung der Experten verließen die Daten nie die Räumlichkeiten des DKFZ. Ebenso wurde die gesamte Datenverarbeitung in den Rechenzentren des DKFZ durchgeführt. „So konnten wir die schwierigen Datenschutzbestimmungen für diese sensiblen Daten gewährleisten und dennoch mit Externen an unserer gemeinsamen Fragestellung arbeiten“ berichtete Stahl-Toyota, die den Workshop geleitet und mit Ilona Binenbaum und Analie Pascoe-Perez vorbereitet hat. Sie erzählt, dass bereits im März ein erstes Treffen zur Erörterung möglicher Anwendungsfälle und zum Inhalt der Daten stattfand. In den folgenden Wochen erstellte das DKFZ kurze anonyme Musterdateien. Diese wurden an die Kooperationspartner gesendet und bildeten die Diskussionsgrundlage für wöchentliche Telefonkonferenzen. Die Mitarbeiter des DAX notierten Unternehmens lieferten im Gegenzug eine Anforderungsliste und ein Skript, damit die Hard- und Software für den Workshop vorbereitet werden konnte. Für das Jamboree stellte das MITRO Team mit Hilfe von Bioinformatikern und Klinikern die realen Daten von ca. 1000 MASTER-Patienten zur Verfügung.  In der MASTER-Studie (Molecularly Aided Stratification for Tumor Eradication Research) werden junge Erwachsene mit einer Krebserkrankung im fortgeschrittenen Stadium und Patienten mit seltenen Tumoren von einem molekularen Tumorboard verschiedenen „Therapy Baskets“ zugeordnet. Stahl-Toyota und ihre Kollegen wollten beim Workshop nun diese Zuweisung mit Hilfe eines Algorithmus bestimmen. Sie setzen sich zum Ziel, folgende Frage zu beantworten: Wie genau können wir die Therapieempfehlungen aus dem molekularen Tumorboard auf „Therapy Basket“ Ebene vorhersagen?

Zu Beginn des Workshops wurden die Patientendaten für das Modeling vorbereitet. „Wir mussten die Daten aus der MASTER Studie stark filtern und vereinfachen, um innerhalb der kurzen Zeit unsere Frage beantworten zu können“ erklärt Stahl-Toyota. Der dabei resultierende erste Input stellte die Varianten auf Gen-Ebene dar. Am zweiten Tag wurden die Modelle trainiert. Für jeden der sieben „Therapy Baskets“ wurden sechs verschiedene Methoden angewendet. Zum Abschätzen der Vorhersagefähigkeit eines Modells hat das Team die Gesamtfläche unter der ROC-Kurve (AUC) verwendet. Am letzten Tag wurde das Detaillevel der Input-Daten angehoben, um die Merkmale von verschiedenen Genvariantentypen zu berücksichtigen.

„Das Jamboree war ein voller Erfolg. Die besten Diskussionen sind entstanden, als wir mit den realen Daten gearbeitet und nicht eine PowerPoint-Folie dazu angeschaut haben“, resümiert Stahl-Toyota. Nur so kann der Algorithmus verbessert und auf lange Sicht einen Mehrwert für die Patienten geschaffen werden.

 

 

© dkfz.de

nach oben