Maschinelles Lernen für die Genetik
HeimHeim > Nachricht > Maschinelles Lernen für die Genetik

Maschinelles Lernen für die Genetik

Jan 16, 2024

Naturmedizin (2023)Diesen Artikel zitieren

125 Altmetrisch

Details zu den Metriken

Krebs unbekannten Primärtumors (CUP) ist eine Krebsart, die nicht auf ihren Ursprungsort zurückgeführt werden kann und 3–5 % aller Krebserkrankungen ausmacht. Für CUP fehlen etablierte zielgerichtete Therapien, was zu allgemein schlechten Ergebnissen führt. Wir haben OncoNPC entwickelt, einen Klassifikator für maschinelles Lernen, der auf gezielten Next-Generation-Sequencing-Daten (NGS) von 36.445 Tumoren bei 22 Krebsarten aus drei Institutionen trainiert wurde. Der Onkologie-NGS-basierte primäre Krebstypklassifizierer (OncoNPC) erreichte einen gewichteten F1-Score von 0,942 für Vorhersagen mit hoher Konfidenz (\(\ge 0,9\)) für zurückgehaltene Tumorproben, die 65,2 % aller zurückgehaltenen Proben ausmachten Proben. Bei der Anwendung auf 971 CUP-Tumoren, die am Dana-Farber Cancer Institute gesammelt wurden, sagte OncoNPC bei 41,2 % der Tumoren primäre Krebsarten mit hoher Sicherheit voraus. OncoNPC identifizierte außerdem CUP-Untergruppen mit einem signifikant höheren polygenen Keimbahnrisiko für die vorhergesagten Krebsarten und mit deutlich unterschiedlichen Überlebensergebnissen. Bemerkenswert ist, dass Patienten mit CUP, die erste palliative Intention-Behandlungen erhielten, die mit ihren OncoNPC-vorhergesagten Krebserkrankungen übereinstimmten, signifikant bessere Ergebnisse erzielten (Hazard Ratio (HR) = 0,348; 95 %-Konfidenzintervall (CI) = 0,210–0,570; P = \(2,32\times). {10}^{-5}\)). Darüber hinaus ermöglichte OncoNPC einen 2,2-fachen Anstieg der Patienten mit CUP, die genomgesteuerte Therapien hätten erhalten können. OncoNPC liefert somit Hinweise auf unterschiedliche CUP-Untergruppen und bietet das Potenzial für klinische Entscheidungsunterstützung bei der Behandlung von Patienten mit CUP.

Dies ist eine Vorschau der Abonnementinhalte, Zugriff über Ihre Institution

Greifen Sie auf Nature und 54 weitere Nature Portfolio-Zeitschriften zu

Holen Sie sich Nature+, unser preisgünstigstes Online-Zugangsabonnement

29,99 $ / 30 Tage

jederzeit kündigen

Abonnieren Sie diese Zeitschrift

Erhalten Sie 12 gedruckte Ausgaben und Online-Zugriff

189,00 $ pro Jahr

nur 15,75 $ pro Ausgabe

Leihen oder kaufen Sie diesen Artikel

Die Preise variieren je nach Artikeltyp

ab 1,95 $

bis 39,95 $

Die Preise können örtlicher Steuern unterliegen, die beim Bezahlvorgang berechnet werden

Die Sequenzierungsdaten des multizentrischen NGS-Tumorpanels sind auf Anfrage auf der GENIE-Website des AACR-Projekts verfügbar: https://www.aacr.org/professionals/research/aacr-project-genie/. Das vollständig trainierte OncoNPC-Modell, verarbeitete somatische Variantendaten von Profile DFCI und nicht identifizierte klinische Daten, die in der Behandlungskonkordanzanalyse verwendet werden, sind unter https://github.com/itmoon7/onconpc verfügbar.

Wir verwendeten die Programmiersprachen R (v4.0.2) und Python (v3.9.13) für die OncoNPC-Feature-Verarbeitung (R deconstructSigs v1.8.0), die Entwicklung und Interpretation des OncoNPC-Modells (Python xgboost v1.2.0, shap v0.41.0) und die Überlebensanalyse (R Survival v3.2.7, stats v4.0.2, Python lifelines v0.27.4, scipy v1.7.1). Unter https://github.com/itmoon7/onconpc finden Sie das Vorverarbeitungsskript, das vollständig trainierte OncoNPC-Modell, eine Notebook-Demonstration zur Verwendung von OncoNPC und andere Referenzmaterialien.

Pavlidis, N., Khaled, H. & Gaafar, R. Eine kleine Übersicht über Krebs mit unbekannter Primärlokalisation: ein klinisches Rätsel für Onkologen. J. Adv. Res. 6, 375–382 (2015).

Artikel PubMed Google Scholar

Varadhachary, GR & Raber, MN Krebs mit unbekannter Primärlokalisation. N. engl. J. Med. 371, 757–765 (2014).

Artikel CAS PubMed Google Scholar

Hyman, DM et al. Vemurafenib bei multiplen Nicht-Melanom-Krebsarten mit BRAF-V600-Mutationen. N. engl. J. Med. 373, 726–736 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Hainsworth, JD & Greco, FA Krebs unbekannter Primärlokalisation: Neue Behandlungsparadigmen im Zeitalter der Präzisionsmedizin. Bin. Soc. Klin. Onkol. Educ. Buch 38, 20–25 (2018).

Artikel PubMed Google Scholar

Anderson, GG & Weiss, LM Bestimmung des Ursprungsgewebes für metastasierten Krebs: Metaanalyse und Literaturübersicht zur Leistung der Immunhistochemie. Appl. Immunhistochem. Mol. Morphol. 18, 3–8 (2010).

Artikel CAS PubMed Google Scholar

Oien, K. & Dennis, J. Diagnostische Aufarbeitung von Karzinomen unbekannter Primärerkrankung: von der Immunhistochemie bis zur molekularen Profilierung. Ann. Onkol. 23, 271–277 (2012).

Artikel Google Scholar

Moran, S. et al. Epigenetisches Profiling zur Klassifizierung von Krebs unbekannter Primärerkrankung: eine multizentrische, retrospektive Analyse. Lancet Oncol. 17, 1386–1395 (2016).

Artikel PubMed Google Scholar

Jiao, W. et al. Ein Deep-Learning-System klassifiziert primäre und metastasierende Krebsarten anhand von Passagiermutationsmustern genau. Nat. Komm. 11, 728 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Penson, A. et al. Entwicklung einer genombasierten Vorhersage des Tumortyps als Grundlage für die klinische Krebsbehandlung. JAMA Oncol. 6, 84–91 (2020).

Artikel PubMed Google Scholar

He, B. et al. Ein neuronales Netzwerk-Framework zur Vorhersage des Ursprungsgewebes von 15 häufigen Krebsarten basierend auf RNA-seq-Daten. Vorderseite. Bioeng. Biotechnologie. 8, 737 (2020).

Artikel PubMed PubMed Central Google Scholar

Nguyen, L., Van Hoeck, A. & Cuppen, E. Auf maschinellem Lernen basierende Klassifizierung von Ursprungsgewebe für Krebs mit unbekannter Primärdiagnose unter Verwendung genomweiter Mutationsmerkmale. Nat. Komm. 13, 4013 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Posner, A. et al. Ein Vergleich von DNA-Sequenzierung und Genexpressionsprofilierung zur Unterstützung der Ursprungsgewebediagnose bei Krebs mit unbekanntem Primärtumor. J. Pathol. 259, 81–92 (2023).

Artikel CAS PubMed Google Scholar

Zhao, Y. et al. CUP-AI-Dx: ein Tool zur Ableitung des Ursprungs von Krebsgewebe und des molekularen Subtyps mithilfe von RNA-Genexpressionsdaten und künstlicher Intelligenz. EBioMedicine 61, 103030 (2020).

Artikel PubMed PubMed Central Google Scholar

Konsortium, APG et al. AACR-Projekt GENIE: Förderung der Präzisionsmedizin durch ein internationales Konsortium. Krebsentdeckung. 7, 818–831 (2017).

Artikel Google Scholar

Hainsworth, JD et al. Profilierung der molekularen Genexpression zur Vorhersage des Ursprungsgewebes und zur direkten ortsspezifischen Therapie bei Patienten mit Karzinomen unbekannter Primärlokalisation: eine prospektive Studie des Sarah Cannon Research Institute. J. Clin. Onkol. 31, 217–223 (2013).

Artikel CAS PubMed Google Scholar

Yoon, H. et al. Genexpressionsprofile identifizieren ansprechende Patienten mit Krebs unbekannter Herkunft, die mit Carboplatin, Paclitaxel und Everolimus behandelt werden: NCCTG N0871 (Allianz). Ann. Onkol. 27, 339–344 (2016).

Artikel CAS PubMed Google Scholar

Hayashi, H. et al. Ortsspezifische und zielgerichtete Therapie basierend auf molekularer Profilierung durch Next-Generation-Sequenzierung für Krebs mit unbekannter Primärlokalisation: eine nicht randomisierte klinische Phase-2-Studie. JAMA Oncol. 6, 1931–1938 (2020).

Artikel PubMed Google Scholar

Hayashi, H. et al. Randomisierte Phase-II-Studie zum Vergleich einer ortsspezifischen Behandlung basierend auf Genexpressionsprofilen mit Carboplatin und Paclitaxel für Patienten mit Krebs unbekannter Primärlokalisation. J. Clin. Onkol. 37, 570–579 (2019).

Artikel CAS PubMed Google Scholar

Conway, A.-M., Mitchell, C. & Cook, N. Herausforderung des Unbekannten: Wie können wir die klinischen Ergebnisse bei Krebs mit unbekanntem Primärtumor verbessern? J. Clin. Onkol. 37, 2089–2090 (2019).

Artikel CAS PubMed Google Scholar

Chen, T. & Guestrin, C. XGBoost: ein skalierbares Baum-Boosting-System. In Proceedings der 22. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16). 785–794 (Association for Computing Machinery, 2016).

Bochtler, T. & Krämer, A. Existiert Krebs unbekannten Ursprungs (CUP) wirklich als eigenständige Krebsentität? Vorderseite. Onkol. 9, 402 (2019).

Artikel PubMed PubMed Central Google Scholar

Lundberg, SM et al. Von lokalen Erklärungen zum globalen Verständnis mit erklärbarer KI für Bäume. Nat. Mach. Intel. 2, 56–67 (2020).

Artikel PubMed PubMed Central Google Scholar

Tate, JG et al. Kosmisch: der Katalog somatischer Mutationen bei Krebs. Nukleinsäuren Res. 47, D941–D947 (2019).

Artikel CAS PubMed Google Scholar

da Cunha Santos, G., Shepherd, FA & Tsao, MS EGFR-Mutationen und Lungenkrebs. Annu. Rev. Pathol. 6, 49–69 (2011).

Artikel PubMed Google Scholar

Zhang, Y.-L. et al. Die Prävalenz der EGFR-Mutation bei Patienten mit nichtkleinzelligem Lungenkrebs: eine systematische Überprüfung und Metaanalyse. Oncotarget 7, 78985 (2016).

Artikel PubMed PubMed Central Google Scholar

Hecht, SS Tabakrauch krebserregend und Lungenkrebs. J. Natl Cancer Inst. 91, 1194–1210 (1999).

Artikel CAS PubMed Google Scholar

Dirican, E., Akkiprik, M. & Özer, A. Mutationsverteilungen und klinische Korrelationen von PIK3CA-Genmutationen bei Brustkrebs. Tumorbiol. 37, 7033–7045 (2016).

Artikel CAS Google Scholar

Elsheikh, S. et al. CCND1-Amplifikation und Cyclin-D1-Expression bei Brustkrebs und ihre Beziehung zu proteomischen Untergruppen und dem Patientenergebnis. Brustkrebs Res. Behandeln. 109, 325–335 (2008).

Artikel CAS PubMed Google Scholar

Kim, J. et al. Ungünstige Prognose im Zusammenhang mit der K-ras-Genmutation in den Operationsrändern von Bauchspeicheldrüsenkrebs. Gut 55, 1598–1605 (2006).

Artikel CAS PubMed PubMed Central Google Scholar

Luo, J. KRAS-Mutation bei Bauchspeicheldrüsenkrebs. Semin. Onkol. 48, 10–18 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Conway, AM et al. Molekulare Charakterisierung und flüssige Biomarker bei Karzinomen mit unbekanntem Primärtumor (CUP): Herausnehmen des „U“ aus „CUP“. Br. J. Krebs 120, 141–153 (2019).

Artikel CAS PubMed Google Scholar

Liu, R. et al. Systematische Pan-Krebs-Analyse der Wechselwirkungen zwischen Mutation und Behandlung unter Verwendung umfangreicher klinischer Genomdaten aus der realen Welt. Nat. Med. 28, 1656–1661 (2022).

Artikel CAS PubMed Google Scholar

Liu, R. et al. Bewertung der Zulassungskriterien für onkologische Studien anhand realer Daten und KI. Natur 592, 629–633 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Grambsch, PM & Therneau, TM Proportionale Gefahrentests und Diagnosen basierend auf gewichteten Residuen. Biometrika 81, 515–526 (1994).

Artikel Google Scholar

Chakravarty, D. et al. OncoKB: eine Präzisions-Onkologie-Wissensdatenbank. JCO Precis. Onkol. 1, PO.17.00011 (2017).

PubMed Central Google Scholar

Moiso, E. et al. Entwicklungsentfaltung zur Klassifizierung der Krebsentstehung. Krebsentdeckung. 12, 2566–2585 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Lu, MY et al. KI-basierte Pathologie sagt die Entstehung von Krebserkrankungen mit unbekanntem Primärtumor voraus. Natur 594, 106–110 (2021).

Artikel CAS PubMed Google Scholar

Fizazi, K. et al. Krebserkrankungen unbekannter Primärlokalisation: ESMO-Leitlinien für die klinische Praxis für Diagnose, Behandlung und Nachsorge. Ann. Onkol. 26, V. 133–V. 138 (2015).

Artikel PubMed Google Scholar

Mileshkin, L. et al. Krebs unbekannter primärer Herkunft: eine SEER-Medicare-Studie zu Pflegemustern und Ergebnissen bei älteren Patienten in der klinischen Praxis. Krebserkrankungen 14, 2905 (2022).

Artikel PubMed PubMed Central Google Scholar

Moon, I., Groha, S. und Gusev, A. SurvLatent ODE: Ein neuronales ODE-basiertes Time-to-Event-Modell mit konkurrierenden Risiken für Längsschnittdaten verbessert die Vorhersage krebsassoziierter venöser Thromboembolien (VTE). Im Tagungsband der 7. Konferenz „Maschinelles Lernen für das Gesundheitswesen“. 800–827 (PMLR, 2022).

Kehl, KL et al. Verarbeitung natürlicher Sprache zur Ermittlung von Krebsergebnissen aus Notizen medizinischer Onkologen. JCO-Klinik. Krebs informieren. 4, 680–690 (2020).

Artikel PubMed Google Scholar

Garcia, EP et al. Validierung von Oncopanel: ein gezielter Sequenzierungstest der nächsten Generation zum Nachweis somatischer Varianten bei Krebs. Bogen. Pathol. Labor. Med. 141, 751–758 (2017).

Artikel CAS PubMed Google Scholar

Cheng, DT et al. Memorial Sloan Kettering-integriertes Mutationsprofiling umsetzbarer Krebsziele (MSK-IMPACT): ein auf Hybridisierungserfassung basierender klinischer Next-Generation-Sequenzierungstest für die molekulare Onkologie solider Tumoren. J. Mol. Diag. 17, 251–264 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Chen, Y. et al. Klassifizierung kurzer Einzelableitungs-Elektrokardiogramme (EKGs) zur Erkennung von Vorhofflimmern mithilfe stückweiser linearer Spline- und XGBoost-Funktionen. Physiol. Mess. 39, 104006 (2018).

Artikel PubMed Google Scholar

Hatton, CM et al. Vorhersage anhaltender depressiver Symptome bei älteren Erwachsenen: ein Ansatz des maschinellen Lernens zur personalisierten psychischen Gesundheitsfürsorge. J. Affekt. Unordnung. 246, 857–860 (2019).

Artikel PubMed Google Scholar

Ogunleye, A. & Wang, Q.-G. XGBoost-Modell zur Diagnose chronischer Nierenerkrankungen. IEEE/ACM-Trans. Berechnen. Biol. Bioinform. 17, 2131–2140 (2019).

Artikel Google Scholar

Bergstra, J. & Bengio, Y. Zufällige Suche zur Hyperparameteroptimierung. J. Mach. Lernen. Res. 13, 281–305 (2012).

Google Scholar

Alexandrov, LB et al. Das Repertoire an Mutationssignaturen bei menschlichem Krebs. Natur 578, 94–101 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Rosenthal, R., McGranahan, N., Herrero, J., Taylor, BS & Swanton, C. DeconstructSigs: Die Beschreibung von Mutationsprozessen in einzelnen Tumoren unterscheidet DNA-Reparaturdefizite und Muster der Karzinomentwicklung. Genombiol. 17, 31 (2016).

Artikel PubMed PubMed Central Google Scholar

Janzing, D., Minorics, L. & Blöbaum, P. Quantifizierung der Merkmalsrelevanz in erklärbarer KI: ein kausales Problem. In Proceedings of International Conference on Artificial Intelligence and Statistics 2907–2916 (PMLR, 2020).

Gusev, A., Groha, S., Taraszka, K., Semenov, YR & Zaitlen, N. Konstruieren von Keimbahnforschungskohorten aus den verworfenen Messwerten klinischer Tumorsequenzen. Genommed. 13, 179 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Cox, DR Regressionsmodelle und Sterbetabellen. JR-Stat. Soc. Ser. B Methodol. 34, 187–202 (1972).

Google Scholar

Xie, J. & Liu, C. Angepasster Kaplan-Meier-Schätzer und Log-Rank-Test mit inverser Behandlungswahrscheinlichkeitsgewichtung für Überlebensdaten. Stat. Med. 24, 3089–3110 (2005).

Artikel PubMed Google Scholar

Marschner, I. glm2: Anpassung verallgemeinerter linearer Modelle an Konvergenzprobleme. The R Journal 3, 12–15 (2011).

Artikel Google Scholar

Referenzen herunterladen

Die Beteiligung von Patienten und die Bemühungen eines institutionellen Datenerfassungssystems haben diese Studie ermöglicht, und wir sind dankbar für ihre Beiträge. Wir möchten auch dem DFCI Oncology Data Retrieval System (OncDRS) und dem GENIE-Team des AACR-Projekts unsere Anerkennung für ihre Rolle bei der Aggregation, Verwaltung und Bereitstellung der in diesem Projekt verwendeten Daten aussprechen.

IM und AG wurden von R01 CA227237, R01 CA244569 und Zuschüssen der Louis B. Mayer Foundation, der Doris Duke Charitable Foundation, der Phi Beta Psi Sorority und dem Emerson Collective unterstützt. Die Geldgeber hatten keinen Einfluss auf das Studiendesign, die Datenerfassung und -analyse, die Entscheidung zur Veröffentlichung oder die Erstellung des Manuskripts.

Fakultät für Elektrotechnik und Informatik, Massachusetts Institute of Technology, Cambridge, MA, USA

Intae Moon

Abteilung für Bevölkerungswissenschaften, Dana-Farber Cancer Institute und Harvard Medical School, Boston, MA, USA

Intae Moon, Kenneth L. Kehl, Michael J. Hassett, David Liu und Alexander Gusev

Abteilung für Medizinische Onkologie, Dana-Farber Cancer Institute, Boston, MA, USA

Jaclyn LoPiccolo, Sylvan C. Baca und David Liu

Zentrum für funktionelle Krebsepigenetik, Dana-Farber Cancer Institute, Boston, MA, USA

Sylvan C. Baca

Abteilung für Pathologie, Brigham and Women's Hospital, Harvard Medical School, Boston, MA, USA

Lynette M. Sholl

Das Broad Institute of MIT & Harvard, Cambridge, MA, USA

David Liu & Alexander Gusev

Memorial Sloan Kettering Cancer Center, New York City, NY, USA

Deborah Schrag

Abteilung für Genetik, Brigham and Women's Hospital und Harvard Medical School, Boston, MA, USA

Alexander Gusev

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

IM und AG konzipierten und gestalteten die Studie. IM kuratierte die Daten, entwickelte und bewertete das Modell und führte Analysen durch. JL und LS führten klinische Diagrammüberprüfungen durch. IM hat das erste Manuskript geschrieben. IM, JL und GS haben das Manuskript überarbeitet. Alle Autoren beteiligten sich an der Interpretation der Ergebnisse und der Durchsicht des Manuskripts.

Korrespondenz mit Alexander Gusev.

Die Autoren erklären keine Interessenkonflikte.

Nature Medicine dankt Lincoln Stein, Linda Mileshkin und E. Cuppen für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptredakteur: Lorenzo Righetto, in Zusammenarbeit mit dem Nature Medicine-Team.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Verwirrungsmatrizen auf dem durchgehaltenen Testsatz (n = 7.289) für (a) 22 detaillierte Krebsarten und (b) 13 Krebsgruppen (siehe Tabelle 1). (c),(d) OncoNPC-Leistung in Bezug auf Präzision und Erinnerung im Testsatz über (c) Krebsarten und (d) Krebsgruppen hinweg bei 4 verschiedenen Vorhersagekonfidenzen unter Verwendung von \({p}_{\max }\) als Schwellenwert . Jede Punktgröße wird anhand des Anteils der zurückgehaltenen Tumorproben skaliert. In (d) haben wir nur Krebsgruppen berücksichtigt, die mehr als eine Krebsart aufweisen. Die gesamten F1-Scores wurden entsprechend der Anzahl der bestätigten Fälle bei verschiedenen Krebsarten bzw. Krebsgruppen gewichtet.

(a), Zentrumsspezifische OncoNPC-Leistung (in F1) bei den Test-CKP-Tumorproben (n = 7.289). Die Abbildung ist eine Aufschlüsselung von Abb. 2c basierend auf dem Krebszentrum (DFCI: ⊙, MSK: ⊡, VICC: ◇). Die Leistung wurde bei 4 verschiedenen Vorhersagekonfidenzen (d. h. Mindestschwellenwerten \({p}_{\max }\)) bewertet. Jede Punktgröße wird anhand des Anteils der zurückgehaltenen Tumorproben skaliert. In der Ergänzungstabelle 3 finden Sie die zentrumsspezifische Anzahl der Test-CKP-Tumorproben, aufgeschlüsselt nach Krebsarten und Vorhersage-Konfidenzschwellen. (b), (c) Boxplots der Vorhersagekonfidenz (\({p}_{\max }\)) über (b) DFCI-CUP-Tumoren, MSK-CUP-Tumoren, alle DFCI-CKP-Tumoren (einschließlich solcher mit nicht modellierten Krebsarten). in OncoNPC), DFCI zurückgehaltene CKP-Tumoren und DFCI ausgeschlossene CKP-Tumoren (insbesondere solche mit Krebsarten, die nicht in OncoNPC modelliert wurden) und (c) DFCI zurückgehaltene CKP-Tumoren, MSK zurückgehaltene CKP-Tumoren und VICC zurückgehaltene aus CKP-Tumoren. Beachten Sie, dass sich die von DFCI ausgeschlossenen CKP-Tumoren auf die Kohorte der seltenen CKP-Tumoren beziehen, deren Krebsarten bei der Entwicklung von OncoNPC nicht berücksichtigt wurden. Alle Kohorten in der Analyse für (b) und (c) wurden von OncoNPC während des Modelltrainings nicht gesehen.

Die Abbildung zeigt die Aufschlüsselung der OncoNPC-Leistung im F1-Score nach 22 Krebsarten bei zunehmender Vorhersagesicherheit. Die Krebsarten auf der Y-Achse sind in absteigender Reihenfolge nach der Anzahl der Tumorproben sortiert. Um den Einfluss eingegebener genomischer Merkmale auf die Robustheit von OncoNPC zu untersuchen, führten wir eine Merkmalsablationsstudie durch, bei der wir die wichtigsten Gene anhand ihrer aggregierten SHAP-Werte auswählten und sie schrittweise aus allen 846 mit diesen Genen verbundenen Merkmalen reduzierten Alter und Geschlecht, nur für die oberen 10 % (d. h. die 29 wichtigsten Merkmale). In jeder Funktionskonfiguration haben wir das Modell mit demselben Satz von Hyperparametern neu trainiert und seine Leistung anhand der zurückgehaltenen CKP-Tumorproben (n = 7.289) bewertet, die in dieser Arbeit verwendet wurden. Supplementary Data 4 bietet eine Liste von Eingabemerkmalen, die den ausgewählten Genen in jeder Konfiguration entsprechen.

Der Patient ist ein 76-jähriger Mann mit einer Tumorbiopsie aus der Leber. Das Kreisdiagramm auf der linken Seite zeigt die zehn wichtigsten Merkmale in drei verschiedenen Merkmalskategorien (d. h. CNA-Ereignisse, somatische Mutation und Mutationssignaturen), und das Streudiagramm auf der rechten Seite zeigt deren SHAP-Werte und Merkmalswerte. Die Größe jedes Punkts wird durch den entsprechenden absoluten SHAP-Wert skaliert. Bei der Durchsicht der Krankenakte stellten wir fest, dass der Patient 60 Jahre lang geraucht hatte und als Kind in der Nähe einer Teer- und Chemiefabrik gelebt hatte. Trotz der CUP-Diagnose klassifizierte OncoNPC den primären Standort sicher als NSCLC mit einer posterioren Wahrscheinlichkeit von 0,98. SBS4, eine mit Tabakrauchen assoziierte Mutationssignatur, war in der Tumorprobe des Patienten deutlich angereichert, was bei weitem den größten Einfluss auf die Vorhersage hat, gefolgt von der SBS24-Mutationssignatur, die mit bekannten Aflatoxin-Expositionen verbunden ist, und der KRAS-Mutation.

(a), kolorektales Adenokarzinom (COADREAD), (b) diffuses Gliom (DIFG), (c) invasives Brustkarzinom (BRCA), (d) Melanom (MEL), (e) nicht-kleinzelliger Lungenkrebs (NSCLC), (f) Ovarialepitheltumor (OVT), (g) Prostataadenokarzinom (PRAD) und (h) Nierenzellkarzinom (RCC). Das Ausmaß der Anreicherung wird durch \(\hat{\varDelta }_{\mathrm{PRS}}\) quantifiziert: die mittlere Differenz zwischen dem konkordanten (d. h. mit OncoNPC übereinstimmenden) Krebstyp-PRS und dem Mittelwert der PRSs diskordanter Krebstypen (siehe Methoden). \(\hat{\varDelta }_{\mathrm{PRS}}\) wird für CKPs in Blau (als Referenz) und CUPs in Grün angezeigt.

Die Kästchen auf der linken Seite zeigen die Anzahl der verbleibenden Patienten in der Kohorte und relevante Analysen, während die Kästchen auf der rechten Seite die Ausschlusskriterien und die Anzahl der Patienten veranschaulichen, die daraufhin entfernt wurden.

a, BRCA, (b) Magen-Darm-Gruppe (GI) (CHOL, COADREAD, EGC und PAAD), (c) Lunge (NSCLC und PLMESO) und (d) andere OncoNPC-Krebsarten (BLCA, DIFG, GINET, HNSCC, MEL, OVT, PANET, PRAD, RCC und UCEC). In jeder Abbildung sind die übereinstimmende Behandlungsgruppe und die nicht übereinstimmende Behandlungsgruppe in Blau bzw. Rot dargestellt. Um jede Überlebenskurve abzuschätzen, verwendeten wir den inversen behandlungsgewichteten (IPTW) Kaplan-Meier-Schätzer unter Berücksichtigung von Patientenkovariaten und Linkskürzungen bis zum Zeitpunkt der Sequenzierung (siehe Methoden). Die statistische Signifikanz des Überlebensunterschieds zwischen den beiden Gruppen wurde durch einen gewichteten Log-Rank-Test geschätzt.

In ähnlicher Weise verwendeten wir für jede Überlebenskurve den inversen behandlungsgewichteten (IPTW) Kaplan-Meier-Schätzer, wobei wir bis zum Zeitpunkt der Sequenzierung die Kovariaten des Patienten und die linke Kürzung bereinigten (siehe Methoden). Die statistische Signifikanz des Überlebensunterschieds zwischen den beiden Gruppen wurde durch einen gewichteten Log-Rank-Test geschätzt. Demografische Informationen zur Kohorte finden Sie in der Ergänzungstabelle 2.

(a): Die Anzahl der CUP-Tumoren mit umsetzbaren Zielen, basierend auf OncoKB (Methoden), über umsetzbare somatische Varianten (Mutationen, Amplifikationen und Fusionen). Jeder Balken entspricht der Gesamtzahl der CUP-Tumoren, die jedem umsetzbaren Ziel zugeordnet sind. Die Balken sind nach vorhergesagten Krebsarten farblich gekennzeichnet. Beachten Sie, dass jeder Tumor mehr als eine umsetzbare somatische Variante enthalten kann. (b), Anteile der CUP-Tumorproben mit umsetzbaren somatischen Varianten (\({N}_{{action}}\)) zur Gesamtzahl der Patienten (\({N}_{{total}}\)) insgesamt OncoNPC sagte Krebsarten voraus. In jedem Balken werden Anteile für vier verschiedene Therapiestufen basierend auf OncoKB angezeigt: Stufe 1 – von der FDA zugelassene Arzneimittel, Stufe 2 – Standardmedikamente, Stufe 3 – Arzneimittel, die durch klinische Beweise belegt sind, und Stufe 4 – Arzneimittel, die durch biologische Nachweise belegt sind.

Ergänzende Anmerkungen 1–13, Ergänzende Abbildungen. 1–10 und Ergänzungstabellen 1–3.

OncoNPC-Eingabefunktionsgene, auf die in verschiedenen Panelversionen abzielt.

Ein vollständiger Satz an Funktionen, die in OncoNPC genutzt werden.

Aggregierte SHAP-Werte für OncoNPC-Funktionen.

Funktionen, die in verschiedenen Einstellungen der Ablationsstudie verwendet werden.

Patienteninformationen in der Kohorte der Behandlungskonkordanzanalyse.

Springer Nature oder sein Lizenzgeber (z. B. eine Gesellschaft oder ein anderer Partner) besitzen die ausschließlichen Rechte an diesem Artikel im Rahmen einer Veröffentlichungsvereinbarung mit dem Autor bzw. den Autoren oder anderen Rechteinhabern. Die Selbstarchivierung der akzeptierten Manuskriptversion dieses Artikels durch den Autor unterliegt ausschließlich den Bedingungen dieser Veröffentlichungsvereinbarung und geltendem Recht.

Nachdrucke und Genehmigungen

Moon, I., LoPiccolo, J., Baca, SC et al. Maschinelles Lernen zur genetischen Klassifizierung und Vorhersage des Behandlungsansprechens bei Krebserkrankungen mit unbekanntem Primärtumor. Nat Med (2023). https://doi.org/10.1038/s41591-023-02482-6

Zitat herunterladen

Eingegangen: 06. Januar 2023

Angenommen: 30. Juni 2023

Veröffentlicht: 07. August 2023

DOI: https://doi.org/10.1038/s41591-023-02482-6

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt