AutoScore
HeimHeim > Nachricht > AutoScore

AutoScore

Nov 21, 2023

BMC Medical Research Methodology Band 22, Artikelnummer: 286 (2022) Diesen Artikel zitieren

1439 Zugriffe

1 Zitate

1 Altmetrisch

Details zu den Metriken

Risikovorhersagemodelle sind nützliche Instrumente bei der klinischen Entscheidungsfindung, die bei der Risikostratifizierung und Ressourcenzuweisung helfen und zu einer besseren Gesundheitsversorgung der Patienten führen können. AutoScore ist ein auf maschinellem Lernen basierender automatischer klinischer Score-Generator für binäre Ergebnisse. Ziel dieser Studie ist es, das AutoScore-Framework zu erweitern, um ein Tool zur interpretierbaren Risikovorhersage für ordinale Ergebnisse bereitzustellen.

Das AutoScore-Ordinal-Framework wird unter Verwendung derselben 6 Module des ursprünglichen AutoScore-Algorithmus generiert, einschließlich Variablenranking, Variablentransformation, Punkteableitung (aus proportionalen Quotenmodellen), Modellauswahl, Punktefeinabstimmung und Modellbewertung. Um die Leistung von AutoScore-Ordinal zu veranschaulichen, wurde die Methode in den Jahren 2008 bis 2017 anhand elektronischer Patientenakten aus der Notaufnahme des Singapore General Hospital durchgeführt. Das Modell wurde auf 70 % der Daten trainiert, auf 10 % validiert und an den übrigen getestet 20 %.

Diese Studie umfasste 445.989 stationäre Fälle, bei denen die Verteilung des ordinalen Ergebnisses bei 80,7 % am Leben ohne 30-tägige Wiedereinweisung, bei 12,5 % am Leben mit 30-tägiger Wiedereinweisung und bei 6,8 % im stationären Zustand oder am 30. Tag nach der Entlassung verstarb. Zwei punktbasierte Risikovorhersagemodelle wurden unter Verwendung von zwei Sätzen von 8 Prädiktorvariablen entwickelt, die durch das flexible Variablenauswahlverfahren identifiziert wurden. Die beiden Modelle zeigten eine einigermaßen gute Leistung, gemessen anhand der mittleren Fläche unter der Betriebskennlinie des Empfängers (0,758 und 0,793) und des verallgemeinerten C-Index (0,737 und 0,760), die mit alternativen Modellen vergleichbar waren.

AutoScore-Ordinal bietet ein automatisiertes und benutzerfreundliches Framework für die Entwicklung und Validierung von Risikovorhersagemodellen für ordinale Ergebnisse, mit dem potenzielle Prädiktoren aus hochdimensionalen Daten systematisch identifiziert werden können.

Peer-Review-Berichte

Risikovorhersagemodelle sind mathematische Gleichungen, die Ärzten dabei helfen, die Wahrscheinlichkeit eines Gesundheitsergebnisses anhand der Patientendaten abzuschätzen. Zu solchen Modellen gehören Integer-Point-Scores, mit denen je nach klinischer Frage vorhergesagt werden kann, dass eine Krankheit vorliegt (Diagnosemodelle) oder ein bestimmtes Ergebnis eintritt (Prognosemodelle). Eine Kombination mehrerer Prädiktoren (unterschiedliche Gewichte für verschiedene Prädiktoren) wird in ein multivariables Modell einbezogen, um einen Risikoscore zu berechnen [1,2,3]. Einige Risikovorhersagemodelle wurden im klinischen Alltag verwendet, darunter der Framingham Risk Score [4], die Ottawa Ankle Rules [5], der Nottingham Prognostic Index [6], das Gail-Modell [7] und Euro-SCORE [8]. Early Warning Score (MEWS) [9, 10] und Simplified Acute Physiology Score [11].

Der Einsatz von Gesundheitsinformationstechnologie, insbesondere elektronischer Gesundheitsakten (EHR), hat im letzten Jahrzehnt zugenommen, was Möglichkeiten für die Big-Data-Forschung bietet. EHR-Daten umfassen detaillierte Patienteninformationen und klinische Ergebnisvariablen, die eine einzigartige Datenquelle für die Entwicklung von Risikomodellen sein können [12, 13]. Die Verfügbarkeit einer großen Anzahl von Variablen in EHR-Daten könnte eine mathematische Herausforderung darstellen, wenn herkömmliche Regressionsanalysen zum Aufbau eines Risikomodells verwendet werden. Als alternativer Ansatz wendet maschinelles Lernen (ML) mathematische Algorithmen an, um solche großen Datenmengen zu verarbeiten, was zu neuartigen Risikovorhersagemodellen führt. Herkömmliche Ansätze zur Variablenauswahl (z. B. Rückwärtseliminierung, Vorwärtsauswahl, schrittweise Auswahl unter Verwendung vorab festgelegter Stoppregeln) können im Kontext von EHR-Daten zu unterschiedlichen Teilmengen von Variablen führen, und in einigen klinischen Bereichen ist möglicherweise nicht immer klinisches Wissen verfügbar. Für das überwachte Lernen stehen leistungsstarke Techniken zur Merkmalsauswahl zur Verfügung, was ein sehr wichtiger Aspekt bei der Entwicklung von Risikomodellen bei der Arbeit mit EHR-Daten ist [13, 14].

AutoScore [15] ist ein benutzerfreundlicher, auf maschinellem Lernen basierender automatischer klinischer Score-Generator, der interpretierbare klinische Scoring-Modelle entwickelt. In einem empirischen Experiment mit EHR-Daten generierte AutoScore Scoring-Modelle, die eine vergleichbare Vorhersageleistung wie mehrere herkömmliche Methoden zur Entwicklung von Risikomodellen erzielten, jedoch weniger Variablen verwendeten [15]. Der Vorteil des AutoScore-Frameworks liegt in der Kombination aus effizienter Variablenauswahl mithilfe von ML-Techniken und der Zugänglichkeit und Interpretierbarkeit einfacher Regressionsmodelle. Es kann problemlos in verschiedenen klinischen Umgebungen eingesetzt werden und seine Anwendbarkeit wurde anhand einer großen Anzahl von Variablen (z. B. EHR-Daten) gezeigt [15]. Einige neuere Studien haben diesen Rahmen verwendet, um ein Risikovorhersagemodell in verschiedenen klinischen Bereichen zu entwickeln [16,17,18,19,20].

Die meisten Risikovorhersagemodelle in der Literatur wurden mithilfe multivariabler logistischer Regressionsmodelle oder ML-Techniken entwickelt, um ein binäres Ergebnis vorherzusagen. Neben dem AutoScore-Framework umfassen ML-Anwendungen die Verwendung von Naive Bayes (NB), ], Random Forest (RF), XGBoost, logistische Regression, SVM und K-NN für das Risiko einer diabetischen Retinopathie bei Patienten mit Typ-2-Diabetes mellitus [22], ein Modell zur Vorhersage des Schlaganfallrisikos unter Verwendung von NB-, Entscheidungsbaum- und RF-Modellen [ 23], ein XGBoost-basiertes Modell zur Vorhersage des Risikos eines Hirninfarkts [24] und ein entwickeltes Risikomodell für die 90-Tage-Mortalität von Patienten, die sich einer Magenkrebsresektion mit kurativer Absicht unterziehen, unter Verwendung einer kreuzvalidierten elastischen regulierten logistischen Regressionsmethode, die die lineare Regression verstärkt, RF und an Ensemblemodell [25].

Es gibt viele klinische ordinale Ergebnisvariablen, die der Einfachheit halber häufig dichotomisiert (günstig und ungünstig) oder auf ungeordnete Kategorien reduziert werden, z. B. in einer Querschnittsstudie zur Triage in der Notaufnahme (ED) [26] und einer retrospektiven Kohortenstudie zu Eierstockkrebs Patienten [27]. Dennoch darf nicht außer Acht gelassen werden, dass eine solche Neukategorisierung zu einem Verlust klinisch und statistisch relevanter Informationen führt, was auch bei Borderline-Patienten (Fälle, die problemlos in eine der beiden Ergebnisebenen eingeteilt werden können) zu Schwierigkeiten führen kann. Man sollte beachten, dass die Analyse ordinaler Variablen im Vergleich zu den entsprechenden neu kategorisierten binären Variablen eine größere statistische Aussagekraft aufweist. Dies wurde sowohl in Simulationen als auch in empirischen Studien in klinischen Studien veranschaulicht [28,29,30,31,32]. In der Literatur wird außerdem die Verwendung der Ergebnisse auf der Ordinalskala anstelle der Dichotomisierung empfohlen, da durch die Ordinalanalyse kleinere Behandlungseffekte erkennbar sind [29, 33, 34, 35].

In der Literatur werden ordinale Ergebnisvariablen in mehreren klinischen Bereichen diskutiert, wobei das Ziel entweder eine Assoziationserforschung oder Vorhersagen war. Eine große internationale Studie (mit 26 Krankenhäusern aus sechs Ländern) führte eine ordinale logistische Regression durch, um eine zusammengesetzte ordinale Ergebnisvariable zu untersuchen (definiert als 1 = lebendig, keine lange Aufenthaltsdauer [LOS], keine Rückübernahme; 2 = lebendig, lange LOS, nein). Wiedereinweisung; 3 = lebendig, keine lange LOS, Wiedereinweisung; 4 = lebendig, lange LOS, Wiedereinweisung; 5 = Tod) und die Korrelation zwischen verschiedenen Ebenen des zusammengesetzten ordinalen Ergebnisses auf Krankenhausebene wurde berichtet [36]. ML-Methoden unter Verwendung mehrerer Biomarker wurden durchgeführt, um in einer retrospektiven Kohortenstudie mit 435 Patientinnen einen Eierstockkrebs-spezifischen Vorhersagerahmen zu entwickeln, und zwar mit einem sekundären ordinalen Ergebnis der Resttumorgröße (definiert als: kein Resttumor, < 1 cm Resttumor, ≥ 1 cm). Resttumor) sowie die Vorhersagegenauigkeit und AUC wurden diskutiert [27]. Statistische und ML-Methoden wurden in der Literatur für ordinale Ergebnisse verwendet, z. B. das Proportional-Odds-Modell (POM) bei der Diagnose einer Mittelohrfunktionsstörung bei Säuglingen [37] und in einer Studie zu Erkrankungen der Herzkranzgefäße [38] die ordinale RF im oben genannten Eierstock Krebsstudie [27], mehrschichtiges Perzeptron mit ordinalem Verlust in einer Studie über 9 Sub-Reddits im Zusammenhang mit psychischer Gesundheit und Suizid [39] und 3D-konvulotionales neuronales Netzwerkmodell mit ordinaler binärer Zerlegung bei Parkinson-Patienten [40]. Allerdings mangelt es bei diesen ML-Ansätzen an Interpretierbarkeit (man kann die Ausgabe eines solchen Komplexes und seine Funktionsweise möglicherweise nicht leicht verstehen, was im Gesundheitsbereich nicht empfohlen wird [41]) und Zugänglichkeit, während das transparente POM nicht so ist lässt sich leicht als interpretierbares Risikobewertungssystem in der Klinik für die Entscheidungsfindung in Echtzeit verwenden.

Es mangelt an Literatur zur Modellentwicklung mithilfe der Ordinalanalyse, die problemlos auf klinische Studien angewendet werden kann, die sich mit komplexen Daten befassen (z. B. EHR). Das Hauptziel dieser Studie bestand darin, das ursprüngliche AutoScore-Framework zu erweitern, um ein Tool zur einfachen Entwicklung und Validierung von Risikovorhersagemodellen für ordinale Ergebnisse bereitzustellen. Daher besteht der Hauptbeitrag der aktuellen Studie nicht nur in der Einbeziehung der Ordinalblöcke, sondern auch in einigen Modifikationen des ursprünglichen AutoScore-Frameworks, die zu neuen methodischen Arbeiten und überarbeiteten Modellleistungsmessungen führen, die für Ordinalergebnisse geeignet sind. Zur Veranschaulichung wurde ein Risikovorhersagemodell unter Verwendung von EHR-Daten aus der Notaufnahme (als reale Daten) entwickelt und validiert, wobei das ordinale Ergebnis drei Kategorien umfasste (lebend ohne Rückübernahme ins Krankenhaus innerhalb von 30 Tagen nach der Entlassung, überlebt mit Rückübernahme). innerhalb von 30 Tagen nach der Entlassung und tot stationär oder innerhalb von 30 Tagen nach der Entlassung).

In diesem Abschnitt beschreiben wir die 6 Module, die das vorgeschlagene AutoScore-Ordinal-Framework bilden. In Modul 1 (siehe Abb. 1) werden die Daten zunächst in einen Trainingssatz zum Trainieren von Vorhersagemodellen, einen Validierungssatz zur Auswahl von Hyperparametern (z. B. Anzahl der Variablen, Grenzwerte zur Kategorisierung kontinuierlicher Variablen) und a Testsatz zur Bewertung der endgültig ausgewählten Modelle. Die drei Datensätze enthalten typischerweise 70 %, 10 % bzw. 20 % des gesamten Datensatzes. Variablen werden basierend auf ihrer Bedeutung für eine RF [42] für die Mehrklassenklassifizierung (d. h. ohne Berücksichtigung der Reihenfolge der Kategorien) eingestuft und auf dem Trainingssatz mit einer Standardanzahl von 100 Bäumen trainiert.

Visuelle Darstellung des AutoScore-Ordinal-Workflows. Blaue Farbhervorhebungsmodule, modifiziert vom ursprünglichen AutoScore-Framework [15]

Um die Interpretation zu vereinfachen und mögliche nichtlineare Beziehungen zwischen den Prädiktorvariablen und dem Ergebnis zu berücksichtigen, werden alle kontinuierlichen Variablen in Modul 2 kategorisiert (siehe Abb. 1). Um diesen Prozess zu automatisieren, kategorisiert AutoScore-Ordinal jede kontinuierliche Variable anhand des 5., 20., 80. und 95. Perzentils (basierend auf dem Trainingssatz) als Grenzwerte, einige Grenzwerte können jedoch auch gelten entfernt, um Probleme mit der Sparsität zu vermeiden, wenn die Verteilung einer Variablen stark verzerrt ist. Diese (etwas willkürlichen) Grenzwerte bieten eine sinnvolle Anfangskonfiguration für die spätere Partiturentwicklung und können von Benutzern in Modul 5 feinabgestimmt werden (siehe Details unten).

In Modul 3 (siehe Abb. 1) werden den Variablen zugeordnete Gewichtungen unter Verwendung des kumulativen Link-Modells [43] mit dem Logit-Link, auch bekannt als Proportional-Odds-Modell (POM) [43, 44], entwickelt, das eines davon ist Das am weitesten verbreitete Regressionsmodell in Studien zu ordinalen Ergebnissen wurde in Deep-Learning-Ansätze integriert, um komplexe (z. B. Bild-)Daten zu verarbeiten [45]. Der Skalar Y bezeichne das ordinale Ergebnis mit J Kategorien (gekennzeichnet durch die ganzen Zahlen 1, …, J) und der Spaltenvektor x bezeichne die Variablen (wobei kontinuierliche Variablen in Modul 2 leicht kategorisiert werden). Das POM geht von einem linearen Modell für den Logit der kumulativen Wahrscheinlichkeiten aus, die der j-ten Ordinalkategorie zugeordnet sind, d. h. pj = P(Y ≤ j), j = 1, …, J − 1:

Die Skalarterme θj sind kategoriespezifische Intercept-Terme, wobei θ1 < θ2 < … < θJ − 1, um sicherzustellen, dass pj < pk für jedes j < k. β ist der Vektor der Regressionskoeffizienten, die den Prädiktoren entsprechen. Das negative Vorzeichen vor β ergibt sich aus der von McCullagh [43, 44] verwendeten Notation, sodass ein positiver Wert von β eine positive Assoziation zwischen x und Y anzeigt, d. h. eine Erhöhung von x führt zu einer erhöhten Wahrscheinlichkeit, eine höhere Kategorie zu beobachten in Y. Daher ist ein Anstieg von xTβ immer mit einer erhöhten Wahrscheinlichkeit für die Beobachtung höherer Ergebniskategorien verbunden, sodass wir Vorhersagewerte basierend auf xTβ erstellen können. Ein weiterer allgemeiner Ansatz zur Handhabung ordinaler Ergebnisse ist die ordinale Binärzerlegung, die jedoch ordinale Ergebnisse als mehrere binäre Bezeichnungen in separaten Modellen modelliert [46], was es schwierig macht, einen gemeinsamen Wert für das Risiko abzuleiten, in jede ordinale Kategorie zu fallen.

Eine einfache Skalierung und Rundung trainierter β-Werte kann zu einem Bewertungsmodell führen, das negative und positive Werte mit verwirrender Interpretation umfasst, z. B. kann die willkürliche Nullpunktzahl als „kein Risiko“ fehlinterpretiert werden. Daher wird das POM neu angepasst, nachdem die Referenzkategorien in jeder Variablen neu definiert wurden, sodass alle Elemente in β positiv sind und β in Bezug auf den Mindestwert von β normalisiert wird. Da alle kontinuierlichen Variablen in Modul 2 problemlos kategorisiert werden können, können diese normalisierten Koeffizienten als Bewertungen interpretiert werden, die einer Kategorie einer Variablen zugeordnet sind und als Teilbewertungen bezeichnet werden. Die Teilwerte (die für Referenzkategorien 0 und ansonsten 1 oder größer sind) werden auf positive ganze Zahlen gerundet, um die Berechnung der endgültigen Vorhersagewerte zu vereinfachen, bei denen es sich um die Summe aller Teilwerte handelt, die den Variablenwerten für eine Person entsprechen. Um die Interpretation zu erleichtern, werden häufig alle Teilbewertungen neu skaliert (und dann gerundet), sodass die maximal erreichbare Gesamtbewertung einen aussagekräftigen Wert ergibt (z. B. 100).

Um die Leistung des endgültigen Modells zu bewerten, wird die Vorhersage des Ergebnisses Y mit J Kategorien in J − 1 binäre Klassifizierungen von Y ≤ j vs. Y > j und die mittlere Fläche unter der Receiver Operating Characteristic Curve (AUC) über diese binären Klassifizierungen unterteilt Klassifizierungen (im Folgenden als mAUC bezeichnet) werden verwendet, um die Gesamtleistung für die Vorhersage von Y zu bewerten, was dem durchschnittlichen dichotomisierten C-Index für die Bewertung ordinaler Vorhersagen entspricht [47, 48]. In Modul 4 wird ein Bewertungsmodell erweitert, indem jeweils eine Variable hinzugefügt wird (basierend auf der Variablenrangfolge aus Modul 1), bis alle Kandidatenvariablen enthalten sind, und die Verbesserung des mAUC (bewertet anhand des Validierungssatzes) mit zunehmender Anzahl von Variablen wird anhand des Parsimony-Plots untersucht. Die endgültige Variablenliste wird häufig ausgewählt, wenn der Nutzen des Hinzufügens einer Variablen gering ist, wobei ein solcher geringer Nutzen durch visuelle Inspektion (durch Betrachtung des Sparsamkeitsdiagramms) und klinisches Wissen (und manuelles Löschen/Einschließen von Variablen) beurteilt werden könnte. Als nächstes können die in Modul 4 ausgewählten Grenzwerte für kontinuierliche Variablen für eine vorteilhafte Interpretation in Modul 5 verfeinert werden, z. B. durch die Verwendung von 10-Jahres-Altersgruppen anstelle der willkürlich definierten quantilbasierten Intervalle. Das endgültige Modell wird anhand des Testsatzes in Modul 6 unter Verwendung des mAUC und des verallgemeinerten C-Index von Harrell [47, 49, 50] bewertet, der auf dem Anteil konkordanter Paare basiert (d. h. wenn Vorhersagen und beobachtete Ergebnisse die gleiche Rangfolge erzeugen). für das Beobachtungspaar, einschließlich gleicher Ränge) unter allen möglichen Beobachtungspaaren. Sowohl für mAUC als auch für den generalisierten C-Index weist ein Wert von 0,5 auf eine zufällige Leistung hin und ein Wert von 1 auf eine perfekte Vorhersageleistung. Der mAUC und der generalisierte C-Index aus dem Testsatz werden mit dem voreingenommenen 95 % Bootstrap-Konfidenzintervall (CI) angegeben [51].

Um unser vorgeschlagenes AutoScore-Ordinal-Framework zu demonstrieren und zu validieren, haben wir es in einer klinischen Studie in Übereinstimmung mit der Checkliste zur Bewertung medizinischer KI angewendet [52]. Wir verwendeten AutoScore-Ordinal, um Wiederaufnahme und Tod (zusammengesetztes Ergebnis) nach stationärer Entlassung vorherzusagen. Dabei verwendeten wir Daten von Patienten, die in den Jahren 2008 bis 2017 die Notaufnahme (ED) des Singapore General Hospital besuchten und anschließend ins Krankenhaus eingeliefert wurden [53, 54]. Die gesamte Kohorte umfasste Daten zu 449.593 ED-Präsentationsfällen. Informationen zu Patientendaten, ED-Verwaltung, stationärer Aufnahme, klinischen Tests und Vitalfunktionen in ED, Krankengeschichte und Komorbiditäten wurden aus dem elektronischen Gesundheitsaktensystem des Krankenhauses extrahiert [16]. Wir haben Patienten unter 18 Jahren ausgeschlossen, was zu einer endgültigen Stichprobe von 445.989 stationären Fällen führte.

Wir haben ein zusammengesetztes ordinales Ergebnis mit drei Kategorien erstellt: am Leben ohne Rückübernahme ins Krankenhaus innerhalb von 30 Tagen nach der Entlassung, am Leben mit Rückübernahme innerhalb von 30 Tagen nach der Entlassung, stationär gestorben oder innerhalb von 30 Tagen nach der Entlassung. Unter den 445.989 Fällen befanden sich 359.961 (80,7 %) in der ersten Ergebniskategorie (d. h. am Leben ohne 30-tägige Rückübernahme), 55.552 (12,5 %) in der zweiten Kategorie (d. h. am Leben mit 30-tägiger Wiedereinweisung) und 30.476 (6,8 %) gehörten zur dritten Kategorie (d. h. sie starben stationär oder am 30. Tag nach der Entlassung).

Wir haben den Datensatz (nach Ergebniskategorien geschichtet) nach dem Zufallsprinzip in einen Trainingssatz von 70 % (n = 312.193) Fällen aufgeteilt, um Modelle zu trainieren, und einen Validierungssatz von 10 % (n = 44.599) Fällen, um die notwendige Feinabstimmung des Modells für AutoScore durchzuführen. Ordinalzahl und ein Testsatz von 20 % (n = 89.197) Fällen, um die Leistung der endgültigen Vorhersagemodelle zu bewerten. Für jeden Fall haben wir die Aufenthaltsdauer (LOS) der vorherigen stationären Aufnahme extrahiert (fehlende Werte wurden als 0 Tage behandelt). Fehlende Werte für Vitalfunktionen oder klinische Tests wurden anhand des Medianwerts im Validierungssatz unterstellt.

Wir haben das mit AutoScore-Ordinal erstellte Vorhersagemodell mit RF (mit 100 Bäumen) und POM mit LASSO oder schrittweisen Variablenauswahltechniken verglichen. Für jedes Modell haben wir das 95 %-KI für mAUC und den verallgemeinerten C-Index aus Bootstrap-Proben des Testsatzes berechnet (die Anzahl der Bootstrap-Proben wurde für Demozwecke mit 100 ausgewählt und kann im AutoScore-Algorithmus geändert werden). Der verallgemeinerte C-Index wurde basierend auf der Gesamtpunktzahl für mit AutoScore generierte Modelle, dem linearen Prädiktor ohne Intercept-Terme für POM und den vorhergesagten Ergebniskategorien für RF berechnet.

Alle Analysen wurden in R Version 4.0.5 implementiert [55]. Unser vorgeschlagenes AutoScore-Ordinal ist als R-Paket implementiert und verfügbar unter https://github.com/nliulab/AutoScore-Ordinal. POM wurde mithilfe der clm-Funktion aus dem Paket ordinal [56] implementiert. Die Funktion „stepAIC“ aus dem Paket MASS [57] wurde verwendet, um eine schrittweise Variablenauswahl für POM durchzuführen, und die Funktion „ordinalNet“ aus dem Paket „ordinalNet“ [58] wurde zur Implementierung des LASSO-Ansatzes verwendet. Der RF wurde mit der Funktion randomForest aus dem Paket randomForest [59] implementiert. Das voreingenommene Bootstrap-CI wurde mithilfe der BCA-Funktion aus dem Paket coxed [60] implementiert. Der verallgemeinerte C-Index wurde mit der Funktion rcorrcens aus dem Paket Hmisc [61] implementiert.

Die Merkmale der gesamten Kohorte sind in Tabelle 1 zusammengefasst. Fälle in den drei Ergebniskategorien zeigten statistische Unterschiede in allen Variablen, daher ist es nicht trivial, ein auf POM basierendes spärliches Vorhersagemodell zu entwickeln.

Das Sparsamkeitsdiagramm (siehe Abb. 2) legt ein vernünftiges Modell der ersten 8 Variablen nahe: ED LOS, Kreatinin, ED-Boarding-Zeit, Anzahl der Besuche im Vorjahr, Alter, systolischer Blutdruck (SBP), Bikarbonat und Puls erreichte einen mAUC, der nur 7,9 % niedriger ist als der des Bewertungsmodells, das alle 41 Variablen verwendet. Wir bezeichnen dieses Modell als Modell 1. Bei der Verwendung des Sparsamkeitsdiagramms zur Auswahl von Variablen sind Forscher nicht darauf beschränkt, Variablen nacheinander in absteigender Reihenfolge ihrer Wichtigkeit auszuwählen. Beispielsweise haben wir ein alternatives Modell (d. h. Modell 2) mit 8 Variablen erstellt, wobei wir die dritte Variable (d. h. die Einsteigezeit in die Notaufnahme) aus Modell 1 ausgeschlossen haben, die nur geringe Auswirkungen auf die mAUC hatte, und die 14. Variable (d. h. den Verlauf) hinzugefügt haben von metastasiertem Krebs in den letzten 5 Jahren, der leicht durch Befragung des Patienten oder der Begleitperson/Familie/Verwandten erhoben werden kann), der den mAUC um etwa 4 % erhöhte, als er in das Vorhersagemodell aufgenommen wurde.

Sparsamkeitsdiagramm anhand der mittleren Fläche unter der Kurve (mAUC) im Validierungssatz

Alle in den beiden Modellen ausgewählten Variablen waren kontinuierlich und wir haben ihre Grenzwerte im Kategorisierungsschritt verfeinert, um die Interpretierbarkeit zu verbessern. Die Bewertungstabellen nach der Feinabstimmung sind für beide Modelle in Tabelle 2 aufgeführt, und die Leistung der resultierenden Vorhersagemodelle (ausgewertet am Testsatz) ist in Tabelle 3 angegeben. Modell 1 hatte einen mAUC von 0,758 (95 %-KI: 0,754). –0,762) und durch Ausschluss der Notaufnahmezeit und Hinzufügung von metastasiertem Krebs verbesserte sich der mAUC von Modell 2 auf 0,793 (95 %-KI: 0,789–0,796).

Der von AutoScore generierte Score (aus den Modellen 1 und 2) kann basierend auf den beobachteten Anteilen im Trainingssatz der Wahrscheinlichkeit zugeordnet werden, in verschiedene Ergebniskategorien zu fallen. Beispielsweise veranschaulichen wir die Verwendung von Modell 2 zur Risikovorhersage für einen hypothetischen neuen Patienten in Abb. 3. Mit den Werten der 8 Variablen, die für diesen neuen Patienten gemessen wurden, können Ärzte einfach relevante Zeilen in der Bewertungstabelle überprüfen und die Teilbewertungen summieren zu einem Gesamtscore für diesen Patienten und lesen Sie die entsprechenden vorhergesagten Wahrscheinlichkeiten für die drei Ergebniskategorien in der Nachschlagetabelle ab. Solche vorhergesagten Wahrscheinlichkeiten können auch aus POM mit einem Taschenrechner berechnet oder von RF mit bestimmten Softwarebefehlen zurückgegeben werden, aber die checklistenartige Bewertungstabelle der mit AutoScore generierten Modelle und die begleitenden Nachschlagetabellen der vorhergesagten Wahrscheinlichkeiten sind in der klinischen Praxis viel einfacher zu verwenden .

Bewertungs- und Nachschlagetabellen für das mit AutoScore generierte Modell 2, wobei ihre Verwendung für einen hypothetischen neuen Patienten veranschaulicht wird

Wir bewerten die Kalibrierungsleistung der Modelle 1 und 2, die in Abb. 4 visuell dargestellt ist. Konkret gruppierten wir die Probanden anhand der in der Nachschlagetabelle in Abb. 3 definierten Bewertungsintervalle und zeichneten das beobachtete Risiko auf, in jede Ergebniskategorie zu fallen Testsatz gegen das vorhergesagte Risiko (basierend auf den Nachschlagetabellen). Beide Modelle 1 und 2 erzeugten ein vorhergesagtes Risiko, das den beobachteten Werten ähnelte, was durch Punkte nahe der diagonalen Linie angezeigt wird. Eine Erhöhung der Punktzahlen (visuell durch eine hellere Farbe in Abb. 4 angezeigt) spiegelt im Allgemeinen eine erhöhte Wahrscheinlichkeit wider, im Ergebnis einer höheren Kategorie zugeordnet zu werden, während Modell 2 im Vergleich zu Modell 1 eine bessere Fähigkeit aufweist, verschiedene Ergebniskategorien bei unterschiedlichen vorhergesagten Punktzahlen zu unterscheiden (angezeigt durch eine breitere Verteilung der Punkte entlang der diagonalen Linie).

Kalibrierungsleistung für (A) Modell 1 und (B) Modell 2

Mit AutoScore generierte Vorhersagemodelle hatten einen vergleichbaren mAUC wie das POM, das dieselben Variablen verwendete (siehe Tabelle 3, wobei POM1 und POM2 den Modellen 1 bzw. 2 entsprechen). Der RF, der die gleichen Variablen wie Modell 1 verwendet (siehe RF1 in Tabelle 3), hatte einen höheren mAUC als Modell 1, aber im Vergleich zu Modell 2 ist der Vorteil des entsprechenden RF (siehe RF2 in Tabelle 3) in Bezug auf den mAUC weniger ausgeprägt . Mit AutoScore generierte Modelle hatten einen etwas höheren generalisierten C-Index als die entsprechenden POMs und beide waren höher als die entsprechenden RFs. Insbesondere war der verallgemeinerte C-Index von RFs viel niedriger als der der entsprechenden AutoScore-generierten Modelle oder POMs, da bei der Bewertung der Leistung von RF vorhergesagte Bezeichnungen anstelle von numerischen Bewertungen verwendet wurden.

Bei der Verwendung herkömmlicher Modellerstellungsmethoden zum Erstellen von POM mit geringer Dichte funktionierte der schrittweise Algorithmus mit AIC nicht, wenn er mit dem Nullmodell begann (d. h. ohne Variable), und wählte schließlich 35 Variablen aus, wenn er mit dem vollständigen Modell begann (d. h. einschließlich aller 41). Variablen). Obwohl dieses POM mit 35 Modellen einen hohen mAUC und einen verallgemeinerten c-Index aufwies (siehe POM (stufenweise) in Tabelle 3), ist es in der Praxis schwierig zu verwenden. Der LASSO-Ansatz wählte 10 Variablen aus (d. h. ED LOS, Geschlecht, ED-Triage-Code, Gesamtzahl der Intensivaufenthalte im vergangenen Jahr, Aufnahmeart, SpO2, SBP, Bikarbonat, Natrium und Diabetes mit Komplikationen), die eine viel geringere Leistung als andere aufwiesen Modelle (siehe POM (LASSO) in Tabelle 3).

In dieser Studie wurde ein Bewertungssystem unter Verwendung des AutoScore-Frameworks für ordinale Ergebnisse entwickelt. Der Algorithmus wurde auf eine Fallstudie angewendet, um das Risikovorhersagemodell und seine Anwendung auf EHR-Daten aus der Notaufnahme zu diskutieren, wobei das ordinale Ergebnis drei Kategorien umfasst (lebend ohne Rückübernahme ins Krankenhaus innerhalb von 30 Tagen nach der Entlassung, überlebt mit Rückübernahme innerhalb von 30 Tagen). nach der Entlassung und tot stationär oder innerhalb von 30 Tagen nach der Entlassung). Das Modell wurde unter Verwendung von 70 % der Daten (n = 312.193) entwickelt; validiert anhand einer Teilmenge von 10 % der Daten (n = 44.599), um die notwendige Feinabstimmung des Modells durchzuführen; und an einem Satz von 20 % (n = 89.197) getestet. Die Leistung des AutoScore-Ordinal-Modells wurde anhand von 100 Bootstrap-Proben über mAUC und generalisiertem C-Index mit den alternativen Modellen einschließlich POM und RF verglichen. Der AutoScore-Ordinal identifizierte zwei praktikable Bewertungsmodelle mit 8 Variablen, und beide hatten eine etwas bessere Leistung als POM und RF, die dieselben Variablen verwenden. Die Neuheit des AutoScore-Ordinal-Modells sind seine benutzerfreundlichen und auf maschinellem Lernen basierenden automatischen klinischen Score-Generatorfunktionen, die interpretierbare klinische Scoring-Modelle entwickeln und nützliche Werkzeuge für die klinische Entscheidungsfindung in verschiedenen Phasen des klinischen Verlaufs sein können.

Vorhersagemodelle im klinischen Umfeld sind nützliche Instrumente, um die klinische Entscheidungsfindung in verschiedenen Phasen der klinischen Praxis zu unterstützen [62, 63]. Um Vorhersagemodelle zu entwerfen, durchzuführen und zu erstellen, werden grundlegende Konzepte einschließlich der Entwicklung, Validierung und Aktualisierung von Risikovorhersagemodellen in der TRIPOD-Erklärung (Transparent Reporting of a multivariable Prediction Model for Individual Prognosis Or Diagnosis) [64] erörtert. Neue Risikomodelle sollten immer validiert werden, um die Vorhersagefähigkeit des Modells (z. B. Kalibrierung und Diskriminierung) zu quantifizieren, was durch interne (Bootstrapping, Kreuzvalidierung usw.) oder externe (z. B. unabhängige Kohorte) Validierung angegangen werden könnte [64].

Den meisten in der Literatur entwickelten Modellen mangelt es bei der Verwendung maschineller Lerntechniken an Interpretierbarkeit und Zugänglichkeit [26, 27, 39]. Im Gegensatz dazu kann der AutoScore-Ordinal über ein punktbasiertes Risikovorhersagemodell problemlos in verschiedenen klinischen Umgebungen implementiert werden und schließt eine Lücke in der Interpretierbarkeit, wenn es um ordinale Ergebnisse geht. Die Vorteile des ursprünglichen AutoScore-Frameworks [15] gelten auch für das AutoScore-Ordinal-Framework. AutoScore-Ordinal baut auf dem POM auf, das sich zur Analyse ordinaler Ergebnisse eignet und in der klinischen und epidemiologischen Forschung weit verbreitet ist. Im Vergleich zur herkömmlichen Verwendung von POM nutzt AutoScore-Ordinal Methoden des maschinellen Lernens, um dünn besetzte Vorhersagemodelle mit guter Vorhersageleistung zu erstellen, während herkömmliche Ansätze wie die schrittweise Variablenauswahl und LASSO möglicherweise nicht gut funktionieren. AutoScore-Ordinal erstellt ein Bewertungsmodell im Checklistenstil, das sich leicht in klinische Umgebungen implementieren lässt. In der klinischen Forschung werden quantitative Daten aus verschiedenen Gründen wie Schiefe oder multimodaler Verteilung manchmal als ordinale Variablen kategorisiert. In solchen Szenarien ist die Dichotomisierung möglicherweise nicht ideal und könnte zum Verlust klinisch und statistisch relevanter Informationen führen. Man kann das AutoScore-Ordinal-Framework nutzen, um mit solchen ordinalen Ergebnisvariablen umzugehen.

AutoScore-Ordinal bietet ein effizientes, unkompliziertes und flexibles Variablenauswahlverfahren auf der Grundlage des Sparsamkeitsdiagramms, das die Verbesserung der Modellleistung bei einer wachsenden Anzahl von Variablen im Modell visuell darstellt. Forscher können intuitiv die wenigen Variablen auswählen, die einer zufriedenstellenden Modellleistung entsprechen, und die Einbeziehung einer zusätzlichen Variablen führt zu einer kleinen Verbesserung (z. B. < 1 %), was in unserem Beispiel zu Modell 1 führte. Darüber hinaus ermöglicht AutoScore-Ordinal Forschern, manuell Variablen zu den endgültigen Variablen hinzuzufügen oder daraus zu entfernen, basierend auf ihrem Beitrag zur Modellleistung (z. B. wie in Modell 2 dargestellt) oder praktischen Implikationen. Während die aktuelle AutoScore-Ordinal-Implementierung das in klinischen Anwendungen weit verbreitete POM (oder allgemeiner das kumulative Linkmodell mit dem Logit-Link) verwendet, kann es mit anderen Linkfunktionen (z. B. Probit, komplementäres Log-Log) verwendet werden Kleinere Änderungen für mögliche Verbesserungen der Modellanpassung. Forscher möchten möglicherweise mehrere Parsimony-Diagramme zeichnen, um eine Verknüpfungsfunktion auszuwählen, die am besten zu den Daten passt, wenn sie Variablen bestimmen, die in das endgültige Modell einbezogen werden sollen.

In unserem Datenbeispiel haben wir RF mit 100 Bäumen trainiert, als wir Variablen in Modul 1 von AutoScore-Ordinal einordneten und es als Vorhersagemodell verwendeten. Forscher möchten möglicherweise die Anzahl der Bäume erhöhen, um die Leistung in allgemeinen Anwendungen zu verbessern. Beispielsweise sind 500 Bäume eine häufige Wahl [65]. Aufgrund der großen Stichprobengröße unserer Fallstudie fehlt uns beim Training einer RF mit 500 Bäumen der Speicher, und eine RF mit 200 Bäumen lieferte vergleichbare Ergebnisse beim Ranking von Variablen und der Vorhersage ordinaler Ergebnisse.

Wie der Name schon sagt, geht POM von proportionalen Quoten aus, d. h. die Auswirkung jeder Variablen auf das Ergebnis ist in allen Ergebniskategorien gleich. In univariablen POM-Analysen des Trainingssatzes (ohne Kategorisierung kontinuierlicher Variablen) wurde die Annahme der proportionalen Quoten für alle Variablen abgelehnt (mit einem Signifikanzniveau von 5 %). Zukünftige Studien sollten untersuchen, wie diese Annahme bei Bedarf gelockert werden kann, ohne die Interpretation des resultierenden Bewertungsmodells erheblich zu erschweren. Trotzdem funktionierten die beiden mit AutoScore-Ordinal erstellten Vorhersagemodelle einigermaßen gut. Für die Leistungsbewertung haben wir zwei Metriken berücksichtigt (d. h. mAUC und generalisierter C-Index), die eine einfache Interpretation und eine ähnliche Definition haben wie Metriken für Binär- und Überlebensvorhersagen (47, 48, 50). Zukünftige Arbeiten könnten andere Leistungsmetriken berücksichtigen, z. B. das Volumen unter der charakteristischen Betriebsoberfläche des Empfängers (allgemeiner das Hypervolumen unter der Mannigfaltigkeit) [66] und den ordinalen C-Index [47] für die ordinale Vorhersage oder den M-Index [67]. und polytomer Diskriminierungsindex [68, 69] für Mehrklassenergebnisse ohne explizite Berücksichtigung der Reihenfolge der Kategorien.

Unser Datenbeispiel soll die Verwendung unseres vorgeschlagenen AutoScore-Ordinal-Frameworks veranschaulichen. Die Vorhersageleistung kann verbessert werden, z. B. obwohl Modell 2 eine bessere Leistung als Modell 1 hatte, wird es höchstwahrscheinlich keinen neuen Fall in Kategorie 2 vorhersagen können, da diese Kategorie von den anderen beiden Kategorien dominiert wird (siehe Nachschlagetabelle in Abb. 3). Der AutoScore-Ordinalwert sollte in anderen klinischen Bereichen mit unterschiedlichen Stichprobengrößen und einer unterschiedlichen Anzahl von Variablen angewendet werden, um die externe Validität festzustellen. Weitere Untersuchungen sind erforderlich, um die Leistung zu verbessern, bevor die von AutoScore-Ordinal abgeleiteten Bewertungsmodelle in klinischen Umgebungen angewendet werden, z. B. die Einbeziehung zusätzlicher relevanter Variablen, die alternative Imputation fehlender Werte und die Kreuzvalidierungsfunktion innerhalb des Pakets. Eine weitere zukünftige Forschungsrichtung, wie in der Literatur zu sehen ist [70,71,72,73], besteht darin, das AutoScore-Ordinal-Paket als mobile Anwendung zu integrieren, wo es für die Kliniker leicht zugänglich sein könnte. Nichtsdestotrotz bietet AutoScore-Ordinal ein leistungsstarkes, flexibles und benutzerfreundliches Framework für die Entwicklung interpretierbarer Bewertungsmodelle für ordinale klinische Ergebnisse.

AutoScore-Ordinal wurde als Risikovorhersagemodell für ordinale Ergebnisvariablen entwickelt. Zur Veranschaulichung wurde das Rahmenwerk mithilfe von EHR-Daten aus der Notaufnahme implementiert und validiert, wobei das ordinale Ergebnis drei Kategorien umfasste (lebend ohne Rückübernahme ins Krankenhaus innerhalb von 30 Tagen nach der Entlassung, überlebt mit Rückübernahme innerhalb von 30 Tagen nach der Entlassung und tot im Krankenhaus oder stationär). innerhalb von 30 Tagen nach der Entlassung). Es wurde ein effizientes und flexibles Variablenauswahlverfahren erläutert und das Modell wies im Vergleich zu den Alternativmodellen eine vergleichbare Anpassungsgüte auf. Das vom AutoScore-Ordinal generierte punktbasierte Risikovorhersagemodell lässt sich leicht in verschiedenen klinischen Umgebungen implementieren und interpretieren.

Die Datensätze dieser Studie sind nicht öffentlich verfügbar, können aber auf begründete Anfrage beim jeweiligen Autor angefordert werden.

Moons KGM, Royston P, Vergouwe Y, Grobbee DE, Altman DG. Prognose und Prognoseforschung: Was, warum und wie? BMJ. 2009;338:b375.

Artikel PubMed Google Scholar

Steyerberg EW. Klinische Vorhersagemodelle: ein praktischer Ansatz zur Entwicklung, Validierung und Aktualisierung. New York: Springer; 2009.

Buchen Sie Google Scholar

Wasson JH, Sox HC, Neff RK, Goldman L. Klinische Vorhersageregeln – Anwendungen und methodische Standards. N Engl J Med. 1985;313(13):793–9.

Artikel CAS PubMed Google Scholar

Anderson KM, Odell PM, Wilson PW, Kannel WB. Risikoprofile für Herz-Kreislauf-Erkrankungen. Am Heart J. 1991;121(1 Pt 2):293–8.

Artikel CAS PubMed Google Scholar

Stiell IG, Greenberg GH, McKnight RD, Nair RC, McDowell I, Worthington JR. Eine Studie zur Entwicklung klinischer Entscheidungsregeln für den Einsatz der Radiographie bei akuten Knöchelverletzungen. Ann Emerg Med. 1992;21(4):384–90.

Artikel CAS PubMed Google Scholar

Haybittle JL, Blamey RW, Elston CW, Johnson J, Doyle PJ, Campbell FC, et al. Ein prognostischer Index bei primärem Brustkrebs. Br J Krebs. 1982;45(3):361–6.

Artikel CAS PubMed PubMed Central Google Scholar

Gail MH, Brinton LA, Byar DP, Corle DK, Green SB, Schairer C, et al. Projizieren individueller Wahrscheinlichkeiten, an Brustkrebs zu erkranken, für weiße Frauen, die jährlich untersucht werden. J Natl Cancer Inst. 1989;81(24):1879–86.

Artikel CAS PubMed Google Scholar

Nashef SA, Roques F, Michel P, Gauducheau E, Lemeshow S, Salamon R. Europäisches System zur Bewertung des Herzoperationsrisikos (EuroSCORE). Eur J Herz-Thorax-Chirurgie. 1999;16(1):9–13.

Artikel CAS PubMed Google Scholar

Stenhouse C, Coates S, Tivey M, Allsop P, Parker T. Prospektive Bewertung eines modifizierten Frühwarn-Scores zur Unterstützung der früheren Erkennung von Patienten, die auf einer allgemeinchirurgischen Station eine kritische Erkrankung entwickeln. Br J Anaesth. 2000;84(5):663P.

Artikel Google Scholar

Subbe CP, Kruger M, Rutherford P, Gemmel L. Validierung eines modifizierten Frühwarn-Scores bei medizinischen Aufnahmen. QJM. 2001;94(10):521–6.

Artikel CAS PubMed Google Scholar

Le Gall JR, Loirat P, Alperovitch A, Glaser P, Granthil C, Mathieu D, et al. Ein vereinfachter akuter Physiologie-Score für Intensivpatienten. Crit Care Med. 1984;12(11):975–7.

Artikel PubMed Google Scholar

Wang LE, Shaw PA, Mathelier HM, Kimmel SE, French B. Bewertung von Risikovorhersagemodellen anhand von Daten aus elektronischen Gesundheitsakten. Ann Appl Stat. 2016;10(1):286–304.

Artikel CAS PubMed PubMed Central Google Scholar

Weiskopf NG, Weng C. Methoden und Dimensionen der Qualitätsbewertung elektronischer Patientenakten: Ermöglichung der Wiederverwendung für die klinische Forschung. J Am Med Inform Assoc. 2013;20(1):144–51.

Artikel PubMed PubMed Central Google Scholar

Heinze G, Wallisch C, Dunkler D. Variablenauswahl – eine Übersicht und Empfehlungen für den praktizierenden Statistiker. Biom J. 2018;60(3):431–49.

Artikel PubMed PubMed Central Google Scholar

Xie F, Chakraborty B, Ong MEH, Goldstein BA, Liu N. AutoScore: ein auf maschinellem Lernen basierender automatischer klinischer Score-Generator und seine Anwendung zur Sterblichkeitsvorhersage mithilfe elektronischer Gesundheitsakten. JMIR Med Inform. 2020;8(10):e21798.

Artikel PubMed PubMed Central Google Scholar

Xie F, Ong MEH, Liew JNMH, Tan KBK, Ho AFW, Nadarajan GD, et al. Entwicklung und Bewertung eines interpretierbaren Triage-Tools für maschinelles Lernen zur Schätzung der Mortalität nach Notaufnahmen. JAMA Netw Open. 2021;4(8):e2118467.

Artikel PubMed PubMed Central Google Scholar

Wong XY, Ang YK, Li K, Chin YH, Lam SSW, Tan KBK, et al. Entwicklung und Validierung des SARICA-Scores zur Vorhersage des Überlebens nach Rückkehr des spontanen Kreislaufs bei Herzstillstand außerhalb des Krankenhauses unter Verwendung eines interpretierbaren Rahmenwerks für maschinelles Lernen. Reanimation. 2022;170:126–33.

Artikel PubMed Google Scholar

Petersen KK, Lipton RB, Grober E, Davatzikos C, Sperling RA, Ezzati A. Vorhersage der Amyloidpositivität bei kognitiv nicht beeinträchtigten älteren Erwachsenen. Neurologie. 2022;98(24):e2425–35.

Artikel PubMed PubMed Central Google Scholar

Liu N, Liu M, Chen X, Ning Y, Lee JW, Siddiqui FJ, et al. Entwicklung und Validierung eines interpretierbaren P-ROSC-Scores (Prehospital Return of Spontane Circulation) für Patienten mit Herzstillstand außerhalb des Krankenhauses mithilfe maschinellen Lernens: eine retrospektive Studie. eClinicalMedicine. 2022;48:101422.

Artikel PubMed PubMed Central Google Scholar

Ang Y, Li S, Ong MEH, Xie F, Teo SH, Choong L, et al. Entwicklung und Validierung eines interpretierbaren klinischen Scores zur Früherkennung einer akuten Nierenschädigung in der Notaufnahme. Sci Rep. 2022;12(1):1–8.

Artikel Google Scholar

Kanagarathinam K, Sankaran D, Manikandan R. Auf maschinellem Lernen basierendes Risikovorhersagemodell für Herz-Kreislauf-Erkrankungen unter Verwendung eines Hybriddatensatzes. Data Knowl Eng. 2022;140:102042.

Artikel Google Scholar

Zhao Y, Li X, Li S, Dong M, Yu H, Zhang M, et al. Verwendung maschineller Lerntechniken zur Entwicklung von Risikovorhersagemodellen für das Risiko einer diabetischen Retinopathie bei Patienten mit Typ-2-Diabetes mellitus: eine Kohortenstudie. Front Endocrinol (Lausanne). 2022;13:885.

Google Scholar

Adi NS, Farhany R, Ghina R, Napitupulu H. Modell zur Vorhersage des Schlaganfallrisikos mithilfe von maschinellem Lernen. In: 2021 Internationale Konferenz über künstliche Intelligenz und Big Data Analytics; 2021. S. 56–60.

Kapitel Google Scholar

Li X, Wang Y, Xu J. Entwicklung eines auf maschinellem Lernen basierenden Risikovorhersagemodells für Hirninfarkt und Vergleich mit dem Nomogrammmodell. J Affektstörung. 2022;314:341–8.

Artikel PubMed Google Scholar

Pera M, Gibert J, Gimeno M, Garsot E, Eizaguirre E, Miró M, et al. Risikovorhersagemodell für maschinelles Lernen der 90-Tage-Mortalität nach Gastrektomie bei Krebs. Ann Surg. 2022;276:776–83.

Artikel PubMed Google Scholar

Jiang H., Mao H., Lu H., Lin P., Garry W., Lu H. et al. Auf maschinellem Lernen basierende Modelle zur Unterstützung der Entscheidungsfindung bei der Triage in der Notaufnahme von Patienten mit Verdacht auf Herz-Kreislauf-Erkrankung. Int J Med Inform. 2021;145:104326.

Artikel PubMed Google Scholar

Kawakami E, Tabata J, Yanaihara N, Ishikawa T, Koseki K, Iida Y, et al. Anwendung künstlicher Intelligenz zur präoperativen Diagnostik und Prognosevorhersage bei epithelialem Eierstockkrebs basierend auf Blutbiomarkern. Clin Cancer Res. 2019;25(10):3006–15.

Artikel CAS PubMed Google Scholar

Valenta Z, Pitha J, Poledne R. Logistische Regression mit proportionalen Chancen – wirksame Mittel zum Umgang mit begrenzter Unsicherheit bei der Dichotomisierung klinischer Ergebnisse. Stat Med. 2006;25(24):4227–34.

Artikel PubMed Google Scholar

Roozenbeek B, Lingsma HF, Perel P, Edwards P, Roberts I, Murray GD, et al. Der Mehrwert der Ordinalanalyse in klinischen Studien: ein Beispiel bei traumatischer Hirnverletzung. Kritische Pflege. 2011;15(3):R127.

Artikel PubMed PubMed Central Google Scholar

McHugh GS, Butcher I, Steyerberg EW, Marmarou A, Lu J, Lingsma HF, et al. Eine Simulationsstudie zur Bewertung von Ansätzen zur Analyse ordinaler Ergebnisdaten in randomisierten kontrollierten Studien bei traumatischen Hirnverletzungen: Ergebnisse des IMPACT-Projekts. Klinische Studien. 2010;7(1):44–57.

Artikel PubMed Google Scholar

Sparer JL. Neuartige Techniken zur Endpunktanalyse und Interpretation von Verschiebungen über die gesamte Bandbreite der Ergebnisskalen in Studien zu akuten Schlaganfällen. Schlaganfall. 2007;38(11):3055–62.

Artikel PubMed Google Scholar

Machado SG, Murray GD, Teasdale GM. Bewertung von Designs für klinische Studien mit neuroprotektiven Wirkstoffen bei Kopfverletzungen. Europäisches Konsortium für Hirnverletzungen. J Neurotrauma. 1999;16(12):1131–8.

Artikel CAS PubMed Google Scholar

Ceyisakar IE, van Leeuwen N, Dippel DW, Steyerberg EW, Lingsma HF. Die ordinale Ergebnisanalyse verbessert die Erkennung von Ergebnisunterschieden zwischen Krankenhäusern. BMC Med Res Methodol. 2021;21(4):4.

Buchen Sie Google Scholar

Uryniak T, Chan ISF, Fedorov VV, Jiang Q, Oppenheimer L, Snapinn SM, et al. Responder-Analysen – ein PhRMA-Positionspapier. Stat Biopharm Res. 2011;3(3):476–87.

Artikel Google Scholar

Altman DG, Royston P. Die Kosten der Dichotomisierung kontinuierlicher Variablen. BMJ. 2006;332(7549):1080.

Artikel PubMed PubMed Central Google Scholar

Lingsma HF, Bottle A, Middleton S, Kiewit J, Steyerberg EW, Marang-van de Mheen PJ. Bewertung von Krankenhausergebnissen: der Zusammenhang zwischen Aufenthaltsdauer, Rückübernahme und Mortalität in einer großen internationalen Verwaltungsdatenbank. BMC Health Serv Res. 2018;18(1):116.

Artikel PubMed PubMed Central Google Scholar

Myers J, Kei J, Aithal S, Aithal V, Driscoll C, Khan A, et al. Diagnose einer Mittelohrfunktionsstörung bei 10 bis 16 Monate alten Säuglingen mithilfe der Breitbandabsorption: ein ordinales Vorhersagemodell. J Speech Lang Hear Res. 2019;62(8):2906–17.

Artikel PubMed Google Scholar

Edlinger M, Dörler J, Ulmer H, Wanitschek M, Steyerberg EW, Alber HF, et al. Ein ordinales Vorhersagemodell für die Diagnose einer nicht obstruktiven Koronararterien- und Mehrgefäßerkrankung in der CARDIIGAN-Kohorte. Int J Cardiol. 2018;267:8–12.

Artikel PubMed Google Scholar

Sawhney R, Joshi H, Gandhi S, Jin D, Shah RR. Robuste Einschätzung des Suizidrisikos in sozialen Medien durch tiefgreifendes kontradiktorisches Lernen. J Am Med Inform Assoc. 2021;28(7):1497–506.

Artikel PubMed PubMed Central Google Scholar

Barbero-Gómez J, Gutiérrez PA, Vargas VM, Vallejo-Casas JA, Hervás-Martínez C. Ein ordinaler CNN-Ansatz zur Beurteilung neurologischer Schäden bei Parkinson-Patienten. Expert Syst Appl. 2021;182:115271.

Artikel Google Scholar

Rudin C. Hören Sie auf, Black-Box-Modelle für maschinelles Lernen für Entscheidungen mit hohem Risiko zu erklären, und verwenden Sie stattdessen interpretierbare Modelle. Nat Mach Intell. 2019;1(5):206–15.

Artikel PubMed PubMed Central Google Scholar

Breiman L. Zufällige Wälder. Mach lernen. 2001;45(1):5–32.

Artikel Google Scholar

McCullagh P, Nelder JA. Verallgemeinerte lineare Modelle. 2. Aufl. London: Chapman und Hall/CRC; 1989.

Buchen Sie Google Scholar

McCullagh P. Regressionsmodelle für Ordinaldaten. JR Stat Soc Ser B. 1980;42(2):109–42.

Google Scholar

Rosati R, Romeo L, Vargas VM, Gutiérrez PA, Hervás-Martínez C, Frontoni E. Ein neuartiger tiefer ordinaler Klassifizierungsansatz für die Klassifizierung der ästhetischen Qualitätskontrolle. Neuronale Computeranwendung. 2022;34(14):11625–39.

Artikel Google Scholar

Wang L, Zhu D. Bewältigung des ordinalen Regressionsproblems für heterogene Daten: spärliche und tiefe Multitasking-Lernansätze. Data Min Knowl Disc. 2021;35(3):1134.

Artikel Google Scholar

van Calster B, van Belle V, Vergouwe Y, Steyerberg EW. Unterscheidungsfähigkeit von Vorhersagemodellen für ordinale Ergebnisse: Beziehungen zwischen bestehenden Maßen und einem neuen Maß. Biom J. 2012;54(5):674–85.

Artikel PubMed Google Scholar

Waegeman W, de Baets B, Boullart L. ROC-Analyse beim ordinalen Regressionslernen. Mustererkennungsschrift 2008;29(1):1–9.

Artikel Google Scholar

Harrell FE, Califf RM, Pryor DB, Lee KL, Rosati RA. Bewertung der Ausbeute medizinischer Tests. JAMA. 1982;247(18):2543–6.

Artikel PubMed Google Scholar

Harrell FEJ. Regressionsmodellierungsstrategien: mit Anwendungen auf lineare Modelle, logistische und ordinale Regression und Überlebensanalyse. 2. Aufl. New York: Springer; 2015. (Springer-Reihe in Statistik)

Buchen Sie Google Scholar

DiCiccio TJ, Efron B. Bootstrap-Konfidenzintervalle. Statistische Wissenschaft. 1996;11(3):189–228.

Artikel Google Scholar

Cabitza F, Campagner A. Die Notwendigkeit, in der medizinischen Informatik die Spreu vom Weizen zu trennen: Einführung einer umfassenden Checkliste für die (Selbst-)Bewertung medizinischer KI-Studien. Int J Med Inform. 2021;153:104510.

Artikel PubMed Google Scholar

Xie F, Liu N, Wu SX, Ang Y, Low LL, Ho AFW, et al. Neuartiges Modell zur Vorhersage der stationären Mortalität nach Notaufnahme in ein Krankenhaus in Singapur: retrospektive Beobachtungsstudie. BMJ offen. 2019;9(9):e031382.

Artikel PubMed PubMed Central Google Scholar

Liu N, Xie F, Siddiqui FJ, Wah Ho AF, Chakraborty B, Nadarajan GD, et al. Nutzung umfangreicher elektronischer Patientenakten und interpretierbares maschinelles Lernen für die klinische Entscheidungsfindung in der Notaufnahme: Protokoll zur Systementwicklung und -validierung. JMIR Res Protoc. 2022;11(3):e34201.

R-Kernteam. R: eine Sprache und Umgebung für statistische Berechnungen. R Foundation for Statistical Computing, Wien, Österreich; 2020. Verfügbar unter: https://cran.r-project.org

Christensen RHB. ordinal---Regressionsmodelle für ordinale Daten. R-Paketversion 2018.4–19. 2018. Verfügbar unter: http://www.cran.r-project.org/package=ordinal/

Venables WN, Ripley BD. Moderne angewandte Statistik mit S. 4. Aufl. New York: Springer; 2002.

Buchen Sie Google Scholar

Wurm MJ, Rathouz PJ, Hanlon BM. Regularisierte ordinale Regression und das ordinalNet R-Paket. Zeitschrift für statistische Software. 2017;99(6):1–42.

Google Scholar

Liaw A, Wiener M. Klassifizierung und Regression durch randomForest. R-Nachrichten. 2002;2(3):18–22.

Google Scholar

Kropko J, Harden JJ. coxed: Dauerbasierte Größen von Interesse für das Cox Proportional Hazards Model; 2020. Verfügbar unter: https://CRAN.R-project.org/package=coxed.

Harrell Jr F. Hmisc: Harrell Miscellaneous; 2021. Verfügbar unter: https://CRAN.R-project.org/package=Hmisc.

Goff DCJ, Lloyd-Jones DM, Bennett G, Coady S, D'Agostino RB, Gibbons R, et al. ACC/AHA-Leitlinie 2013 zur Bewertung des kardiovaskulären Risikos: ein Bericht der Task Force des American College of Cardiology/American Heart Association zu Praxisrichtlinien. Verkehr. 2014;129(25 Suppl 2):S49–73.

PubMed Google Scholar

Rabar S, Lau R, O'Flynn N, Li L, Barry P. Risikobewertung von Fragilitätsfrakturen: Zusammenfassung der NICE-Leitlinien. BMJ. 2012;345:e3698.

Artikel PubMed Google Scholar

Collins GS, Reitsma JB, Altman DG, Moons KGM. Transparente Berichterstattung über ein multivariables Vorhersagemodell für die individuelle Prognose oder Diagnose (TRIPOD): die TRIPOD-Anweisung. BMJ. 2015;350:g7594.

Artikel PubMed Google Scholar

Probst P, Boulesteix AL. Um die Anzahl der Bäume in einem zufälligen Wald anzupassen oder nicht. J Mach Learn Res. 2018;18:1–18.

Google Scholar

Scurfield BK. Multiple-Event-Forced-Choice-Aufgaben in der Theorie der Signaldetektierbarkeit. J Mathe Psychol. 1996;40(3):253–69.

Artikel CAS PubMed Google Scholar

Hand DJ, Till RJ. Eine einfache Verallgemeinerung der Fläche unter der ROC-Kurve für Klassifizierungsprobleme mit mehreren Klassen. Mach lernen. 2001;45(2):171–86.

Artikel Google Scholar

van Calster B, van Belle V, Vergouwe Y, Timmerman D, van Huffel S, Steyerberg EW. Erweiterung der C-Statistik auf nominell polytome Ergebnisse: der polytome Diskriminierungsindex. Staatliches Med. 2012;31(23):2610–26.

Artikel PubMed Google Scholar

Dover DC, Islam S, Westerhout CM, Moore LE, Kaul P, Savu A. Berechnung des polytomen Diskriminierungsindex. Stat Med. 2021;40(16):3667–81.

Artikel PubMed Google Scholar

Guo X, Khalid MA, Domingos I, Michala AL, Adriko M, Rowel C, et al. Smartphone-basierte DNA-Diagnostik zur Malariaerkennung mit Deep Learning zur lokalen Entscheidungsunterstützung und Blockchain-Technologie zur Sicherheit. Nat Electron. 2021;4(8):615–24.

Artikel CAS Google Scholar

Krittanawong C, Rogers AJ, Johnson KW, Wang Z, Turakhia MP, Halperin JL, et al. Integration neuartiger Überwachungsgeräte mit maschineller Lerntechnologie für ein skalierbares Herz-Kreislauf-Management. Nat Rev Cardiol. 2020;18(2):75–91.

Artikel PubMed PubMed Central Google Scholar

Wu Y, Yao X, Vespasiani G, Nicolucci A, Dong Y, Kwong J, et al. Mobile App-basierte Interventionen zur Unterstützung des Diabetes-Selbstmanagements: eine systematische Überprüfung randomisierter kontrollierter Studien zur Identifizierung von Funktionen, die mit der glykämischen Wirksamkeit verbunden sind. JMIR Mhealth Uhealth. 2017;5(3):e6522.

Artikel Google Scholar

Ferri A, Rosati R, Bernardini M, Gabrielli L, Casaccia S, Romeo L, et al. Auf dem Weg zum Design einer auf maschinellem Lernen basierenden Verbrauchergesundheitsplattform, die auf elektronischen Gesundheitsakten und der Messung des Lebensstils mithilfe von Smartphone-Daten basiert. In: 2019 IEEE 23rd International Symposium on Consumer Technologies (ISCT); 2019. S. 37–40.

Kapitel Google Scholar

Referenzen herunterladen

Keiner.

Diese Studie wurde von der Duke-NUS Medical School, Singapur, unterstützt. YN wird durch den Khoo Postdoctoral Fellowship Award (Projekt-Nr. Duke-NUS-KPFA/2021/0051) aus dem Nachlass von Tan Sri Khoo Teck Puat unterstützt. Die Geldgeber hatten keinen Einfluss auf das Studiendesign, die Datenerhebung und -analyse, die Entscheidung zur Veröffentlichung oder die Erstellung des Manuskripts.

Seyed Ehsan Saffari und Yilin Ning haben gleichermaßen zu dieser Arbeit beigetragen.

Zentrum für quantitative Medizin, Duke-NUS Medical School, Singapur, Singapur

Seyed Ehsan Saffari, Yilin Ning, Feng Xie, Bibhas Chakraborty, Roger Vaughan und Nan Liu

Programm für Gesundheitsdienste und Systemforschung, Duke-NUS Medical School, Singapur, Singapur

Seyed Ehsan Saffari, Feng Xie, Bibhas Chakraborty, Roger Vaughan, Marcus Eng Hock Ong und Nan Liu

Abteilung für Biostatistik und Bioinformatik, Duke University, Durham, NC, USA

Bibhas Chakraborty

Abteilung für Statistik und Datenwissenschaft, National University of Singapore, Singapur, Singapur

Bibhas Chakraborty

Abteilung für Neurochirurgie, Erasmus MC University Medical Center, Rotterdam, Niederlande

Victor Volovici

Ministerium für öffentliche Gesundheit, Erasmus MC, Rotterdam, Niederlande

Victor Volovici

Abteilung für Notfallmedizin, Singapore General Hospital, Singapur, Singapur

Marcus Eng Hock Ong

SingHealth AI Office, Singapore Health Services, Singapur, Singapur

Nan Liu

Institut für Datenwissenschaft, National University of Singapore, Singapur, Singapur

Nan Liu

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

NL: Studienkonzeption und -design, Betreuung und Mentoring. ES, YN und FX: Modellentwicklung, erster Entwurf. ES und YN: Datenanalyse. ES, YN, FX, BC, VV, RV, MO und NL: wesentliche Beiträge zur Ergebnisinterpretation, zur Algorithmusverbesserung und zur kritischen Überarbeitung des Manuskripts. Alle Autoren haben die Ergebnisse überprüft, die endgültige Fassung des Manuskripts gelesen und genehmigt.

Korrespondenz mit Nan Liu.

Diese Studie wurde vom Centralized Institutional Review Board (CIRB 2021/2122) des Singapore Health Services genehmigt und es wurde ein Verzicht auf die Einwilligung zur EHR-Datenerfassung gewährt. Alle Methoden wurden in Übereinstimmung mit den relevanten Richtlinien und Vorschriften durchgeführt.

Unzutreffend.

Keiner.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/. Der Creative Commons Public Domain Dedication-Verzicht (http://creativecommons.org/publicdomain/zero/1.0/) gilt für die in diesem Artikel zur Verfügung gestellten Daten, sofern in einer Quellenangabe für die Daten nichts anderes angegeben ist.

Nachdrucke und Genehmigungen

Saffari, SE, Ning, Y., Xie, F. et al. AutoScore-Ordinal: ein interpretierbares Framework für maschinelles Lernen zur Generierung von Bewertungsmodellen für ordinale Ergebnisse. BMC Med Res Methodol 22, 286 (2022). https://doi.org/10.1186/s12874-022-01770-y

Zitat herunterladen

Eingegangen: 24. Mai 2022

Angenommen: 25. Oktober 2022

Veröffentlicht: 04. November 2022

DOI: https://doi.org/10.1186/s12874-022-01770-y

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt