Maschinelles Lernen (ML) könnte die Qualität von Gesundheitsdaten erheblich steigern und damit zu präziseren Diagnosen und effizienteren Behandlungen beitragen. Eine neue Studie der Technischen Universität Riga entwickelt und bewertet ML-basierte Strategien, die sich auf die Kerndimensionen Genauigkeit, Vollständigkeit und Wiederverwendbarkeit konzentrieren. Die Ergebnisse, veröffentlicht in der Fachzeitschrift „Frontiers in Artificial Intelligence“, zeigen signifikante Verbesserungen anhand eines Diabetes-Datensatzes und unterstreichen das Potenzial für reproduzierbare Frameworks in der klinischen Praxis.

Die Qualität von Gesundheitsdaten ist entscheidend für klinische Entscheidungen und Patientenergebnisse, doch Probleme wie fehlende Werte und Anomalien führen oft zu Fehldiagnosen oder ineffizienter Ressourcennutzung. Laut der ISO-9000-Richtlinien muss Datenqualität den Bedürfnissen der Nutzer entsprechen, sei es für klinische Analysen oder ML-Modelle. Die Studie von Agate Jarmakovica adressiert diese Herausforderungen durch einen umfassenden Ansatz, der technische Methoden mit organisatorischen Strategien kombiniert.

Für die Untersuchung wurde ein öffentlich zugänglicher Diabetes-Datensatz von GitHub genutzt, der 768 Datensätze mit neun Variablen umfasst – darunter Alter, Body-Mass-Index (BMI), Blutzuckerspiegel, Blutdruck, Hautfaltenstärke, Serum-Insulin, Diabetes-Stammbaum-Funktion und ein binäres Outcome für Diabetes-Status. Der Datensatz war anonymisiert und erfüllte ethische Standards. Die anfängliche Vollständigkeit lag bei 90,57 Prozent, mit erheblichen Lücken etwa in Serum-Insulin (48,70 Prozent) und Hautfaltenstärke (29,56 Prozent).

Die Methodik umfasste einen detaillierten Workflow: Zunächst wurden die Daten mit Python-Bibliotheken wie Pandas geladen und explorativ analysiert, unterstützt durch Visualisierungen mit Matplotlib und Seaborn. Fehlende Werte wurden mittels K-Nearest-Neighbors-Imputation (KNN) behandelt, mit fünf Nachbarn als Parameter, um ein Gleichgewicht zwischen Rauschresistenz und Genauigkeit zu wahren. Anomalien – etwa 20,1 Prozent der Daten – wurden durch Ensemble-Techniken wie Isolation Forest (für globale Isolation von Ausreißern) und Local Outlier Factor (LOF, für lokale Dichte-Vergleiche) erkannt und korrigiert. Formeln für Anomaliescores, basierend auf Pfadlängen in Bäumen (Isolation Forest) und lokaler Erreichbarkeitsdichte (LOF), ermöglichten eine präzise Identifikation.

Zusätzlich wurde die Daten normalisiert (StandardScaler) und eine Hauptkomponentenanalyse (PCA) durchgeführt, die Blutzucker, BMI und Alter als Schlüsselprädiktoren für Diabetes identifizierte. Korrelationsanalysen zeigten starke Beziehungen zwischen diesen Variablen. Der Prozess wurde in Google Colaboratory umgesetzt, mit Tools wie MLflow und TensorBoard für Echtzeit-Überwachung und Metadaten-Generierung, um Reproduzierbarkeit zu gewährleisten.

Zur Validierung wurden prädiktive Modelle trainiert: Ein 80/20-Split des Datensatzes, kombiniert mit k-fachem Cross-Validation, testete Random Forest und LightGBM. Random Forest übertraf LightGBM mit einer Genauigkeit von 75,3 Prozent und einem AUC-Wert von 0,83 (im Vergleich zu 0,80 bei LightGBM). Precision-Recall- und ROC-Kurven bestätigten die Wirksamkeit der Vorverarbeitung, die die AUC-Werte im Vergleich zu unbereinigten Daten steigerte.

Die Ergebnisse demonstrieren klare Fortschritte: Die Vollständigkeit stieg auf nahezu 100 Prozent, die Genauigkeit profitierte von der Anomalienreduktion, und die Wiederverwendbarkeit wurde durch detaillierte Dokumentation und Versionskontrolle verbessert. Heatmaps, Boxplots und Histogramme visualisierten die Verbesserungen, während ein konzeptionelles Framework (Abbildung 1) die Integration von ML-Methoden mit organisatorischen Ansätzen illustrierte.

In der Literaturübersicht wird betont, dass Datenqualität multidimensionale Aspekte wie Integrität, Konsistenz und Ethik umfasst, erweitert um moderne Elemente wie Nachverfolgbarkeit und Governability. Frühere Arbeiten, etwa zu Imputation (Thomas und Rajabi, 2021) oder Anomalieerkennung (Liu et al., 2008), dienen als Grundlage. Die Studie hebt hervor, dass ML nicht nur technische Lösungen bietet, sondern auch die Basis für zuverlässige KI in der Medizin schafft, wo hochwertige Daten für tiefe Lernsysteme essenziell sind (Munappy et al., 2022).

Jarmakovica betont die praktischen Implikationen: „Durch die Kombination von Imputation und Anomalieerkennung können wir robuste Frameworks schaffen, die zu besseren klinischen Ergebnissen und prädiktiven Fähigkeiten beitragen.“ Die iterative Verbesserung mittels Grid Search und Bayesian Optimization unterstreicht die Skalierbarkeit des Ansatzes.

Experten sehen in solchen Strategien einen Weg, die Open-Science-Bewegung mit Datenschutz zu verbinden und Innovationen in der Gesundheitsforschung zu fördern. Die Studie fordert weitere Forschung zu Echtzeit-Monitoring und interdisziplinären Ansätzen, um Datenqualität in dynamischen Umgebungen zu sichern.

Für weitere Informationen: Frontiers in Artificial Intelligence, https://doi.org/10.3389/frai.2025.1621514.

Maschinelles Lernen verbessert Datenqualität im Gesundheitswesen: Neue Strategien für Genauigkeit und Wiederverwendbarkeit

Unmatched reporting

Quick Links

Stay Connected