TextMining von Meldungstexten für einheitliche Klassifikationen (TeMeK)

Handlungsfeld: „Digitalisierung“ Forschungsschwerpunkt: „Krebsregisterdaten zusammenführen“

Projektleitung

Fraunhofer-Institut für Kommunikation, Informationsverarbeitung und Ergonomie (FKIE)
Herr Dr. Hanna Geppert
Hansastr. 27 c
80686 München

Projektlaufzeit

01.09.2022 - 01.09.2025

Projektbeteiligte(r)

Averbis GmbH
Universitätsklinikum Freiburg

Motivation

Die Daten der klinischen Krebsregister bilden die Grundlage für Auswertungen, die zur Verbesserung der Versorgung an Krebs erkrankter Personen beitragen. Außerdem dienen sie als externe Qualitätssicherung für die in der medizinischen Versorgung tätigen Ärztinnen und Ärzte. Bisher enthalten die Meldungen an die klinischen Krebsregister in großem Umfang unstrukturierten Freitext, aus dem nur mit großem manuellem Aufwand notwendige Informationen herausgefiltert werden können.

Das Projekt TeMeK geht der Frage nach, welche Methoden der Künstlichen Intelligenz (KI) eingesetzt und wie sie angepasst und weiterentwickelt werden können, um eine einheitliche, korrekte und effiziente Informationsgewinnung aus komplexem Freitext zu ermöglichen.

Ziele und Vorgehen

Das übergeordnete Ziel ist die schnelle Bereitstellung von qualitativ hochwertigen Daten, die bundesweit einheitlich für eine Zusammenführung am Zentrum für Krebsregisterdaten nutzbar sind. Diese können auch eine belastbare Qualitätssicherung bilden. Es soll erforscht werden, wie sogenannte „Textmining“-Methoden genutzt werden können um anhand krankheitsbedingter Befunde leichter an Informationen aus den Freitextdaten zu gelangen. Im Projekt werden die neuesten Verfahren aus dem Bereich der „Deep-Learning“-basierten Sprachverarbeitung eingesetzt, auf die Domäne der Erkrankung optimiert und bei Bedarf um nötige Module erweitert. Mit Hilfe spezieller Algorithmen sollen beispielsweise Bestätigungsprozesse automatisiert und im Freitext Unregelmäßigkeiten erkannt werden. Dies soll die Krebsregister bei Dokumentationsprozessen unterstützen und deren Effizienz steigern. Die entwickelten Algorithmen sollen einzeln untersucht und technisch möglichst unabhängig mit definierten und standardisierten Schnittstellen von den Registern genutzt werden können.

Perspektiven für die Praxis

Die Verfahren, die im Rahmen des Projektes entwickelt werden, stehen anschließend den Krebsregistern zur Nutzung zur Verfügung. Zusätzlich werden die Verfahren mit einer Schnittstelle versehen, die eine vereinfachte Nutzung durch die Krebsregister ohne KI-Fachwissen ermöglicht. Für die Krebsregister ergeben sich dadurch verschiedene Vorteile: beispielsweise kann Wissen für die Diagnosen herausgearbeitet und bereitgestellt werden. Darüber hinaus wird durch das Vorhaben ein Experten- und Wissenssystems aufgebaut, in dem molekular-pathologische Marker gesammelt werden. Somit findet eine Bündelung von hochspezialisiertem Wissen statt, welches durch die Bearbeiter abgerufen und für wissenschaftliche und klinische Fragestellungen genutzt werden kann.

Ergebnisse

Bisher konnten Daten von ungefähr 563.000 Pathologiebefunden aus fünf Krebsregistern gewonnen werden. Die enthaltenen Daten wurden aufgereinigt und für ein KI-Trainingsset bzw. KI-Testset zur Verfügung gestellt. Eine Herausforderung war dabei die stark abweichende Verteilung der Tumorentitäten. Um die wichtigsten Informationen herausfiltern zu können, mussten entsprechende Features definiert werden, anhand derer gefiltert wird. Bei der Erarbeitung von molekular-pathologischen Befunden wird ein Fokus auf Untersuchungsergebnisse zu genetischen Varianten gelegt. Eine manuelle Analyse der Dokumente wäre jedoch extrem aufwändig. Daher soll Text-Mining die Dokumentare unterstützen. In der Folge wurde klar, dass eine Standardisierung von Notationen und der Befundstruktur dringend notwendig ist. Prinzipiell erscheint die Anwendung von KI-Algorithmen in diesem Zusammenhang zielführend, um Informationen sinnvoll extrahieren zu können und den manuellen Arbeitsaufwand dadurch zu reduzieren.

Verwertung

Die Verfahren, die im Rahmen des Projekts entwickelt werden, stehen anschließend den Krebsregistern zur Verfügung. Zusätzlich werden die Verfahren mit einer Schnittstelle versehen, die eine vereinfachte Nutzung durch die Krebsregister ohne KI-Fachwissen ermöglicht. Für die Krebsregister ergeben sich dadurch verschiedene Vorteile: beispielsweise kann Wissen für die Diagnosen herausgearbeitet und bereitgestellt werden. Darüber hinaus wird durch das Vorhaben ein Experten- und Wissenssystems aufgebaut, in dem molekular-pathologische Marker gesammelt werden. Somit findet eine Bündelung von hochspezialisiertem Wissen statt, welches durch die Bearbeiterinnen und Bearbeiter abgerufen und für wissenschaftliche und klinische Fragestellungen genutzt werden kann.

Weitere Informationen

Handlungsfeld „Digitalisierung“

Die Digitalisierung des Gesundheitswesens und ihre Auswirkungen u. a. auf die Patientinnen- und Patientenversorgung bietet große Chancen. Hier erfahren Sie mehr zum gesundheitspolitischen Handlungsfeld „Digitalisierung“.
Überblick Forschungsschwerpunkte

Das BMG fördert neben Einzelvorhaben insbesondere Forschungsaktivitäten zu übergreifenden Themen. Die Förderschwerpunkte richten sich nach den Handlungsfeldern der Ressortforschung. Hier gelangen Sie zum Überblick.

Stand: 28. März 2025

TextMining von Meldungstexten für einheitliche Klassifikationen (TeMeK)

Weitere Informationen

Handlungsfeld „Digitalisierung“

Überblick Forschungsschwerpunkte