1
2
3
4
5
6

Von August bis November 2020 fand eine KI-Trainer Proof-Of-Concept (PoC) Lab Durchführung mit dem Startup Curedatis statt.

Von August bis November 2020 fand eine KI-Trainer Proof-Of-Concept (PoC) Lab Durchführung mit dem Startup Curedatis statt. Curedatis ist ein Startup in der Medizintechnik-Branche – welches mit Hilfe von maschinellem Lernen (ML) die Automatisierung von Wissensmanagement für Medizintechnik-KMUs vorantreiben möchte. Konkret soll ML für die klinische Nachbeobachtung eingesetzt werden, indem die sogenannten PICO-Begriffe (Patient-Intervention-Comparison-Outcome) aus medizinischen Fachartikeln automatisch extrahiert werden. Das PICO-Schema beschreibt somit die wesentlichen Bestandteile der medizinischen Fragestellung. Eine weite Verbreitung findet es in der evidenzbasierten Medizin (EbM) und wird dazu eingesetzt, relevante Fachartikel zu erkennen, herauszufiltern und einen Überblick über die vorhandene klinische Evidenz zu erhalten. Natürliche Sprachverarbeitung in der Medizin birgt zunächst einige Hürden, da hier das Vokabular sehr umfassend ist und ständig neue Begrifflichkeiten hinzukommen. Herkömmliche Textquellen – üblicherweise aus dem Internet (Blogs, Wikipedia, etc.) gesammelte Textabschnitte - können aufgrund des gänzlich anderen Vokabulars nur begrenzt als Trainings-Grundlage für ML-Modelle genutzt werden.

Innerhalb des PoC war das Ziel herauszufinden, ob ML für das gegebene Problem anwendbar ist. Falls ja, soll ein erstes, prototypisches Modell entwickelt werden, welches Curedatis als Grundlage für die Weiterentwicklung dienen kann.

Zunächst wurde das Domänenwissen von Curedatis genutzt, um eine erste Datengrundlage zu schaffen. Struktur und nötige Tools wurden gemeinsam definiert und angewendet, und schon bald entstand ein ausreichend großer Datenschatz, mit dem zumindest die Leistung eines trainierten Modells evaluiert werden kann. Diese Daten bestanden aus Text, in dem jedes Wort einer Klasse zugeordnet wurde – ‘Patients’, ‘Interventions’, ‘Comparison’, ‘Outcomes’ oder ‘N’ für sonstige Wörter. Die Herausforderung ist allerdings, dass für das Training aktueller ML-Algorithmen eine große Anzahl an Daten benötigt werden. Insbesondere in der gegebenen Domäne können diese Daten nicht auf die Schnelle erstellt werden. Eine Lösung hierfür ist, sogenanntes Transfer-Learning anzuwenden. Hier wird ein anderer, verfügbarer Datensatz genutzt um das Modell vorzutrainieren. Im Anschluss kann das Modell dann unter Verwendung des eigenen Datensatz spezialisiert werden. Je ähnlicher nun dieser andere Datensatz zu den problemspezifischen Daten ist, desto besser kann dieses Transfer-Learning gelingen. Es gibt eine Vielzahl an öffentlich verfügbaren Datensätzen für diverse Probleme und Ansätze. Diese stammen zumeist aus der Forschung, in welcher der Wettbewerb um die beste Leistung eines Modells auf einem sogenannten Benchmark-Datensatz einer der Haupttreiber für die Weiterentwicklung von ML-Modellen in bestimmten Domänen ist. In unserem Fall konnten wir einen Datensatz finden, welcher ausreichend nah an den eigenen Daten war, und als erste Trainingsgrundlage dienen sollte.

Die nächste Aufgabe war es, ein geeignetes ML-Modell zu entwickeln. Als ersten Schritt ist es hier am sinnvollsten, einen Blick in die Literatur zu werfen und Modell-Architekturen zu finden, welche auf ähnlichen Problemstellungen gute Ergebnisse erzielt haben. Von der Entwicklung einer Architektur von Grund auf ist hingegen in den meisten Fällen abzuraten, da man nur das Rad neu erfinden würde. Trotzdem ist es im Anschluss möglich und auch empfehlenswert, die gegebene Architektur Stück-für-Stück an die eigenen Bedürfnisse und Rahmenbedingungen anzupassen und zu optimieren.

Nachdem wir eine geeignete, erste Architektur ausfindig machen konnten, ging es nun darum, Daten und Architektur miteinander zu verknüpfen und eine erste Code-Grundlage für den Trainings- und Evaluationsprozess zu schaffen. Erste Experimente auf den externen Daten zeigten, dass das Modell wie vorgesehen funktioniert.

An dieser Stelle sollte nun die entscheidende Frage beantwortet werden: Wie gut funktioniert das Modell, welches auf anderen Daten trainiert wurde, auf den eigens gesammelten Daten? Um dies herauszufinden, tauschten wir den bisherigen Evaluationsdatensatz mit den eigenen Daten aus. Wie erwartet wurden die Ausgaben des Modells zunächst ungenauer. Dies ist darauf zurückzuführen, dass die Daten, welche das Modell zu Trainingszeiten verwendet hatte, eine andere Zusammensetzung aufweisen als die eigenen Daten. So gibt es zum Beispiel einige neue Wörter, die das Modell bisher noch nicht gesehen hatte. Allerdings übertraf die Leistung des Modells unsere Erwartungen und unsere verwendete Metrik – der sogenannte F1-Score – lag weit über dem Wert, der für eine Zufallsentscheidung steht.

Um dieses Ergebnis auch subjektiv zu bestätigen, visualisierten wir die Ausgaben des Modells und schauten uns gemeinsam stichprobenartig verschiedene Sätze an. Tatsächlich konnte das Modell an vielen Stellen sehr gute Klassifizierungen vornehmen. Für ein Produktivsystem bestehen vielseitige Optimierungsmöglichkeiten und Ausbaustufen für den Einsatz in dem hochregulierten Medizintechnik und im Bereich Life-Science. Der Grundstein für den weiteren Ausbau der Curedatis Plattform wurde somit im PoC gelegt. Wir konnten zeigen, dass das gegebene Problem definitiv mit ML angegangen werden kann und das Potential hoch ist eine ausreichend hohe Leistung zu erreichen, da noch viele weitere Wege für Verbesserungen offenstehen. Diese umfassen unter anderem den Einsatz eigener Daten beim Training des Modells, das Testen weiterer Modell-Architekturen, oder die Verbesserung der Datenqualität generell.

Durch die vorliegenden sehr positiven PoC Ergebnisse wird Curedatis die Entwicklung der Plattform zur Digitalisierung und Automatisierung der klinischen Bewertung im Bereich der Medizintechnik weiter forcieren. Hierzu finden momentan erste Gespräche mit Partner, Pilotkunden und Business Angels statt. Des Weiteren wird die Einreichung des EXIST Gründerstipendium, sowie die Zusammenarbeit mit dem Cyber Valley in Tübingen/Stuttgart angebahnt.

Curedatis, sowie auch wir als KI-Trainer sind sehr zufrieden mit dem Ergebnis. Für uns ist generell das Eintauchen in verschiedene Domänen innerhalb des PoC Labs immer eine spannende Angelegenheit, da jede Problemstellung einzigartig ist und somit auch wir mehr über die aktuellen Bedürfnisse in der Industrie erfahren können. Jedes unserer PoCs hat eine andere Struktur und Vorgehensweise, die stark von den Bedürfnissen unseres KMU-Partners abhängen. Falls auch Sie Teil eines KMU sind und schon mit dem Gedanken gespielt haben, KI in Ihr Unternehmen zu integrieren – und vielleicht sogar auch eine konkrete Idee und Daten haben – zögern Sie nicht uns zu kontaktieren. Wir unterstützen auch Sie gerne bei Ihren ersten Schritten in KI Projekten – wie alles im KI-Trainer Programm natürlich kostenlos.

Für den weiteren Ausbau ihrer „Knowledge as a Service“ Plattform möchte Curedatis das Entwickler-Team erweitern und sucht Verstärkung im Bereich Text Mining, ML und Natural Language Processing (NLP). Bei Interesse können Sie sich gerne an Curedatis wenden (E-Mail-Adresse: startup@curedatis.com)

Wir bedanken uns noch einmal ganz herzlich bei Curedatis für dieses spannende PoC, und wünschen ihnen bei der weiteren Umsetzung viel Erfolg!

 


12.01.21

Kontakt

Patrick Takenaka
  • Mittelstand 4.0-Kompetenzzentrum Usability

1
2
3
4
5
6
 
Das Mittelstand-Digital Netzwerk bietet mit den Mittelstand-Digital Zentren und der Initiative IT-Sicherheit in der Wirtschaft umfassende Unterstützung bei der Digitalisierung. Kleine und mittlere Unternehmen profitieren von konkreten Praxisbeispielen und passgenauen, anbieterneutralen Angeboten zur Qualifikation und IT-Sicherheit. Das Bundesministerium für Wirtschaft und Klimaschutz ermöglicht die kostenfreie Nutzung der Angebote von Mittelstand-Digital. Weitere Informationen finden Sie unter www.mittelstand-digital.de.