KI Verfahren
Bei unseren Produkten setzen wir vorwärts-gekoppelte neuronale Netze mit mehreren Zwischenschichten ein. Die Anzahl der Eingangskanäle stimmt mit der Anzahl der Fragen überein. Bei der Ausgangsschicht entspricht die Anzahl der Signale der Anzahl der zu bestimmenden Diagnosen.
Für das Beispiel des neuromuskulären Fragebogens der KImedi GmbH mit seinen 46 Fragen und den 10 verschiedenen, im Datenmodell enthaltenen, Diagnosen besteht das neuronale Netz dann aus 46 Eingangs-, 10 Ausgangskanälen und 3 Zwischenschicht mit jeweils ebenfalls 46 Neuronen. Dies führt dann zu einer
Anzahl der Neuronen = 46 x 46 + 3 x (46 x 46) + 10 x 46 = 4 x 46 x 46 + 10 x 46 = 8924
Mathematisch betrachtet bedeutet dies, ein nichtlineares Gleichungssystem mit 8924 Unbekannten iterativ zu lösen ist.
Jeder der bunten Kreisflächen besteht aus einem einzelnen künstlichen Neuron, so wie in der linken Graphik dargestellt. Innerhalb des Neurons wird die gewichtete Summe der Eingangssignale berechnet und über die Fermi-Funktion auf den Ausgangskanal geschaltet. Die Information steckt in den einzelnen Gewichten, deren Wert die Größe des Ausgangssignales definiert.
Der Start des Trainings der Gewichte beginnt mit Zufallszahlen, die sich schrittweise verbessern. Sind die relativ aufwändigen Trainingsläufe abgeschlossen und alle Gewichte gespeichert, dann kann die Auswertung innerhalb des Neurons sehr schnell erfolgen.
Data Mining Verfahren
Bei unseren Produkten kombinieren wir Neuronale Netze der Künstlichen Intelligenz und Data Mining-Verfahren für die Auswertung von medizinischen Fragebögen. Als besonders leistungsfähig haben sich die Data Mining Verfahren „Support Vektor“ und „Random Forest“ erwiesen.
Beim „Support Vektor“ Verfahren handelt es sich um ein mathematisch formuliertes, graphisches Verfahren. Jeder Punkt in einem Vektorraum entspricht einem Antwortmuster. Die Antwortmuster mit gleicher bestätigter Diagnose bilden somit eine Punktwolke. Der Algorithmus unterscheidet die sich teilweise überschneidenden Punktwolken durch eine Trennfläche und stellt fest, ob ein neues Antwortmuster eines Patienten mit unbekannter Diagnose links oder rechts der Trennfläche liegt.
Das „Random Forest“ ist ein rein logisches Verfahren, dass die Wahrscheinlichkeiten der Antworten bei den einzelnen Diagnosen als Basis für eine Vielzahl von Entscheidungsbäumen nutzt.
Stratifizierte k-fache Kreuzvalidierung
Beim Trainieren legt man z.B. bei einer 5-fachen Kreuzvalidierung 20% der Fragebögen zur Seite, startet dann das maschinelle Lernen für die verbliebenen 80% der Fragebögen mit bestätigter Diagnose und kontrollieren das Ergebnis, indem wir die zur Seite gelegten 20% der Fragebögen als Patienten mit unbekannter Diagnose interpretieren. Dieser Lernprozess wiederholt sich danach für alle Fragebögen, so dass am Ende jeder einzelne Fragebogen mal als Testfragebogen diente. Diese Vorgehensweise bezeichnet man als stratifizierte 5-fache Kreuzvalidierung und stratifiziert bedeutet, dass die Auswahl der jeweiligen 20% der Fragebögen nach strengen statistischen Regeln erfolgt.
Deep Learning Verfahren
Beim maschinellen Lernen der neuronalen Netze kommt als besondere Anforderung hinzu, dass ein geschlossenes Lösungsverfahren, das in einem Schritt die Gewichte des Netzes bestimmen würde, grundsätzlich nicht existiert. Wir setzen daher Deep Learning Verfahren ein, welche iterativ die hochdimensionalen Gleichungssysteme lösen. Danach ist die Anwendung der neuronalen Netze zur diagnostischen Unterstützung in Echtzeit mit geringem Rechenaufwand möglich.
Die Kontrolle des Lernprozesses erfolgt in anschaulicher Weise durch die Betrachtung der Treffer- und der Fehlerlernkurve. Die Trefferkurve, die bei 0% beginnt, erreicht am Ende des Lernprozesses 100%. Die Fehlerkurve zeigt dazu den umgekehrten Verlauf, d.h. sie beginnt bei 100% und endet bei 0%.
Drei Sonderfälle sind möglich:
Fall A: Das neuronale Netz lernt zwar die Antwortmuster und die Trefferkurve erreicht 100%, aber das Netz generalisiert nicht, d.h. „es hat gelernt, aber nichts begriffen“. In diesem Fall sinkt die Fehlerkurve nicht ab und bleibt in der Nähe der 50% Linie hängen.
Fall B: Falls die Fragen nur schwach mit den bestätigten Diagnosen korrelieren, dann ist ein Lernen nicht möglich und die Treffer- und die Fehlerkurve bleiben bei ca. 50% hängen.
Fall C: In diesem wünschenswerten Fall steigt die Trefferkurve auf 100% an und die Fehlerkurve sinkt auf 0% ab, d.h. in diesem Fall hat das neuronale Netz gelernt, generalisiert und hat somit „begriffen“.
Kontrolle des maschinellen Lernens
ROC-Kurven und die entsprechenden AUC-Werte, die der Fläche unter der Kurve entsprechen, werden verwendet, um zu beurteilen, inwieweit die Ergebnisse der Berechnungen deterministisch oder nur zufällig korrekt sind. Bei rein zufälligen Ergebnissen würde die ROC-Kurve wie eine Diagonale linear von 0 bis 100 verlaufen und die entsprechende Fläche unter der Kurve (AUC-Wert) den relativen Wert von 50% annehmen.
Die bei der KImedi GmbH entwickelten und in Feldversuchen erfolgreich validierten mathematischen Verfahren kombinieren in optimaler Weise die Berechnungsergebnisse aus den Data-Mining-Verfahren mit den Ausgangssignalen des neuronalen Netzes. Die daraus resultierenden hohen AUC-Werte bestätigen die Vertrauenswürdigkeit der berechneten diagnostischen Hinweise.
Der Farbverlauf auf der rechten Seite des Bildschirms visualisiert den Schwellenwert, bei dem z.B. für die Diagnose ‚Morbus Pompe‘ zwischen den Alternativen ‚Morbus Pompe‘ bzw. ‚keine Morbus Pompe‘ unterschieden werden kann, so dass eine begründete Anpassung dieses Schwellenwertes möglich ist.
Software-Entwicklung
Softwareentwicklung
Wir entwickeln das Software-Modul ‚AI-ENGINE ‚, das mittels der Verfahren der Künstlichen Intelligenz das empfangene Antwortmuster eines Fragebogens auswertet und als Rückgabewert die Wahrscheinlichkeiten der im Datenmodell enthaltenen Diagnosen sendet.
Die Entwicklung, das Validieren sowie die ständige Überwachung der ‚AI-ENGINE ‚ im Serverbetrieb erfordert eine Reihe von mathematischen Anwendungs- und Systemtools, die bei uns entwickelt und gewartet werden.
Zu den besonders wichtigen Tools gehören jene Software-Module, mit denen die Antwortmuster von neu bestätigten Diagnosen in die Trainingsmenge der vorhandenen Antwortmuster eingebaut und dann das Trainieren der KI Algorithmen fortgesetzt wird.
IT-Systeme
Unsere interaktive, Internet-basierte Software wird auf gemieteten, in Deutschland stationierten Root Servern gehostet. Dabei nehmen wir den Schutz unserer Daten sehr ernst.
Die ‚AI-ENGINE ‚ ist als API-REST Schnittstelle realisiert, nimmt die Antwortmuster im JSON-Format entgegen und sendet das Ergebnis der KI Berechnungen ebenfalls im JSON-Format zurück.