„Lernende Maschinen – Fluch oder Segen?“
>> Herr Professor Zahn, wo und wie kann uns künstliche Intelligenz in Anwendungsbereichen der Gesundheitsforschung und der -versorgung helfen?
Das Problem ist: Die derzeit im Gesundheitswesen eingesetzten analytischen Verfahren können aus meiner Sicht noch lange nicht als künstliche Intelligenz bezeichnet werden.
Ein lernendes System ist demnach keine künstliche Intelligenz?
Nicht einmal maschinelles Lernen ist wirklich künstliche Intelligenz. Zumindest nicht intelligent im Sinne dessen, wie der Intelligenzbegriff in der Psychiatrie, z.B. in der triarchischen Intelligenztheorie nach Sternberg1, definiert wird.
„Lernende Systeme werden zunehmend zum Treiber der Digitalisierung in Wirtschaft und Gesellschaft“. Das steht exakt so auf der vom BMBF geförderten Plattform www.plattform-lernende-systeme.de. Dort steht weiter, dass lernende Systeme Maschinen, Roboter und Softwaresysteme sind, die abstrakt beschriebene Aufgaben auf Basis von Daten, die ihnen als Lerngrundlage dienen, selbstständig erledigen, ohne dass jeder Schritt spezifisch programmiert wird. Selbständig!
Diese Definition betrachtet das Thema aus der informationstheo-retischen Sicht. Diese ist richtig, wenn wir über lernende Systeme im Sinne des maschinellen Lernens sprechen. Allerdings bedeutet die datenbasierte Extraktion und Anpassung von Regeln und Modellen nur, dass sich Maschinen – auch an den Menschen – anpassen können und nicht, dass sie mit ihm konkurrieren können.
Sie haben Medizininformatik studiert und in der Neuroinformatik promoviert, Wie lange beschäftigen Sie sich schon mit künstlicher Intelligenz?
Mein erstes Studium wurde in der Tat noch als medizinische Informatik & Bionik bezeichnet. Damals , in den 80igern wurde versucht, auch bio-logische Prozesse mit den Methoden der Systemtheorie und Automatisierungstechnik zu erklären, bei der sensorisch erfasste Daten über Automaten-Modelle Aktionen der Stellglieder auslösen. Für eine ganze Reihe von Problemen war und ist das durchaus erfolgreich und Grundlage vieler digitaler Lösungen in der heutigen Zeit. Beim Versuch, damit Muster in komplexen EEG-Daten zu erkennen, wurde jedoch schon damals klar, dass deren Komplexität neue Methoden der Datenverarbeitung benötigt, die sich nicht in Automaten abbilden lässt, sondern sich an den Prinzipien der verteilten Informationsverarbeitung im zentralen Nervensystems orientiert. Schon im 1. Semester 1988 faszinierte mich die Neuroinformatik. Ich kann mich noch gut erinnern, mit welchen Enthusiasmus wir als Studenten die Anwendungsbeispiele im ersten deutschsprachigen Buch „Neuronale Netze“ nachimplementiert und unsere Professoren verblüfft haben. 1991 konnte ich als Werksstudent in der Zentralen Forschungsabteilung von Siemens dann neuronale Netze erstmals zur Lösung eines praktischen Prognoseproblems einsetzen – das übrigens auch heute noch weltweit im Einsatz ist. Mein damaliger Mentor und geschätzter Kollege Prof. Tresp hat übrigens in diesem Jahr gerade sein Projekt Klinische Datenintelligenz (KDI) als Schwesterprojekt unseres Smart Analysis Health Research Access-Projekts (SAHRA) im „smart data Program“ des BMWI erfolgreich abgeschlossen. Während meines anschließenden Masterstudiums in Miami und den verschiedenen NIH-Grants in San Diego und Boston zeigte sich, wie leistungsfähig neuronale Methoden sind, wenn es darum geht, Informationen aus komplexen Mustern und Mus-terfolgen wie Bild und Sprachsequenzen, aber auch EEG-, CT- oder Ultraschall-Signalen zu extrahieren und für den Menschen nutzbar zu interpretieren.
Gab es nicht auch jeden Sommer einen Wettbewerb, welche Roboter zum amerikanischen Nationalfeiertag am 4. Juli am Besten im Festumzug mithalten konnten?
Stimmt. Schon damals wurden in den USA und Japan große natio-nale Forschungsprogramme aufgesetzt, an denen ich zeitweise mitarbeiten durfte und aus denen sich heute gut bekannte Produkte wie IBM „Watson“ oder der erste humanoide Roboter „ASIMO“ von Honda entwickelt haben.
Und in Deutschland?
Auch hierzulande gab es in den 90igern schon einmal große Hoffnungen in selbst lernende Systeme, die leider zur Jahrtausendwende aus Akzeptanzgründen begraben wurden, so dass viele meiner damaligen Kollegen heute in Übersee leben und forschen. Im dfg-Graduiertenkolleg „analog-digitale Implementierung neuronaler Netze“ konnte ich während meiner Promotion am Fachbereich Neuroinformatik und kognitive Robotik der TU Ilmenau selbst miterleben, welche technischen Herausforderungen autonome Roboter bewältigen müssen, um aus menschlicher Sicht einfachste Aufgaben wie z.B. Schallquellenlokalisation, Erkennung von Sprachmelodien und auffälligen Objekten in unbekannter Umgebung zu bewältigen und daraus sinnvolle Aktionen abzuleiten.
Ist denn wirklich die Menge der verfügbaren Daten das Problem?
Die Menge ist kein Problem, eher die Lösung. Die analytische Kunst besteht darin, große Datenmengen so zu strukturieren, damit sich über geeignete Lernverfahren Modelle finden lassen, die in der Lage sind, daraus relevante Informationen zu gewinnen, aus denen sich praktische Aktionen ableiten lassen. Gerade in der Medizin liegt die Information dabei oft gar nicht in den Daten eines Zustandes, sondern in der Abfolge von Zuständen, die als räumlich-zeitliche Muster erkannt und interpretiert werden müssen. Dabei bestimmt die von den Entwicklern definierte Datenaufbereitung, die Netzwerk-Architektur, aber auch das Lernverfahren – also die Methode nach der sich Verbindungen zwischen Knoten verstärken oder abschwächen –, ob neuronale Netze zu optimalen oder suboptimalen – z.B. in lokalen Extrema verharrenden – Lösungen kommen.
Wo beginnt denn nun maschinelles Lernen?
Für mich beginnt maschinelles Lernen dort, wo Lernregeln eine dauerhafte Plastizität der Modellbildung und eine laufende Anpassung an die vorhandenen Daten bewirken. Mit der tatsächlichen hochparallelen, spikebasierten, räumlich-zeitlichen Informationsverarbeitung im Gehirn, die ich am Max Planck-Institut für Neurobiologie erforscht und in meiner Dissertation für den Einsatz in autonomen Robotern übertragen habe, hat das allerdings noch fast gar nichts gemeinsam.
Wir sind also noch recht weit weg davon, mit „Machine Learning“ künstliche Intelligenz zu erzeugen, die uns bedrohen könnte?
Im Gegenteil, „Machine Learning“ wird uns als Gesellschaft und gerade auch Alte und Kranke sehr bald davon befreien, Sklaven der Tastaturen und Screens unserer Computer zu sein und die Mensch- Maschine-Interaktion wieder über die ureigenen menschlichen Kommunikationsformen Sprache, Gestik und Mimik abwickeln. Insofern ist auch die neue saudische Staatsbürgerin „Sophia“ eine Maschine, die menschlich kommunizieren kann, aber keine menschliche Intelligenz besitzt. Auch mit den heutigen neuronalen Methoden, wie z.B. den Convolutional Neural-Networks (CNN) oder den Radial Base Funktion-Networks (RBF), ist es keineswegs so, dass alles automatisch von der Maschine erlernt wird.
Das klingt irgendwie ernüchternd.
Es ist aber eben die Realität. In jeder lernenden Maschine stecken viele Mannjahre menschlicher Intelligenz und das Ergebnis kann sicher schneller und besser als ein einzelnes menschliches Individuum
sein, aber es kann niemals besser als das vereinte Wissen seiner Entwickler werden.
Zum Beispiel?
Ein schönes Beispiel ist z.B. unser Startup-Partner Ada Health. Das Ada-Team aus der Adalbert Straße in Berlin hat über sieben Jahre lang mit Medizinern der MHH und echten KI-Experten in Berlin eine App entwickelt, die nun tatsächlich auf Basis einfacher Anamnesefragen durch Anwendung von „Machine Learning“-Verfahren bei über 1.500 Krankheiten eine für Patienten nutzbare und für Mediziner nachvollziehbare, mit Fachexperten vergleichbar treffsichere Diagnose vorschlägt und bereits jetzt internationale Wettbewerbe, z.B. gegen Google Deep Mind Health in London, gewonnen hat. Die Ada-Handlungsempfehlung ist in jedem Fall besser als die Antwort von „Dr. Google“ und kann auch für den einzelnen Arzt neue Erkenntnisse bringen – ist aber immer das Ergebnis des zum Training genutzten Expertenwissens.
Sie meinen also, da wo künstliche Intelligenz drauf steht, ist eher menschliche Intelligenz drin? Was lehren Sie denn dazu als Professor für Data Science Ihren Studenten?
Man kann das so ausdrücken: Maschinelles Lernen ist nur möglich, wenn Menschen die Verfahren entwickeln und umsetzen, mit denen Maschinen komplexe Zusammenhänge erlernen und für den Menschen nutzbar und auch kontrollierbar machen können. Diese Verfahren sollten alsbald fester Bestandteil der Grundausbildung für Ingenieure, der von medizinischen Forschern, aber auch von Versorgungsforschern sein.
Die offensichtlich Angst haben vor neuen Professionen wie jenen der „Data Scientists“.
Das müssen sie aber nicht. Unter „Data Science“ versteht man neben den neuronalen Methoden auch die klassischen Verfahren der Datenaufbereitung und Datenanalyse wie Regression und Korrelation, Clusteranalyse und Entscheidungsbäumen. Im Zuge des aktuellen Hypes lässt sich allerdings feststellen, dass viele klassische Verfahren der Datenanalyse, die seit langem zum Standard der Statistik und Versorgungsforschung gehören, nun auch als „kognitive“ oder „lernende“ Systeme verkauft werden.
Also falsche Etiketten bekommen.
Durchaus. Das ist insofern gefährlich, weil hier Erwartungen geweckt werden, die am Ende nicht gehalten werden können. Auch entstehen so Ängste, die sich schwer wieder einfangen lassen. Allerdings gibt es auch einen positiven Effekt: Nach 15 Jahren, die ich mich nun mit dem praktischen Einsatz einfacher Prognosemodelle und Entscheidungsunterstützungssysteme in Deutschland und Europa befasse, kommt nun endlich die Zeit, in der auch traditionelle Leistungserbringer und Kostenträger bereit sind anzuerkennen, dass statistisch gewonnene Modelle helfen können, Risiken frühzeitig zu erkennen und die richtigen Entscheidungen zur Ergebnisoptimierung zu treffen. Allein die Früherkennung von Krankheiten auf Basis der heute nutzbaren Daten könnte einen erheblichen Schub bei der Effizienz unserer Gesundheitsversorgung bewirken.
Und auch helfen, um mit „Big Data“ umgehen zu können?
Das ist auch so ein tolles Schlagwort. Mit „Big Data“ wird heute das ganze Spektrum von einfach nur großen Datensammlungen, über klassische Modellbildungen bis hin zu komplexen „Machine Learning“-Methoden bezeichnet.
Also muss man schon sehr genau unterscheiden, wer gerade über was spricht?
Das sollte man immer. Aber umso genauer in diesem Umfeld.
Hilft uns denn „Big Data“ wirklich weiter?
Sicher. In Deutschland werden seit langem viele Gesundheitsdaten strukturiert erfasst, doch liegen sie leider meist noch so verteilt und zweckgebunden in den einzelnen Data-Lakes, so dass nur ein Bruchteil der darin enthaltenen Informationen für die Versorgung nutzbar ist. Natürlich werden durch die Digitalisierung viele zusätzliche strukturierte und auch unstrukturierte Daten verfügbar und auch die Möglichkeiten der dezentralen Datenverarbeitung (z.B. in mobilen Endgeräten) steigen exponentiell. Die Möglichkeiten zur Informa-
tionsgewinnung und Nutzung steigen jedoch erst dann deutlich, wenn es gelingt, die aktuell und künftig verfügbaren Gesundheitsdaten datenschutzgerecht zu kombinieren und ethisch vertretbare und kontrollierbare Modelle daraus zu gewinnen. Die Sammlung großer Datenmengen alleine reicht dafür nicht.
Daten als solche ergeben eben noch keine Aussage.
Große Datenmengen sind – bildlich gesprochen – vergleichbar mit großen Sandmengen. Es braucht die richtigen Werkzeuge und viel Erfahrung, um daraus Gold zu sieben. Die wahre Kunst besteht darin, aus Daten Informationen zu generieren, die wiederum in Aktionen münden oder zumindest münden könnten. Dazu braucht es vor allem gut aufbereitete Datenstrukturen, für das konkrete Problem geeignete Methoden, aber auch Qualitätsmaße, an denen das erreichte Ergebnis gemessen werden kann.
Versuchen wir doch eine Abgrenzung zu finden, was eigentlich nur Datenverarbeitung, das Bilden von Modellen und Regeln und was maschinelles Lernen und künstliche Intelligenz ist. Beginnen wir bei klinischen Studien.
Bei klinischen Studien geht es in der Regel um Kausalitäts-Modelle und zwar nach dem Prinzip: Welche Wirkung hat eine Intervention auf die messbaren Outcomes? Damit wird nichts anderes versucht, als ein Modell als Abbild der Wirklichkeit zu schaffen. Die grundlegende Einschränkung dabei ist, dass dieses Modell nur so gut erstellt werden kann, wie die abzubildende Wirklichkeit beim Studiendesign bekannt ist und berücksichtigt wird.
Das wird bei klinischen Studien, speziell bei RCT genau so gemacht.Der reinen Lehre zufolge schon, doch dem stehen mannigfaltige Probleme entgegen. Das beginnt dabei, dass bei vielen klinischen Studien auf eine ganz spezielle Indikation und auf eine ganz spezielle Intervention für diese Indikation singuliert wird. Damit sollen bekannte Umfeld- und Sozialeinflüsse außen vor gehalten werden. Die unbekannten Einflüsse hingegen werden relativ mechanistisch korrigiert, indem ganz einfach randomisiert werden.
Gelingt denn das?
RCT sind angewandte Statistik. Wenn sie richtig gemacht werden, haben RCT durchaus einen hohen Wert, auch wenn sie weit davon entfernt sind, alle Störgrößen korrigieren zu können. Der Grund dafür ist, dass zufällige Samples genutzt werden, wobei postuliert wird, dass damit möglichst viele Störfaktoren, ohne sie zu kennen, entsprechend in beiden Gruppen auftauchen und so im Vergleich auf Null gestellt werden. Dazu braucht man aber sehr hohe Fallzahlen, was allein wegen des Studienaufwandes oft nicht möglich ist. Reellen Wert in der Versorgungspraxis erlangen die meisten RCT-Studien erst, wenn es gelingt, aus den erzeugten Modellen Prognosen abzuleiten und am Point of Care verfügbar zu machen.
Das macht man doch schon lange in der Statistik.
Prognosemodelle sind in der Statistik wahrlich nichts neues, doch im deutschen Gesundheitswesen werden diese erst seit rund zehn Jahren strukturiert eingesetzt und nur zögerlich akzeptiert.
Das fällt dann so ungefähr mit der Einführung des Morbi-RSA zusammen.
So ganz zufällig ist das nicht. Das seit dem Start des Morbi-RSA ab 2009 eingesetzte Prognosemodell zur individuellen Kostenprognose aller GKV-Versicherten für das jeweils nächste Jahr hat insbesondere bei den Krankenkassen zu einem deutlichen Akzeptanzgewinn beigetragen. Als damaliger Geschäftsführer der deutschen Tochter der DxCG Boston, von der die Grundlagen des heutigen M-RSA-Modells entwickelt wurden, und als Partner des BVA konnte ich das damals live miterleben.
Und darüber hinaus?
Der praktische Einsatz anderer auf Abrechnungsdaten erstellter Prognosemodelle, z.B. zur Krankenhaus-Einweisungsprognose oder zu Impact-Prognosen von Versorgungsmodellen, ist nach wie vor auf wenige deutsche Versorgungsprogramme beschränkt, obwohl durch die gezielte Gewinnung von Teilnehmern mit prädiktiv erkannten, beeinflussbaren Risiken so mancher heute als „wirkungslos“ gebrandmarkter Versorgungsvertrag seinen medizinischen und ökonomischen Nutzen belegen könnte.
Sind das schon lernende Systeme?
Noch lange nicht. Hier wird nichts anders gemacht, als Modelle auf historischen Daten mit bekanntem Outcome zu bilden und diese dann auf aktuelle Daten anzuwenden, um Prognosen für die nahe Zukunft zu erstellen. Das ist noch kein lernendes System, aber immerhin eines, das aus der Komplexität von Daten für die Gesundheitsversorgung nutzbare Zusammenhänge extrahiert.
Wie gut ist denn die Fähigkeit dieser Modelle, die Wirklichkeit abzubilden? Das R-Quadrat des M-RSA wäre doch beispielsweise ein solches Maß, das aber auch nur eine 19,6- bis 52,3-prozentige Erklärbarkeit der GKV-Leistungsausgaben erreicht.
Das mag viel oder wenig aussehen, doch entscheidend in unserem Zusammenhang ist, dass man solche Qualitätsmaße für verschiedenste Modelle an Realdaten bestimmen kann. Dazu braucht man standardisierte Trainings- und Testsamples, die für alle Forscher und Entwickler datenschutzgerecht zugänglich sind und auf deren Basis sich anerkannte Gütemaße bestimmen lassen. Nur so kann man Modelle dann auch überprüfen und vergleichen.
Das hat man vielleicht bei M-RSA, aber doch nicht in der normalen Forschung.
Eben. Das ist ja das große Problem aller Forscher. Deshalb brauchen wir eine deutsche Forschungsdatenbasis als Referenz, an der man Modellierungsverfahren vergleichen und nachprüfen kann. Eine solche Forschungsdatenbasis wird auch von der internationalen Forscher-Community gefordert. Gerade jetzt erleben wir, dass wissenschaftliche Forschungsergebnisse bei deren Publikation auch danach bewertet werden, ob diese mit öffentlich zugänglichen Daten nachvollziehbar sind.
Warum gibt es eine solche Forschungsdatenbasis noch nicht?
Weil es in der Wissenschaft bisher nicht üblich ist, aufwändig gewonnene Roh-Daten zu veröffentlichen. In Deutschland ist es – anders als in anderen Ländern – bisher noch nicht einmal gelungen, ein Standarddatenset zu definieren, das es erlauben würde, die Forschungsergebnisse – auch solche, die mit „Machine Learning“-Verfahren erzielt werden – nachvollziehbarer und vergleichbarer zu machen. Darauf müsste sich die Wissenschafts-Community endlich einigen. Und die Politik sollte z.B. im Rahmen der Umsetzung des Art. 9 (2) j
der DSGVO den rechtlichen Rahmen dafür schaffen. Mit unser Forschungs- und Analyseplattform SAHRA verfolgen wir dieses Ziel bereits seit 2015 und sind zumindest einige Schritte vorangekommen. Immerhin gibt es heute einen – zugegeben noch ausbaufähigen – Merkmalskatalog der anonymisiert verfügbaren Gesundheitsdaten und einen standardisierten Prozess zu Beantragung, Genehmigung und Umsetzung von Datengestellungen für die Forschung und Planung nach §75 SGB X.
Könnte maschinelles Lernen in der Forschung Einzug halten?
Sicher. Grundlage dafür wäre, einen Schritt weiterzugehen und tatsächlich maschinelles Lernen kontrolliert für die Versorgung einsetzen zu wollen. Spätestens dann müssen die Verfahren sauber beurteilbar und vergleichbar sein, weil sich die extrahierten Regeln nicht mehr statisch, sondern dann adaptiv entwickeln.
Das heißt nichts anderes, als dass sich ein Modell immer dann anpasst, wenn sich in den Eingaben etwas ändert. Sind wir so weit?
Durchaus. Es gibt verschiedene mögliche Lernverfahren, die man heute anwenden kann.
Wo werden die jetzt schon eingesetzt?
Zum Beispiel in der Histologie der Tumordiagnostik. Im Centrum für Biomedizinische Bild und Informationsverarbeitung (CBMI) an der HTW Berlin ist so etwas schon Tagesgeschäft.
Da wird schon maschinelles Erkennen angewandt?
Sicher, vereinfacht erklärt, meldet das System: Hier ist ein „bösartiger“ oder „gutartiger“ Tumor im Bild erkennbar. Doch da sich die histologischen Möglichkeiten ständig verändern und auch ständig bessere Technologien – bezüglich Auflösung, Verarbeitung und Informationsdichte – entwickelt werden, lernen diese Systeme mit.
Damit wird mit jedem Bild das System besser?
Das ist so. Man bezeichnet das dabei eingesetzte Lernverfahren auch als „supervised learning“. Das Verfahren erstellt eine Hypothese, der Experte überprüft diese und spiegelt dem System wider, ob richtig oder falsch. In jedem Fall bewirkt die Lernregel eine leichte Anpassung aller Gewichte und damit des nächsten Ergebnisses in Richtung des aktuellen Falles, z.B. durch so genannte „Error back Propagation“. Das heißt aber auch, dass jeder Input eines Experten zu einer Adaption in eine bestimmte Richtung führt, die nun wieder – abhängig von dessen Kompetenz und Aussage – richtig oder falsch sein kann.
Das ist doch nichts weiter als eine Sammlung von unterschiedlichem Expertenwissen, verbunden mit der Hoffnung, durch Statistik zu einem besseren Ergebnis zu kommen.
Exakt. Deshalb ist es wichtig, dass nicht jedes neue Bewertungsergebnis gleich zu einer völligen Änderung führt, sondern dass sich immer die Vielfalt aller einzelnen Wissensteile in einem solchen System abbildet. Maschinelles Lernen ist nämlich alles andere als fehlerfrei – was aber der Mensch ja auch nicht ist. Das Ergebnis ist immer nur ein mögliches relatives Optimum.
Alle maschinellen Lernverfahren extrahieren aus der Vielfalt das Gemeinsame.
Das aber können sie weit besser und schneller als jeder Mensch. Das gilt natürlich auch vice versa: Aus den vielen Fehlern, die alle machen, gibt es immer etwas Gemeinsames zu lernen. Ob der Vorschlag des Systems absolut richtig ist, kann niemand abschließend beurteilen. Das kann am Ende nur die Praxis zeigen. Oft ergeben sich aber auch neue, von den menschlichen Experten gar nicht bewusst wahrgenommene Erkenntnisse, wenn „unsupervised Learning“ eingesetzt wird.
Was ist das?
Stark vereinfacht kann man sagen: Wenn es keinen „Lehrer“ gibt, der Ergebnisse auf richtig oder falsch überprüfen kann, nennt man das „unsupervised learning“. Bei diesen Lernverfahren werden aus den Attributen, die am häufigsten zusammen vorkommen, Cluster und Subcluster gebildet, deren Abfolge mit bedingter Wahrscheinlichkeit zu einem möglichen Outcome führt.
Da muss man schon eine gehörige Portion Vertrauen in den Computer haben.
Genau soviel wie in jeden Menschen, ob das ein Handwerker oder Arzt ist, der sein Wissen aus seiner Lebenserfahrung und der Erkenntnissumme an behandelten Fällen gewinnt. So entsteht nun einmal Wissen. Jedes Lernen funktioniert auch, indem man aus Fehlern lernt.
Das ist sicher richtig. Nur wenn ein Arzt Fehler macht, kann es Leben kosten. Von wegen dann ärztliche Kunst!
Die psychologischen Begriffe Kunst und Intelligenz verwende ich an dieser Stelle höchst ungern. Es handelt sich beim maschinellem Lernen um nichts anderes, als um verteilt wirkende statistische
Adaptionsverfahren für komplexe Regelwerke, die inzwischen eben auch der Computer leisten kann. Am Ende sollte die Entscheidung über die Nutzung maschinell erlernter Regeln aber immer bei dem Menschen liegen, der die Verantwortung für das Ergebnis trägt und dabei die Maschine als Experten nutzen, aber eben auch ignorieren kann.
Sind wir denn schon in der neuen Welt angekommen, in der alle Informationen, die uns zur Verfügung stehen, durch Maschinen für uns nutzbar werden können?
Angekommen noch nicht, aber auf dem Weg. Nehmen wir zum Beispiel die Krankenhaus-Rechnungsprüfung. Jedes Krankenhaus codiert seine Behandlungsfälle und versucht seine DRG-Bewertungsrelationen zu optimieren. Die Prüfung dieser Abrechnungen war bisher an ein starres Regelwerk gebunden. Gerade, 2017, haben wir jedoch damit begonnen, adaptive Regelwerke für die effiziente Rechnungsprüfung zu entwickeln und in der Praxis zu testen, so dass unnötige Prüfaufwände für Krankenhäuser, Krankenkassen und den MDK reduziert werden können.
Sind wir damit schon auf dem Weg zur künstlichen Intelligenz?
Nein. Das ist immer noch maschinelles Lernen. Vieles von dem, was heute als künstliche Intelligenz bezeichnet wird, ist noch nicht mal das, sondern statistische Modellbildung, die auf immer mehr Real-
daten basiert, einfach weil heute sehr viel mehr Daten regelhaft verfügbar sind. Daraus werden dann Attribute erstellt, auf deren Basis versucht wird, ein Ergebnis vorherzusagen beziehungsweise zu berechnen. Berechnen indes nicht mehr notwendigerweise im Sinne der klassischen Wahrscheinlichkeitsformeln. Denn wenn man komplexere Zusammenhänge abbilden möchte, braucht man dazu Verfahren, die auch komplexe Informationen untergliedern, verarbeiten und interpretieren können.
Die Google-Konferenz hat uns vorgeführt, dass es durchaus eine künstliche Intelligenz gibt, die einfache Telefongespräche führen kann, um zum Beispiel in einem Restaurant einen Tisch für vier Personen zu bestellen. Das ist offenbar eine Meisterleistung künstlicher Intelligenz, für einen Menschen etwas recht Selbstverständliches.
Das, was uns Menschen als einfach erscheint, ist in der Tat nicht trivial. Dabei handelt es sich um eine hochkomplexe Informationsverarbeitung in unserem Gehirn, zu der Informationsextraktion gehört, aber auch Interpretation, z.B. von Syntax und Semantik der menschlichen Sprache. Das empfinden wir Menschen als nicht komplex, weil uns die Fähigkeit dazu von Natur aus mitgegeben ist. Es ist aber sehr wohl informationstechnisch hochkomplex, weil hier Assoziationen gefordert sind. Will heißen, der Computer muss lernen, assoziieren zu können. Er muss eine Situation, die er noch nicht hatte und die in keine bekannte Regel passt, in einen Zusammenhang mit einer anderen ähnlichen Situation bringen und eine Aktion, z.B. Antwort oder Bewegung, auslösen, die dann richtig oder falsch sein kann.
Assoziationen und/oder Korrelationen?
Korrelation ist pure Mathematik und ist – wie derzeit oft zitiert –durchaus Fehler anfällig. Assoziationen sind Korrelationen zwar ähnlich, beziehen jedoch weit mehr Kontext-Informationen ein und sind daher deutlich weniger fehleranfällig. In Assoziativspeichern kann man z.B. Bilder zuordnen, die noch nicht aufgetreten sind. Man kann sie praktisch aus den Teilbildern konstruieren, die bisher gelernt worden sind. Gleiches geht aber auch schon bei Sprache.
Ist das der Trick von Google?
Das ist schon weit mehr als ein bloßer Trick. Mit dieser assoziativen Herangehensweise beginnt künstliche Intelligenz, zumindest der Weg dahin. Auch wenn das, was anscheinend bis heute damit erreicht wurde, gerade mal die einfachsten menschlichen Fähigkeiten abbildet. Ich postuliere, dass wir noch mehr als 20 Jahre brauchen, um menschliche Emotionen oder gar Kognition nachzubilden. Der Grund dafür ist, dass Kognition eine Steigerung der Assoziation bedingt. Kognition heißt nämlich, sich vorzustellen, was sein könnte, ohne einen Input zu haben. Das wäre zum Beispiel ein Traum oder eine Vision, wie ein Gebäude oder eine Stadt aussehen würde, die es noch gar nicht gibt.
Kann das nur ein Mensch?
Bisher kann das nur der Mensch, mit der Betonung auf bisher. Wenn man analysiert, wie Information zum einen im Gehirn, zum anderen in heutigen Computern verarbeitet wird, erkennt man, dass es sich hier um zwei völlig unterschiedliche Paradigmen handelt. Das menschliche Gehirn funktioniert über spikebasierte, räumlich-zeitliche Informationsverarbeitung, in der Muster quasi dreidimensional durchs Gehirn wandern. Im Zusammenspiel all dieser Muster sind die Informationen gespeichert. Der heutige Computer hingegen speichert Milliarden von Informationen in Silizium und berechnet nacheinander in einem schnellen Prozessor deren Interaktion. Das ist der grundlegende Unterschied, der bedingt, dass ein Computer nach der heutigen von-Neumann-Architektur aus meiner Sicht keine wirklich menschliche Intelligenz erreichen kann; einfach, weil wir eine viel zu simple Architektur benutzen.
Dennoch gibt es gerade in Deutschland eine zunehmende Angst davor, dass der Mensch vom Computer ersetzt werden könnte.
Ja natürlich. Ich möchte darum dazu beitragen, diese Angst zu besiegen, indem wir klarere Begriffe verwenden und uns darin ausbilden, maschinelle Lernverfahren zu verstehen und zu kontrollieren. Man kann das menschliche Gehirn heute bei weitem noch nicht vollständig verstehen oder sogar nachbilden. Gleichzeitig möchte ich die großen Chancen aufzeigen, die sich auftun, wenn man dem Computer beibringt, Wissen, das sich an vielen Stellen und bei Experten etabliert hat, zusammenzubringen und als Entscheidungsunterstützung und Kommunikationsmedium für alle Menschen verfügbar zu machen. Der Nutzen im Bereich Gesundheit wäre dabei besonders hoch. Man stelle sich nur einmal Demenz- oder Alzheimerpatienten vor, die dauerhafte Pflege brauchen. Mit diesen Menschen dauerhaft zu kommunizieren, kann eine extrem belastende Herausforderung für Pflegende sein, die ein Roboter, der sprechen und agieren kann, ohne zu ermüden, leisten könnte. Denn er kann hundert Mal dieselbe Frage beantworten, ohne dabei gestresst zu sein. Er kann auch hundert Mal dieselben Tätigkeiten machen und auf das Gegenüber eingehen, der im Alter häufig eben nicht mehr in der Lage ist, irgend etwas anderes als seine oft schon eingeschränkten menschlichen Sinne zu nutzen.
Wer will schon von einem Roboter gepflegt werden?
Im Endeffekt lautet die Antwort: Besser ein Roboter als keiner, weil für diese Art von Arbeit einfach nicht genug Menschen zur Verfügung stehen und die verfügbaren Pfleger dann endlich Zeit hätten, sich auch der sozialen und nur menschlich möglichen Betreuung zu widmen. Fähigkeiten, die Maschinen durch Lernen erreichen können, wenn sie es denn einmal schaffen, Mimik, Gestik und Sprache und visuelle Interpretation zu nutzen, können auch bei der Interaktion mit Patienten helfen. Gleiches gilt auch für die Diagnostik. Wenn vom System an jedem Ort und zu jeder Zeit typische Anam-nesefragen gestellt werden und aus den Eingaben durch maschinelle Verfahren eine oder mehrere wahrscheinliche Diagnosen und typische Behandlungsmöglichkeiten vorgeschlagen werden, dann kann so manches Symptom viel sicherer als mit der heute üblichen Googlesuche interpretiert werden. Notwendige Arztbesuche können früher erkannt, aber auch nicht notwendige vermieden werden. Dazu kommt dann die bildgebende Diagnostik mit einer Menge an Informationen, für die der menschliche Sinn eigentlich gar nicht ausgelegt ist. Wenn man all das zusammenführt, integriert und in einem adaptiven Regelwerk abbildet, sind wir ein gutes Stück weiter.
Das ist aber eigentlich immer noch Mustererkennung.
Es geht nun einmal um Mustererkennung. Es geht immer darum, bestimmte Muster, mit ganz vielen anderen Informationen zu assoziieren, und daraus die Wahrscheinlichkeit eines möglichen Outcomes zu berechnen, möglichst hinterlegt mit einer Handlungsempfehlung, mit dem die prognostizierten Outcomes verhindert oder verbessert werden können.
Was ist denn informationstechnisch das wirklich Neue?
Das Neue an diesen Methoden der neuronalen Mustererkennung ist die verteilende Informationsverarbeitung. Das kann man mit einem Fischernetz vergleichen – mit Kugeln an den vielen Netzknoten. Dieses Netz bildet mehrere Schichten, beginnend bei der Eingangsschicht, über diverse versteckte Schichten, sogenannte „Hidden Layers“, bis hin zur Ausgangsschicht. All diese Schichten sind im großen Fischernetz über alle möglichen Arten von Quer-Verbindungen vernetzt. Das nennt man dann neuronale Vernetzung, weil auch im menschlichen Gehirn alle Zellen zumindest theoretisch miteinander verbunden sind. In diesen Verbindungen bilden sich dann sogenannte Bahnungen.
Die dann die Verbindungen wiederum verstärken.
Exakt. Das Verstärken oder Reduzieren erfolgt durch die Lernregeln, die bestimme Verbindungen entweder stärker oder schwächer machen. Am Ende hat man dann eine dreidimensionale Struktur, in der Informationsverarbeitung in den einzelnen Knoten stattfindet. Die einfachste ist die Summierung, die beim Erreichen bestimmter Schwellwerte ein Outputsignal abgibt.
Was unterscheidet das von der Statistik? Das scheint eine ganz andere Methodik zu sein, Informationen zu verarbeiten.
Man könnte das als verteilte Statistik bezeichnen. Klassische Statistik versucht, z.B. eine Wahrscheinlichkeit eines Outcomes über eine Funktion zu berechnen, während ein neuronales Netzwerk mehrere Tausend Funktionen übereinander legt. Jeder Knoten realisiert eine oft recht einfache mikroskopische Übertragungsfunktion, die aber im Zusammenspiel aller Knoten komplexe Zusammenhänge zerlegen und makroskopische Eintrittswahrscheinlichkeiten berechnen kann.
Also eine Art Weiterentwicklung der Statistik?
Wenn man es ganz einfach bezeichnen will, könnte man sagen, dass es sich hier um eine Vervielfachung von statistischen Funktionen handelt, die man miteinander agieren lässt. Doch dazu benötigt man aber eine Datenstichprobe, die – wie groß sie auch immer ist – in Deutschland als Forschungsdatenbasis allen zur Verfügung steht. Darüber hinaus muss sie ausreichend kontrolliert und anonymisiert sein. In dieser geschützten Forschungsdatenbasis kann man dann verschiedene Modellierungsverfahren gegeneinander laufen lassen, Gütemaße entwickeln, bestimmte Versorgungs-Fragestellungen evaluieren und sicherlich auch medizinische Studien in dem Umfang durchführen, wie dafür die notwendigen Daten gespeichert sind.
Eine rosarote Vision?
Eine Vision sicher, aber eine, die durchaus Realität werden kann. Das ist eine Aufgabe, die sich innerhalb eines Jahres leicht technisch beginnen lässt, sich aber über viele Jahre als vertrauenswürdig und nützlich erweisen muss.
Das braucht ein starkes politisches Petitum.
Ich nehme zumindest wahr, dass sich keiner dagegen sperrt. In der Politik hat man erkannt, dass inzwischen auch Versorgungsforschung ein Wirtschaftsfaktor geworden ist. Wenn man erreichen will, dass innovative Gesundheitsprodukte in Deutschland entwickelt werden, muss man dem eine Basis geben.
Dann wäre eine Forschungsdatenbank auch Standortförderung.
Eine gesicherte und geschützte Datenbasis für die Forschung und Entwicklung, aber auch die schnelle Evaluation von Innovationen in der Versorgungspraxis ist immer auch Standortförderung. Diese Vision ist schon jetzt ein Ziel des HLaN – Health Reality Lab Network-Projekts, das wir im April dieses Jahres gestartet haben. Die Zukunft hat also schon begonnen, auch wenn sie sich noch etwas bedeckt hält.
Herr Prof. Zahn, danke für das Gespräch. <<
Das Interview führten MVF-Herausgeber Prof. Dr. Reinhold Roski und MVF-Chefredakteur Peter Stegmaier..
Zitationshinweis : Zahn, T., Roski, R., Stegmaier, P.: „Lernende Maschinen – Fluch oder Segen?“,
in „Monitor Versorgungsforschung“ (03/18), S. 6-13; doi: 10.24945/MVF.03.18.1866-0533.2075