Wo man schon heute Daten aus diversen Quellen nutzt
http://doi.org/10.24945/MVF.06.20.1866-0533.2257
>> Nach einer sehr ausführlichen Darstellung der in zwölf sorgfältig ausgesuchten Ländern vorhandenen Datenverfügbarkeit und -nutzung postuliert Busse, dass eine gute Datengrundlage für Forschungszwecke vor allem dann vorliege, „wenn alle Informationen zur Interaktion von einzelnen Patienten mit dem Gesundheitssystem an einer zentralen Stelle gehalten werden“. So könnten leistungserbringer- und ggf. sektorenübergreifende Versorgungsprozesse abgebildet werden, im optimalen Fall auch im Zeitverlauf. Diese Bedingung ist nach Aussage des im Auftrag des Zi vorgelegten Gutachtens grundsätzlich in denjenigen Gesundheitssystemen erfüllt, die ein „Gatekeeping“-System in der Primärversorgung verankert haben; ein typisches Beispiel hierfür seien die Hausärzte in Großbritannien. Das typischste Beispiel für eine Datenbank, die von Hausärzten erfassten Daten zusammenführt, ist laut Zi-Gutachten der Clinical Practice Research Datalink (CPRD), der Daten von Praxen zusammenführt, die sich in das Programm eingeschrieben haben („Opt-in“). Patienten dieser Praxen können sich wiederum von der Datenübermittlung ausschließen lassen („Opt-out“), im Einklang mit der nationalen Opt-out-Regelung des NHS. Die von CPRD gehaltenen Daten können für Beobachtungsstudien beantragt oder zur Durchführung von experimentellen Studien unterstützend herangezogen werden. Sie können darüber hinaus mit anderen Datensätzen von NHS Digital verknüpft werden, um reichere, sektorenübergreifende Einsichten zu ermöglichen. Bereits mehr als 2.000 wissenschaftliche Studien haben CPRD-Daten genutzt, erläutert das Gutachten.
Als weiteres positives Beispiel wird Schottland angeführt, in dem 2016 der Scottish Primary Care Information Resource (SPIRE) gegründet worden sei, um Daten aus schottischen Praxen zusammenzubringen, um so den dort tätigen Hausärzten die Möglichkeit zu geben, sich über ihr Patientenkollektiv im Vergleich zu informieren, die Versorgung besser zu planen, sowie den schottischen National Health Service (NHS) dabei zu unterstützen, die Qualität der Versorgung zu monitoren und zu verbessern.
Die Initiative betont, dass es bei SPIRE nicht um eine zentrale Datenbank aller Informationen zu schottischen Patienten geht, sondern um die zielspezifische Zusammenführung von Parametern aus Hausarzt-Daten für konkrete, bewilligte Zwecke. Daten würden daher auch nicht länger gespeichert, als es für die Bearbeitung der jeweiligen Anträge notwendig sei, die Informationen würden danach vernichtet.
Auch die Datenbank zur Primärversorgung des niederländischen Forschungsinstituts NIVEL setzt Daten aus der Primärversorgung ein, allerdings kommen hier die Daten aus den elektronischen Praxisverwaltungssystemen auch von Leistungserbringern jenseits der Hausärzte zusammen. In den Niederlanden werde dieses Modell auch von anderen Institutionen bzw. Initiativen genutzt.
Allen diesen Initiativen, so ein Zwischenfazit, sei gemein, dass neben den Forschungsmöglichkeiten die Daten auch explizit für ein Feedback an die teilnehmenden Praxen genutzt werden, inklusive einer Möglichkeit, eigene Ergebnisse mit den von anderen Praxen zu vergleichen. Dies gäbe es auch in Ländern wie England, Kanada und den USA, wo für eine erfolgreiche Umsetzung eine „robuste technische Infrastruktur sowie starke wissenschaftliche und politische Unterstützung unabdingbar“ gewesen seien.
Im deutschen Gesundheitssystem gibt es durchaus etwas vergleichbares: das Zi-Praxis-panel. Ziel dieses Panel sei die Beobachtung von Qualität und Kosten, aber auch die Nutzung der Daten für die Versorgungsforschung. Der Aufbau der fachärztlichen Versorgung in Deutschland bedinge allerdings, dass im Gegensatz zu den oben beschriebenen Beispielen auch Fachärzte in diesem Praxispanel teilnehmen.
Daten aus unabhängig
entstandenen Beständen
Ebenfalls wurden im Laufe der Recherche zum vorgelegten Gutachten verschiedene Datenquellen mit unterschiedlichem Inhalt identifiziert, die über eine oder mehrere Verlinkungsvariablen verknüpft werden können. Dies seien keine Daten, die für den primären Nutzungszweck integriert erhoben worden sind oder zu einem neuen Datenbestand zusammengeführt werden, sondern erst für den sekundären Nutzungszweck (in diesem Fall für die Forschung) verknüpft werden müssen. Dies könne zum einen notwendig sein, da die Daten für den primären Zweck nur einen sehr abgegrenzten Bereich abdecken (für Deutschland führt das Gutachten die §21er KHEntgG-Daten als Beispiel an); oder zum anderen, weil noch eine zusätzliche Erweiterung eines bereits umfangreichen Datensatzes notwendig sein kann, um bestimmte Forschungsfragestellungen entsprechend beantworten zu können. Hier sind beispielsweise Verknüpfungen von Daten der gesundheitlichen Versorgung mit Daten zur Berufstätigkeit/Arbeitslosigkeit oder von klinischen Daten mit Abrechnungsdaten gemeint.
Das übergreifende Ziel dieser Daten-Initiativen ist es, Daten aus verschiedenen Quellen, insbesondere von verschiedenen öffentlichen Institutionen, miteinander zu verlinken. Damit könnten zum Beispiel Daten zur gesundheitlichen Versorgung mit Daten aus dem Bildungsbereich und Kriminalitätsstatistiken verknüpft werden.
Auf Basis zentraler Datenhaltungs-Stellen für die Zusammenführung unabhängig entstandener Datensätze eröffnen sich nach Meinung der Gutachten-Autoren Möglichkeiten für die Versorgungsforschung. Beispiele dafür seien Initiativen wie eDRIS in Schottland oder PHARMO in den Niederlanden sowie die finnische Aktion FinData.
Unterschiedlich und relevant im Hinblick auf die Überlegungen für eine potenzielle Ideengewinnung für den deutschen Raum sei das Ausmaß der Konsolidierung der unterschiedlichen Datenbestände. So knüpfen zum Beispiel das australische Population Health Research Network (PHRN) und das kanadische Social Data Linkage Environment (SDLE) die Daten projektspezifisch zusammen, während die Quelldatensätze grundsätzlich verteilt bleiben. Im Gegensatz dazu fügt die „integrierte“ neuseeländische Integrated Data Infrastructure (IDI) eingegangene Daten mithilfe eines „Spine“ zusammen. Interessant im Ansatz des PHRN sei auch, dass die regionalen Behörden auf Bundesstaatsebene eigene Verlinkungsstellen haben, die im Netzwerk des PHRN kooperieren, die aber auch eigene Verlinkungen durchführen. Dieser Gedanke, so die Autoren des Gutachtens, könnte auch für das deutsche Gesundheitssystem in Erwägung gezogen werden. Sie denken da beispielsweise an eine Kombination mit einer Ausgestaltung des bereits 2011 gegründeten German Record Linkage Centers (GRLC) der Universität Duisburg-Essen in Kooperation mit dem Forschungsdatenzentrum (FDZ) der Bundes-agentur für Arbeit (BA).
Unterschiede im Verlinkungsprozess
Eine erfolgreiche Verlinkung setzt nach Ansicht der Gutachten-Autoren die Möglichkeit einer eineindeutigen Zuordnung von Informationen aus separaten Datensätzen voraus. Dazu seien geeignete Schlüsselvariablen notwendig, die in allen zu verlinkenden Datensätzen vorhanden sein müssen. Für eine personenbezogene Verlinkung sei es aus datenschutzrechtlichen Gründen zudem häufig notwendig, statt eindeutiger personenidentifizierender Merkmale aus den Originaldaten (wie etwa eine Versicherungs- oder Ausweisnummer) Pseudonyme einzusetzen. Dabei müsse jedoch für alle zu verlinkenden Datenquellen dasselbe Pseudonymisierungsverfahren angewendet werden.
Die Zuständigkeiten für die Pseudonymisierung der Daten sowie der Prozess der De-Identifikation der Datenbestände könne, so die Autoren weiter, erheblich zur Bewahrung der Anonymität und zum Schutz der Privatsphäre beitragen.
In Deutschland wäre es bisher datenschutztechnisch herausfordernd gewesen, einen breiten Einsatz der Verlinkung von gesundheitsbezogenen Daten zu etablieren. Nichtsdestotrotz würden jedoch erfolgreiche Fallbeispiele zeigen, dass die entsprechenden Möglichkeiten besser ausgenutzt werden können. Auch seien mit der „Guten Praxis Datenlinkage“ methodische Standards zur Verlinkung personenbezogener Daten im Rahmen von Forschungsvorhaben formuliert worden.
Zwar gehe nach Meinung der Autoren eine detaillierte technische Beschreibung möglicher De-Identifikations- und Verlinkungsoptionen über den Rahmen des vorgelegten Gutachtens hinaus, nichtsdestotrotz erscheint es ihnen sinnvoll, beispielhaft vereinzelte Ansätze zu beleuchten, um erste Ideen für zukünftige Diskussionen zu erlauben.
So gebe es in der Stichprobe der in das Gutachten eingegangenen Fallstudien ein Cluster, welches ein Verfahren basierend auf einer zugrundeliegenden, „verankernden“ Liste von Personen nutzt, um mittels identifizierender Merkmale diese Personen in den zu verlinkenden Datensätzen zu identifizieren und somit Daten zu verknüpfen. Beispielshaft genannt wird hier das im neuseeländischen IDI verwandte „IDI Spine“. Dieses Spine stelle, so die Erklärung im Gutachten, eine Liste von Individuen dar, die Informationen der Finanzämter mit Geburten- und Visum-Angaben kombiniert. Ziel des Spines sei es, alle möglichen Individuen zu identifizieren, die jemals in Neuseeland gewohnt haben (Zielpopulation), die aber nur ein einziges Mal zu erfassen.
Alle Mikrodaten der im IDI abgebildeten Sektoren werden dann mit dem Spine verknüpft und könnten somit auch miteinander verlinkt werden, jedoch ohne ein eineindeutiges identifizierendes Merkmal über die unterschiedlichen Sektoren hinweg zu verwenden. Ähnlich funktioniere auch das „Population Spine“ (PS) in Schottland, welches für die Verlinkungen über eDRIS herangezogen wird. PS bilde alle Personen in Schottland ab, die jemals in Kontakt mit NHS Scotland waren, samt ihrer Identifikatoren.
Die hier genannten Verlinkungsinitiativen würden aufzeigen, dass auch ohne das Vorhandensein eines eindeutigen Identifikators eine Verknüpfung auf Basis anderer identifizierender Merkmale möglich ist und seit mehreren Jahren erfolgreich eingesetzt wird. <<
von: MVF-Chefredakteur Peter Stegmaier
Zitationshinweis:
Zitationshinweis
Stegmaier, P.: „Wo man schon heute Daten aus diversen Quellen nutzt“, in: „Monitor Versorgungsforschung“ (06/20), S. 12-14; doi: http://doi.org/10.24945/MVF.06.20.1866-0533.2257