Medizinische Forschung¶

Die Plattform unterstützt medizinische Forschung mit kuratierten, qualitätsgesicherten Datensätzen und klaren Zugriffsprozessen. Forschende erhalten genau die Informationen, die für ihre Fragestellung erforderlich sind.

Datenschutzkonforme Aufbereitung und nachvollziehbare Governance schaffen Vertrauen in Ergebnisse und Prozesse. Damit wird der Transfer von Daten in wissenschaftliche Erkenntnisse beschleunigt.

Weiterführend

Forschungsdatensätze werden nach dem Datenmodell strukturiert. Für probenbasierte Forschung, siehe Biobanking. Für Modellentwicklung, siehe Maschinelles Lernen.

Definition einer Research Data Pipeline¶

In der heutigen datengetriebenen Forschungslandschaft ist es entscheidend, eine robuste Research Data Pipeline aufzubauen, um Studien effizient und zuverlässig durchzuführen.

Eine Research Data Pipeline beschreibt den strukturierten Ablauf von der Datenerhebung über die Verarbeitung bis hin zur Analyse und Interpretation von Forschungsdaten. Durch eine klar definierte Pipeline können Forschende sicherstellen, dass Daten konsistent verarbeitet werden und Ergebnisse reproduzierbar bleiben.

Im Folgenden werden die zentralen Schritte beschrieben, die bei der Definition einer Research Data Pipeline wichtig sind.

Schritt 1: Baseline definieren¶

Der erste Schritt beim Aufbau einer Research Data Pipeline besteht darin, eine Baseline festzulegen.

Die Baseline bezeichnet den Zeitpunkt oder das Ereignis, ab dem Teilnehmende in einer Studie beobachtet werden. Sie bildet den Ausgangspunkt für alle weiteren Messungen und Analysen.

Typische Beispiele für eine Baseline sind:

der Beginn einer medizinischen Behandlung
der Zeitpunkt der Studienteilnahme
ein diagnostisches Ereignis

Eine klar definierte Baseline stellt sicher, dass alle Teilnehmenden unter vergleichbaren Bedingungen in die Analyse aufgenommen werden.

Schritt 2: Ein- und Ausschlusskriterien festlegen¶

Nachdem die Baseline bestimmt wurde, müssen Ein- und Ausschlusskriterien definiert werden.

Diese Kriterien bestimmen, welche Personen in die Studie aufgenommen werden können und welche ausgeschlossen werden müssen.

Einschlusskriterien legen fest, welche Eigenschaften Teilnehmende besitzen müssen.
Ausschlusskriterien definieren Bedingungen, unter denen Personen nicht teilnehmen dürfen.

Wichtig ist, dass diese Kriterien ausschliesslich auf Informationen basieren, die zum Zeitpunkt der Baseline bekannt sind. Informationen aus der Zukunft dürfen nicht verwendet werden, da dies zu Verzerrungen in der Analyse führen kann.

Schritt 3: Exposition definieren¶

Im nächsten Schritt wird die Exposition festgelegt.

Die Exposition beschreibt den Faktor oder die Intervention, deren Einfluss auf ein bestimmtes Ergebnis untersucht werden soll.

Beispiele für Expositionen sind:

eine bestimmte Behandlung
die Einnahme eines Medikaments
Umweltfaktoren oder Lebensstilfaktoren

Die Exposition kann auf unterschiedliche Weise definiert werden, zum Beispiel als:

einfache Einteilung (exponiert / nicht exponiert)
abgestufte Kategorien
kontinuierliche Variable

Die Wahl hängt von der Forschungsfrage sowie von den verfügbaren Daten ab.

Schritt 4: Outcome definieren¶

Der vierte Schritt besteht darin, das Outcome zu definieren.

Das Outcome beschreibt das Ereignis oder Ergebnis, das in der Studie gemessen werden soll. Es stellt den Endpunkt dar, anhand dessen beurteilt wird, ob und wie sich die Exposition auswirkt.

Beispiele für Outcomes sind:

Auftreten einer bestimmten Krankheit
Verbesserung eines Gesundheitszustands
Hospitalisierung
Tod

Die Definition des Outcomes muss klar und messbar sein, damit die Analyse später zuverlässige Ergebnisse liefern kann.

Schritt 5: Kovariaten definieren¶

Ein weiterer wichtiger Bestandteil einer Research Data Pipeline ist die Definition von Kovariaten.

Kovariaten sind Variablen, die den Zusammenhang zwischen Exposition und Outcome beeinflussen können. Werden sie nicht berücksichtigt, kann es zu verzerrten Ergebnissen kommen.

Typische Kovariaten sind zum Beispiel:

Alter
Geschlecht
sozioökonomischer Status
Vorerkrankungen
Lebensstilfaktoren

Durch die Einbeziehung dieser Variablen in die Analyse können Forschende störende Einflüsse kontrollieren und genauere Ergebnisse erzielen.

Schritt 6: Studiengrösse bestimmen¶

Der letzte Schritt besteht darin, die erforderliche Studiengrösse zu bestimmen.

Dabei wird berechnet, wie viele Teilnehmende notwendig sind, um statistisch zuverlässige Ergebnisse zu erhalten. Diese Berechnung wird oft als Power-Analyse bezeichnet.

Dabei werden mehrere Faktoren berücksichtigt:

erwartete Effektgrösse
Variabilität der Daten
gewähltes Signifikanzniveau
gewünschte statistische Teststärke

Eine zu kleine Stichprobe kann dazu führen, dass reale Effekte nicht erkannt werden. Eine zu grosse Stichprobe kann dagegen Ressourcen unnötig belasten.

Fazit¶

Eine klar strukturierte Research Data Pipeline ist entscheidend für qualitativ hochwertige Forschung.

Durch die systematische Definition von

Baseline
Ein- und Ausschlusskriterien
Exposition
Outcome
Kovariaten
Studiengrösse

können Forschende sicherstellen, dass ihre Analysen methodisch solide sind und die Ergebnisse belastbar bleiben.

Eine gut geplante Pipeline erleichtert ausserdem die Reproduzierbarkeit von Studien und verbessert die Transparenz des gesamten Forschungsprozesses.

Datenexport und Deidentifizierung¶

HealthData.ai ermöglicht den Export von Daten für Forschung, Reporting oder externe Verarbeitung. Dabei wird besonderer Wert auf Datenschutz und Datensicherheit gelegt.

Funktionen:

Export in standardisierte Formate wie CSV oder JSON
Deidentifizierung sensibler Daten vor der Weitergabe
Maskierung und Transformation entsprechend dem Verwendungszweck
kontrollierter Zugriff auf Exportfunktionen über Rollen und Freigaben

Dies stellt sicher, dass Daten sicher und regelkonform weiterverarbeitet werden können.