Übersichtsartikel
7 Min.

Big Data in der pharmazeutischen Forschung

Forschung und Entwicklung ist erfolgsentscheidend

Forschende pharmazeutische Unternehmen sind auf die Entwicklung innovativer Arzneimittel mit hohem medizinischen Zusatznutzen angewiesen, um Gewinne zu erwirtschaften (1, 2). Der zusätzliche Nutzen ergibt sich aus einem direkten Vergleich mit etablierten Therapiestandards und dient als Bewertungsgrundlage (im Vergleich zu einem zugelassenen Arzneimittel) für die Preissetzung. Mittlerweile betragen die Kosten eines neuen Medikaments von der Entwicklung bis zur Markteinführung bis zu 2,8 Milliarden Euro. Gleichzeitig  liegt die Erfolgswahrscheinlichkeit einer im Durchschnitt bei rund 12 Prozent (2, 3). Dabei scheitert eine Zulassung überwiegend an einem mangelnden Wirksamkeitsnachweis innerhalb der klinischen Studie (4). Im Kontext der Entwicklung innovativer Arzneimittel stellt sich die Frage, wie Werkzeuge Forschungskosten und Zulassungsrisiken reduzieren können.

Digitale Datenquellen für die Gesundheitsforschung

Die pharmazeutische Forschung basiert in der Regel auf Daten, die ausgewertet werden um bestimmte Hypothesen aufzustellen, zu bestätigen oder zu widerlegen. Exemplarisch kann innerhalb einer klinischen Studie ermittelt werden, ob ein Wirkstoff zur Tumorbekämpfung wirksam ist. Vor diesem Hintergrund bergen die stetig wachsenden digitalen Datenmengen große Chancen für die Forschung (5-8): Getrieben durch die zunehmende Digitalisierung der Gesundheitsversorgung steigt exemplarisch der Einsatz digitaler Patientendaten in elektronischen Gesundheitsakten. Gleichzeitig entstehen relevante Datensätze außerhalb des Versorgungsgeschehens. Beispielsweise werden in sozialen Netzwerken Daten geteilt, die Aufschluss über den Gesundheitszustand eines Individuums geben, jedoch nicht in den digitalen Patientendaten vermerkt sind (9, 10). Unterschiedliche Herausforderungen der Verwendung ergeben sich in diesem Kontext: Der Datenzugang kann, unter anderem aufgrund des Datenschutzes, eingeschränkt sein.  Neben dem Zugang stellt jedoch die Struktur der Daten ein grundlegendes Problem dar: Beispielsweise sind Freitextfelder, wie sie in Patientenakten oder Posts in sozialen Netzwerken vorkommen, unstrukturiert (5, 8, 10). Diese unstrukturierten Rohdaten können, ohne eine angemessene Datenbereinigung und -aufbereitung, nicht effizient genutzt werden.  Somit stellt nicht mehr die Verfügbarkeit, sondern die Aufbereitung und Auswertung eine wesentliche Herausforderung im Umgang mit unstrukturierten digitalen Datensätzen dar (5, 8, 11-13).

– unterschiedliche Ansätze

Eine Möglichkeit, der Datenflut zu begegnen, stellt im Allgemeinen und das untergeordnete Themenfeld des (ML) im Speziellen dar. ML unterstützt die Auswertung der zunehmend verfügbaren digitalen strukturierten sowie unstrukturierten Rohdaten (Primärdaten). Grundsätzlich kann zwischen zwei Ausprägungen des ML, dem Supervised und Unsupervised Learning, unterschieden werden (8, 11-13). Das Supervised Learning basiert auf Datensätzen, die einen bestimmten Input und einen zugehörigen Parameter definieren. Ein Datensatz kann zum Beispiel eine Kategorisierung von Tumor-Subtypen aus Pathologieproben enthalten, die bereits durch einen Pathologen klassifiziert wurden. Wenn der mit diesem „Trainingsdatensatz“ angelernt wurde, kann dieser genutzt werden, um Tumorpathologie-Objektträger selbstständig zu kategorisieren (8, 11-13). Zugehörige Algorithmen ermöglichen somit unter anderem die Prädiktion und Diagnose von Krankheiten (8). Im Gegensatz dazu kann Unsupervised Learning genutzt werden, um in Datensätzen Muster und Cluster zu erkennen, ohne das die Datensätze ein definiertes Ergebnis enthalten. Der entscheidet dabei selbstständig, welche Merkmale des Datensatzes relevant sind. Anschließend kann der anhand der identifizierten Merkmale die Datensätze kategorisieren und Cluster bilden (11-13). Auf diese Weise können beispielsweise unbekannte Phänotypen einer Krankheit identifiziert werden (13).

Anwendungsmöglichkeiten im Forschungsprozess

Im Kontext der pharmazeutischen Industrie ergeben sich verschiedene Einsatzszenarien des ML. Innerhalb des Entwicklungsprozesses von Arzneimitteln scheitern die meisten Medikamente in den klinischen Testphasen II und III, entweder aufgrund inakzeptabler Nebenwirkungen oder mangelnder Wirksamkeit. Das grundlegende Problem stellt oft die Auswahl eines falschen Wirkungsziels dar (zum Beispiel Gene oder Proteine). Exemplarisch wird ein Protein moduliert, welches nicht  geeignet ist, um einen beabsichtigten medizinischen Effekt hervorzurufen (6, 11). Grundsätzlich wird die Entscheidung zur Modulierung eines bestimmten „Ziels“ mittels einer Analyse bestehender Forschung getroffen. Es gilt relevante Beziehung zwischen verschiedenen biologischen und chemischen Faktoren zu erkennen. Das manuelle Generieren dieser notwendigen Erkenntnisse nimmt einige Stunden in Anspruch. Eine liest und kartographiert die Zusammenhänge unterschiedlicher digitaler Datensätze, beispielsweise unterschiedlicher Bio- und Literaturdatenbanken in Sekunden und kann somit zur Identifikation von Zielmolekülen eingesetzt werden. Weitere Anwendungsgebiete liegen in der Auswahl von Molekülen und entsprechenden Patientenpopulationen, u.a. für Medikamente der  (6, 8, 11).

ML als Wettbewerbsvorteil

ML ermöglicht eine effiziente Nutzung der wachsenden digitalen Datenmengen und kann somit den Entwicklungsprozess eines Medikaments unterstützen, indem die Entwicklungszeit verkürzt, sowie das Investitionsrisiko einer Wirkstoffentwicklung und Personalkosten aufgrund manueller Datenauswertungen gesenkt werden. Dementsprechend sollten Pharma-Unternehmen verstärkt Kompetenzen im Bereich ML aufbauen, um die Wettbewerbsfähigkeit zu steigern. Hier stellen unter Umständen Technologie-Unternehmen sinnvolle Kooperationspartner dar: Sie haben das Know-How im Bereich ML und Zugang zu umfassenden Datensätzen.

  1. Makady A, Ham RT, de Boer A, Hillege H, Klungel O, Goettsch W, et al. Policies for Use of Real-World Data in A Comparative Study of Six Agencies. Value Health. 2017;20(4):520-32 zum Original
  2. DiMasi JA, Grabowski HG, Hansen RW. Innovation in the pharmaceutical industry: New estimates of R&D costs. J Health Econ. 2016;47:20-33 zum Original
  3. Gautam A, Pan X. The changing model of big pharma: impact of key trends. Drug Discov Today. 2016;21(3):379-84 DOI.10.1016/j.drudis.2015.10.002
  4. Fogel DB. Factors associated with clinical trials that fail and opportunities for improving the likelihood of success: A review. Contemp Clin Trials Commun. 2018;11:156-64 zum Original
  5. Yazdani A, Safdari R, Golkar A, S RNK. Words prediction based on N-gram model for free-text entry in electronic health records. Health Inf Sci Syst. 2019;7(1):6 zum Original
  6. Fan S, Chen Y, Luo C, Meng F. Methods in Precision Medicine Targeting Epigenetic Diseases. Curr Pharm Des. 2018;24(34):3998-4006 zum Original
  7. Purswani JM, Dicker AP, Champ CE, Cantor M, Ohri N. From Small Devices: The Future of Smartphones in Oncology. Semin Radiat Oncol. 2019;29(4):338-47 zum Original
  8. Alonso SG, de la Torre Diez I, Rodrigues J, Hamrioui S, Lopez-Coronado M. A Systematic Review of Techniques and Sources of in the Healthcare Sector. J Med Syst. 2017;41(11):183 zum Original
  9. Vayena E, Dzenowagis J, Brownstein JS, Sheikh A. Policy implications of in the health sector. Bull World Health Organ. 2018;96(1):66-8 zum Original
  10. Eichstaedt JC, Smith RJ, Merchant RM, Ungar LH, Crutchley P, Preotiuc-Pietro D, et al. Facebook language predicts depression in medical records. Proc Natl Acad Sci U S A. 2018;115(44):11203-8 zum Original
  11. Hunter J. How is driving innovation in the pharmaceutical industry. The Biochemist. 2019;41(5):6-9 DOI.zum Original
  12. Lavecchia A. in drug discovery: opportunities, challenges and future prospects. Drug Discov Today. 2019;24(10):2017-32 zum Original
  13. Seymour CW, Kennedy JN, Wang S, Chang CH, Elliott CF, Xu Z, et al. Derivation, Validation, and Potential Treatment Implications of Novel Clinical Phenotypes for Sepsis. JAMA. 2019;321(20):2003-17 zum Original

Kontakt
Lehrstuhl für Management und
Innovation im Gesundheitswesen
Universität Witten/Herdecke
Alfred-Herrhausen-Straße 50
58448 Witten, Deutschland