Uitgelicht traject: Haalbaarheidsstudie door TNO: EMA data analyse
Uitgelicht traject: Haalbaarheidsstudie door TNO: EMA data analyse
Door het gebruik van – voor de humane situatie – beter voorspellende preklinische modellen zullen minder kandidaat geneesmiddelen sneuvelen in het traject. Uiteindelijk betekent dit dat nieuwe geneesmiddelen sneller en met lagere kosten kunnen worden ontwikkeld. FAST vroeg TNO om een haalbaarheidsstudie uit te voeren die antwoord zou geven op de vraag: Is het mogelijk om met data analyse succesfactoren te vinden over ingezette (pre)klinische modellen, biologische eindpunten en species?
In het proces van geneesmiddelenonderzoek kan kennis van de toegepaste (pre)klinische modellen en biologische eindpunten in combinatie met hun uiteindelijke toelating bijdragen aan het inzichtelijk maken van de succesfactoren van het doorlopen proces – waaronder mogelijk de identificatie van translationele modellen. Een potentieel waardevolle databron om dit soort informatie te verzamelen is de European Medicine Agency (EMA), die verschillende documenten via haar website beschikbaar stelt. Om op een efficiënte manier inzicht te krijgen in gebruikte strategieën in geneesmiddelenonderzoek, is automatisering van data extractie door middel van tekst-mining technieken essentieel.
In dit traject wordt onderzocht of tekst-mining succesvol kan worden ingezet om kennis uit EMA documenten te extraheren. De nadruk ligt hierbij op geneesmiddel-specifieke informatie over ingezette (pre)klinische modellen, biologische eindpunten en species. Om hier een uitspraak over te kunnen doen, wordt een haalbaarheidsstudie uitgevoerd met een gering aantal EMA documenten – die een specifieke indicatie en een beperkt aantal geneesmiddelen omvat. De eerste focus ligt op de gebruikte preklinische modellen.
In de haalbaarheidsstudie wordt o.a. gekeken naar EMA-documenten over onderzoek naar epilepsie. Een eerste stap in het tekst-mining proces is de identificatie van (pre)klinische modellen in deze EMA-documenten. Omdat er geen allesomvattende lijst met modellen bestaat – mede door de creativiteit van auteurs in hun beschrijvingen van modellen – is een tekst-mining aanpak op basis van alleen een ontologie niet geschikt. Een uitgebreide analyse door TNO van bestaande tekst-mining modellen (Large Language modellen, bijv. ChatGPT) heeft daarnaast laten zien dat er nog geen goede tekst-mining modellen voorhanden zijn die (pre)klinische modellen herkennen. Daarom wordt door TNO een zogenaamd Named Entity Recognition-model gebouwd, een taalmodel dat erop is getraind om specifieke entiteiten, in dit geval (pre)klinische modellen, in een tekst te identificeren. Om een dergelijk model te kunnen ontwikkelen is voldoende trainingsdata vereist. Deze trainingsdata worden in deze studie gegenereerd door TNO-experts op het gebied van (pre)klinisch onderzoek. Daarmee maakt het uiteindelijke taalmodel gebruik van zowel de specialistische domeinkennis die bij TNO aanwezig is als de nieuwste ontwikkelingen in het domein van Natural Language Processing (NLP). Zo streven we er naar goed in kaart te brengen welke (pre)klinische modellen tot op heden zijn ingezet in het onderzoek naar epilepsie en wat de translationele waarde van deze modellen is, bijvoorbeeld door vast te stellen hoe vaak een model bij de goedkeuring van verschillende geneesmiddelen is ingezet. Het eerste resultaat van deze haalbaarheidsstudie is een rapport met een analyse van de performance van het tekst-mining algoritme om relevante data uit EMA documenten te extraheren. Hierbij worden ook de mogelijke verbeteringen en bijbehorende strategieën gerapporteerd. Daarnaast wordt een aanpak voor de doorontwikkeling van de EMA data analyse tot een tool voorgesteld.
Door inzichtelijk te maken welke preklinische modellen van translationele waarde zijn bij de ontwikkeling van nieuwe geneesmiddelen kunnen betere keuzes gemaakt worden bij het opstellen van een screeningscascade. Door het gebruik van – voor de humane situatie – beter voorspellende preklinische modellen zullen minder kandidaat geneesmiddelen sneuvelen in het traject. Uiteindelijk betekent dit dat nieuwe geneesmiddelen sneller en met lagere kosten kunnen worden ontwikkeld.