Door de snelle ‘vercomputering’ van het chemisch lab komen labmedewerkers om in de data. Bijna elk laboratoriuminstrument wordt tegenwoordig geleverd met een computer en gespecialiseerde software voor het vergaren en analyseren van gegevens. In vergelijking met vroeger kan de apparatuur zelf meer en complexere data genereren in een steeds korter tijdsbestek. Met als gevolg dat de hoeveelheid gegenereerde en opgeslagen data in het lab in de afgelopen jaren exponentieel gestegen is. Dat brengt ons tot de vraag: hoe ga je om met data in het chemisch lab? De visie van een aantal experts. XML en integratie zijn hierbij sleutelwoorden.
Kenner van het laboratoriumdata-gebied is Thermo Electron Informatics. Dit bedrijf is een toonaangevende leverancier wereldwijd van laboratorium informatiemanagement systemen (LIMS), chromatografie datasystemen, oplossingen voor het archiveren van analytische data en software voor het verwerken van data.
Thermo is duidelijk aanwezig geweest op de Pittcon 2003 conferentie van 9 tot 14 maart jl. in Orlando (VS), waar veel aandacht is besteed aan ‘laboratory informatics’. Marijn Dekkers, president en CEO van Thermo Electron Corporation, noemt hier dat een gestandaardiseerde benadering noodzakelijk is voor het hanteren en archiveren van data in het laboratorium. Enerzijds omdat er veel verschillende typen instrumenten zijn (GC, MS, UV, etc.) en anderzijds omdat er veel verschillende bedrijven zijn die deze instrumenten maken, elk met verschillende formats van de databestanden.
XML als ideaal data-format?
Volgens Don Kuehl van Thermo is een ideaal data-format open (geen rechten die aan een bepaalde apparatuur-leverancier toebehoren), onafhankelijk van het operating system, gebaseerd op bestaande standaarden in het publieke domein en gemakkelijk uitbreidbaar. Daarnaast moet het een nauwkeurige en complete voorstelling van zaken weergeven, en moeten gegevens die in het verleden zijn gemeten ook nog toegankelijk zijn in de toekomst wanneer de oorspronkelijke software niet meer beschikbaar is.
Populaire standaard data-formats uit het publieke domein die tegenwoordig gebruikt worden zijn AnDI/netCDF (van de American Society for Testing and Materials (ASTM) werkgroep E01.25, met name gebruikt bij spectroscopie en chromatografie), JCAMP (van de International Union for Pure and Applied Chemistry (IUPAC), ondersteunt met name optische spectroscopie, NMR en MS) en Thermo Galactic SPC (ontwikkeld door de industrie, gebruikt in optische spectroscopie). Deze formats wijken allen op de één of andere manier af van het ‘ideale’ format.
Het ideale format wordt volgens Kuehl heel nauw benaderd door XML. XML, een afkorting voor eXtendend Markup Language, is gerelateerd aan HTML, de taal waarin webpagina’s geschreven zijn. “XML is een data-beschrijvende taal gebaseerd op alleen ASCII. Het bestaat uit elementen (de data), kenmerken (die de eigenschappen van een element beschrijven) en een schema (dat verbanden legt tussen elementen en kenmerken). XML kan worden gebruikt voor elk data-type, is platform-onafhankelijk, uitbreidbaar en een standaard in het publieke domein (uitgebracht door W3C).”
Meerdere XML-initiatieven
De toepasbaarheid van XML voor analytische data heeft al geleid tot het opkomen van meerdere (onafhankelijke) initiatieven. Een aantal hiervan is:
- GAML (Generalized Analytical Markup Language) van Thermo Electron Informatics in samenwerking met apparatuurbouwers en -gebruikers. Dit is een publiek domein XML-schema voor instrumentele data, momenteel geïmplementeerd voor onder meer FT-IR, UV-VIS, GC/LC, MS, NMR, thermische analyse en fluorescentie.
- De ASTM E13.01 werkgroep ontwikkelt nieuwe XML-gebaseerde data-standaarden.
- De ASTM E01.25 werkgroep (analytische data-standaarden) onderzoekt het gebruik van XML als web-model voor onafhankelijke wijze van data-access.
- IUPAC kijkt naar XML voor het implementeren van een data-standaard model.
- CENSA, een industrieel consortium voor het opzetten van ELN-standaarden, beveelt het gebruik aan van XML/web-gebaseerde integratie voor Electronic Laboratory Notebooks.
Hoewel XML an-sich een goed data-format is, kan de verscheidenheid aan XML-initiatieven met hun verschillende XML-schema’s roet in het eten gooien voor het realiseren van standaardisering. Kuehl weet echter te melden dat alle bovenstaande groepen met elkaar in gesprek zijn, en zouden willen komen tot een eenduidige standaard voor analytische data, gebaseerd op het GAML data-model: “Thermo brengt expertise en het GAML-model zelf in. De ASTM E01.25 werkgroep en het IUPAC hebben het voornemen om mee te doen met E13.01 voor het vormen van één XML data-standaard groep. Tenslotte kijkt CENSA naar GAML als basis voor een XML data-standaard.”
Bioinformatica
Binnen de chemie neemt biochemie of biotechnologie een belangrijke plaats in, vooral als ‘grootgebruiker’ van data. De Nederlandse biotechnologische sector zat het afgelopen jaar duidelijk in de lift, met een toename in werkgelegenheid van 14% en een omzetvermeerdering van 30%. Dus ook een toename aan data. De hoeveelheid data in de biotechnologie neemt exponentieel toe in de loop der tijd.
Bioinformatica is het vakgebied dat zich bezighoudt met de verwerving (data-acquisitie), verwerking, analyse en opslag van biotechnologische data. In de afgelopen maanden heeft bioinformatica in Nederland veel aandacht gekregen. Op 23 mei jl. kwam Chemometrisch Nederland samen in De Vereeniging in Nijmegen om de toekomst van de data-analyse in de (bio)chemische wetenschappen te bespreken. Dit naar aanleiding van het vierde lustrum van de werkgroep Chemometrie van de sectie Analytische Chemie van de KNCV. En op 20 juni vond in het Utrechts Medisch Centrum het symposium “Bioinformatics at the Interface” plaats, verzorgd door de werkgroep Bioinformatica van de Nederlandse Vereniging voor Biochemie en Moleculaire Biologie (NVBMB) en de KNCV.
Integratie
Biotechnologische gegevens worden niet gegenereerd voor de gegevens alleen. Er moet ook iets mee gebeuren: we moeten er kennis uit halen, en daarom is integratie nodig. Vele (geïsoleerde) groepen genereren en analyseren biologische data, maar pas wanneer deze gegevens aan elkaar gekoppeld worden heeft het geheel een meerwaarde. “Bioinformatica databases als NCBI, EnsEMBL, FlyBase, SGD, WormBase en UCSC verschaffen allen relevante data. Ze gebruiken echter verschillende systemen en formats, waardoor ze niet optimaal met elkaar communiceren. Daarnaast komt de moderne onderzoeker om in de veelheid aan data-types, gerelateerd aan MS, moleculaire structuren, micro-array en DNA-sequencing. Voor vergelijking en interpretatie van deze data is een geïntegreerde oplossing nodig”, aldus Don Crosset van Thermo Electron Informatics.
Een traditionele manier van het integreren van afzonderlijke data-bronnen is door ze te organiseren in een combinatie van databases (met een algemeen schema en een centraal query (=vraag) mechanisme) of door ze te plaatsen in een database warehouse (periodiek laden van alle data naar een centrale locatie). Het gebruik van het internet verschaft nieuwe mogelijkheden, vooral wanneer gebruik wordt gemaakt van open internet standaarden als XML en HTTP. Crosset ziet met name in deze ‘web services’ een grote toekomst voor de integratie van bioinformatica: “MicroSoft heeft in 2000 80% van haar R&D-budget geïnvesteerd in het .NET framework en in web services. Verder is de technische infrastructuur beschikbaar, zoals XML als transport format, XSD als taal voor data-definitie en SOAP als uitwisselingsprotocol.” Crosset geeft aan de ‘data-verschaffers’ de volgende suggesties mee voor het gemakkelijk integreren van bioinformatica-bronnen: “Gebruik bestaande data-formats (vind het wiel niet opnieuw uit), en houd het simpel en praktisch wanneer je toch nieuwe data-formats moet ontwerpen (bijvoorbeeld ASCII, XML).”
Integratie van data in het AMC
Een organisatie waar met grote hoeveelheden biotechnologische data wordt gewerkt is het Academisch Medisch Centrum (AMC) in Amsterdam. Klinische data wordt gegenereerd, verwerkt en opgeslagen. Het betreft gegevens als patiëntenregistratie, resultaten van bloed- en urine-onderzoek en röntgenfoto’s, maar ook bijvoorbeeld bacteriën en virussen in het menselijk lichaam of operatie-gegevens. Deze gegevens worden opgeslagen in diverse databases. Daarnaast wordt er in het AMC gewerkt met moleculaire data zoals genmutaties maar ook complexere data zoals gen-expressie-profielen verkregen met DNA micro-arrays en eiwitdata verkregen met moderne massa-spectrometrische technieken als MALDI-TOF en SELDI.
Zowel vanuit het oogpunt van patiëntenzorg (diagnose, prognose, behandeling) als vanuit het oogpunt van fundamenteel onderzoek is het noodzakelijk om de klinische data en de moleculaire data te integreren. Dr. Antoine van Kampen, het hoofd van het Bioinformatica Laboratorium van het AMC, is hier nauw bij betrokken. Zijn werkgebied, de moleculaire geneeskunde, houdt zich bezig met het ontwikkelen van statistische methoden en database tools voor het stellen van diagnoses en maken van prognoses, het verkrijgen van inzicht in de moleculaire processen die ten grondslag liggen aan ziekten, en het ontwikkelen van nieuwe behandelmethoden en geneesmiddelen.
Van Kampen noemt als voorbeeld de wijze waarop binnen het AMC wordt omgegaan met gegevens over chronische darmontstekingen (in het Engels Inflammatory Bowel Disease of IBD) zoals de Ziekte van Crohn en Colitis Ulcerosa. Er zijn ongeveer 1500 geregistreerde patiënten in het AMC, en er komen jaarlijks 80 tot 100 nieuwe patiënten bij in de regio Amsterdam.
Het Bioinformatica Laboratorium heeft samen met de afdeling Maag-darm-leverziekten van het AMC een IBD-database ontwikkeld. Deze database bevat informatie over ruim 2000 Crohn/Colitis patiënten, zoals gegevens van ziekenhuisbezoek, diagnose, medicatie, chirurgie, etc. Deze database is gekoppeld aan andere ziekenhuisdatabases zoals voor de patiëntenregistratie en radiologie, en aan de DNA-database met hierin genmutaties. Er is een directe link met de patiëntgegevens, en de link tussen de IBD-database en de overige databases loopt via een IBD database warehouse (IBD-DW). Probleem met het huidige systeem is dat er verschillende protocollen zijn (zoals SQL en URL) om tussen de databases te communiceren. Van Kampen: “Wat we graag zouden willen is een generiek systeem voor integratie van data per patiëntpopulatie in een datawarehouse en op zo’n manier dat de arts of onderzoeker kan selecteren welke gegevens hij of zij wil. Over de opzet van zo’n generiek systeem wordt nu in het AMC discussie gevoerd, en het zal nog enkele jaren duren voordat zo’n generiek systeem er is. Bij de integratie van data zullen echter queries plaatsvinden op de ziekenhuisdatabases voor patiëntpopulaties. Dit geeft een grote belasting op het systeem, en dat is één van de moeilijkheden waarvoor een oplossing moet worden gevonden.”
‘Omgaan met data in het (bio)chemisch lab’ is verschenen als artikel in het vakblad Chemisch2Weekblad, editie 17, 13 september 2003, pagina 18-19.