Datareductie: tussen meten en weten

Moderne analyse-instrumenten leveren een stortvloed aan meetgegevens. Automatische dataverwerking is noodzakelijk voor het verkrijgen van relevante informatie. Maar: waaruit bestaat slimme software die de datastroom filtert op belangrijke informatie en hoe wordt dit vervolgens goed in beeld gebracht? Een korte cursus datareductie voor het laboratorium.

Veel analysetechnieken in het chemische laboratorium zijn spectroscopisch of chromatografisch van aard. De data die uit zo’n meetinstrument rolt is een gemeten signaal als functie van golflengte of retentietijd. Deze ‘ruwe data’ heeft vaak de vorm van een heuvellandschap met scherpe of stompe pieken.
Tussen het meten van de data en het toekennen van een bepaalde betekenis aan de meetresultaten ligt het gebied van de dataverwerking. Een belangrijke stap hierin is het reduceren van de ruwe data tot een geordend patroon. Analyse-software helpt hierbij. Visualisatie-software presenteert deze informatie zodat structuur, patronen en trends naar voren komen. Interactieve gecombineeerde analyse-visualisatie-software maakt het mogelijk om handig door de data te navigeren.

Ruisonderdrukking
Voor een goede data-analyse moet het daadwerkelijke meetsignaal (de pieken) zich onderscheiden van de altijd aanwezige ongewenste ruis. Om de signaal-ruis-verhouding te verbeteren kun je een spectrum of chromatogram meerdere malen achter elkaar meten, en de meetwaarden puntsgewijs bij elkaar optellen (‘sample averaging’): terwijl een meetsignaal zich altijd vermeerdert bij optellen, middelt de ruis zich uit.
Ook kan de signaal-ruis-verhouding verbeterd worden door ‘smoothing’ of gladstrijken. De gemeten datapunten worden zodanig aangepast dat punten die hoger liggen dan de direct omliggende punten lager komen te liggen, en punten die lager liggen dan de omgeving hoger komen te liggen. Dit leidt tot een ‘gladder’ signaal. De ruis wordt hiermee sterk onderdrukt terwijl een piek in de data nauwelijks verandert.
Een derde mogelijkheid voor het reduceren van ruis is door gebruik te maken van de Fouriertransformatie van de meetdata. Transformeer de data naar het frequentie-domein door het weer te geven als een som van sinus- en cosinus-golven, verwijder alle frequenties boven een bepaalde limiet, en transformeer het resultaat terug. Achterliggende gedachte hierbij is dat signaal-componenten alleen bij lage frequenties voorkomen, en ruis-componenten bij hoge frequenties.

Basislijn
Voor het verkrijgen van nauwkeurige meetresultaten bij een kwantitatieve analyse is het nodig om de effecten van de achtergrond of basislijn te verwijderen, vooral wanneer het spectrum bestaat uit veel pieken of de basislijn een onregelmatige vorm heeft.
Soms is de interventie van de analyticus nodig, om handmatig de plaats van de basislijn aan te geven. De analyticus geeft dan een aantal meetpunten aan waardoor een rechte lijn of curve gefit wordt, en deze wordt afgetrokken van de ruwe data.
Een goede automatische methode voor het verwijderen van basislijn-effecten is het gebruik van ‘afgeleiden’ van spectra. Achterliggend principe hierbij is dat punten van een basislijn daar liggen waar de tweede afgeleide van de data (verandering in de helling van een spectrale curve) ongeveer gelijk aan nul is, en constant is over een bepaald bereik. De tweede afgeleide wordt gebruikt om onderscheid te maken tussen pieken en basislijn in de ruwe data (zie figuur). Is de basislijn op bovenstaande manier bepaald, dan wordt hierdoor een functie of polynoom gefit, en wordt de gefitte basislijn van de ruwe data afgetrokken.
Wanneer het gehele spectrum uit weinig pieken bestaat, is het eenvoudiger en efficiënter om de basislijn-aftrek niet uit te voeren, maar mee te nemen in de volgende stap waarbij de pieken van het spectrum gefit worden.

Analyseren van pieken
De relevante data van spectra en chromatogrammen wordt gevonden in de meetsignalen of pieken. Van belang zijn de precieze plaats van de piek en het oppervlak onder de piek of hoogte van de piek. De piekpositie bepaalt de plaats (golflengte, retentietijd) waar een signaal gevonden wordt, en het piekoppervlak de intensiteit van het meetsignaal. Zo is bij chromatografie het piekoppervlak evenredig met de hoeveelheid samplemateriaal die door de detector gaat.
Een veelgebruikte methode voor het bepalen van de positie van de pieken maakt gebruik van de ‘gesmoothe’ tweede afgeleide van de meetdata. Deze methode vangt meerdere vliegen in één klap: onderscheiden van pieken en achtergrond, bepalen van de piekposities en vinden van ‘verborgen pieken’. Deze laatste categorie van pieken is niet te vinden als een ‘hobbel’ in het spectrumlandschap, maar wel bijvoorbeeld als een schouder aan een grotere of bredere piek. Het bestaan van een lokaal minimum in de tweede afgeleide geeft de aanwezigheid van een verborgen piek aan (zie figuur).
Een visueel eenvoudigere manier voor het vinden van verborgen pieken is door de duidelijk zichtbare pieken af te trekken van de ruwe meetdata. Wanneer ‘hobbels’ zichtbaar zijn in het verschil kan dit duiden op verborgen pieken.
Voor het bepalen van het oppervlak onder gevonden pieken wordt de ruwe data gefit met een aantal voorgedefinieerde curves, bijvoorbeeld Gaussische-, Lorentz- of Voigt-krommen. De beste fit is die waarbij het verschil tussen de ruwe data en de gefitte curven minimaal is. Door de best-passende curve te integreren verkrijg je het oppervlak onder de piek, en dus de intensiteit van het signaal.
De techniek van het niet-lineaire curve-fitten omvat een groot deel van bovengenoemde stappen, zoals ruisonderdrukking, fitten van de basislijn en fitten van (elkaar overlappende) pieken. Hierbij wordt de ruwe data in z’n geheel of in delen gefit door een aantal piekfuncties. Veel data-analyse-software is gebaseerd op niet-lineair curve-fitten.

Interpretatie van de data
In de voorgaande stappen is ruwe meetdata gereduceerd tot relevante informatie over het gemeten sample, bijvoorbeeld intensiteit als functie van x-waarde. Maar we zijn er nog niet. Zaak is nu om na te gaan wat deze informatie daadwerkelijk voorstelt.
Voor identificatie van een onbekend sample moeten de meetgegevens worden vergeleken met een bibliotheek met daarin opgeslagen meetwaarden van bekende verbindingen. Relevante gegevens zijn hier de posities van de pieken. Bibliotheken zijn stand-alone of via het Internet te raadplegen.
Voor kwantitatieve analyse moeten de intensiteiten worden omgezet tot concentraties of hoeveelheden. Dit kan door de gemeten intensiteiten uit te zetten in een reeks standaarden waarvan de concentratie of hoeveelheid bekend is. Bij analyse van meervoudige componenten is de verhouding van de intensiteiten van karakteristieke pieken maatgevend voor de (massa)verhouding van de componenten. Door deze te vermenigvuldigen met de absolute hoeveelheid van het sample volgt de absolute hoeveelheid van elk component.

Bij patroonherkenning gaat het erom regelmatigheden te herkennen bij sets van meetwaarden, dus overeenkomsten en verschillen te vinden tussen verschillende spectra. Een bekende patroonherkenningsmethode is de ‘Principale Componenten Analyse’ of PCA. Hierbij worden de te vergelijken spectra of chromatogrammen geordend in een matrix van golflengtes etc. met bijbehorende intensiteiten. Door het toepassen van wiskundige technieken bereken je hieruit abstracte variabelen (de zogenaamde principale componenten) die een combinatie zijn van de werkelijk gemeten variabelen. De eerste principale component (PC1) beschrijft de grootst mogelijke (statistische) variantie in de matrix. De tweede PC beschrijft de grootst mogelijke overblijvende variantie. Zo ook PC3 etc. tot alle variantie in de data is beschreven. Het gaat erom om met zo weinig mogelijk PC’s zo veel mogelijk informatie uit de oorspronkelijke spectra te beschrijven. Met behulp van deze PC’s worden overeenkomsten en verschillen in een set van spectra zichtbaar gemaakt in een twee- of driedimensionale plot, waar afzonderlijke spectra als punten worden weergegeven. Zo’n plot wordt gebruikt om inzicht te krijgen in de verscheidenheid binnen een set van spectra. In de biotechnologie verschaft PCA een eenvoudige manier om uitbijters te vinden in DNA-data, voor het vinden van genen die zich anders en derhalve ‘interessant’gedragen dan de meeste genen in een set experimenten. Ook worden de plots gebruikt voor classificatie: groepen van spectra met veel onderlinge overeenkomst zijn herkenbaar als clusters. Zo kunnen analytische variabelen worden gevonden die significant zijn voor de bewaking van waterkwaliteit, zodat het aantal analyses kan worden gereduceerd en daarmee ook de analysekosten.


Piekanalyse middels afgeleiden van de meetdata: de eerste grafiek laat op het eerste gezicht één piek zien boven een licht oplopende basislijn. De tweede afgeleide toont echter twee minima, wat aangeeft dat zich rechts naast de ‘grote’ piek nog een kleinere piek bevindt. Aan de linker- en rechterkant van dit spectrum is de tweede afgeleide nagenoeg nul en constant; hier ligt de basislijn.

‘Datareductie: tussen meten en weten’ is verschenen als artikel in het vakblad Chemisch2Weekblad, editie 19, 11 oktober 2003, pagina 26-27.