Data processing
Data processing is een overkoepelende term voor de transformaties die onderzoeksdata kunnen ondergaan gedurende verschillende levensfasen. Vanuit een data portal zoals 3TU.Datacentrum bekeken heeft een dataset drie levensfasen:
- Submission Information Package (SIP)
- Archival Information Package (AIP)
- Dissemination Information Package (DIP)
Deze terminologie is gebaseerd op het open archival information system1 (OAIS)
De transformaties die de datasets kunnen ondergaan zijn:
- conversie van één dataformaat naar een ander (bijvoorbeeld duurzaam) dataformaat
- inpakken en comprimeren
- data interactie
conversie
Er zijn drie momenten waarop data geconverteerd kunnen worden:
- Voor upload
Het is in principe de verantwoordelijkheid van de leverancier van de dataset om de data in een duurzaam formaat aan te leveren (SIP). Als data aangeleverd worden in een niet-duurzaam formaat, is het noodzakelijk dat ze eerst geconverteerd (omgezet) worden in een duurzaam formaat (AIP).
Een voorbeeld: De IDRA weer radar metingen bestaat uit een grote reeks numerieke bestanden en zijn opgeslagen als NetCDF. De partij die de data aanleverde had de data niet in NetCDF staan maar heeft op aanwijzing van 3TU.Datacentrum wel zelf gedaan.
Veel datasets van onderzoekers zien er uit als getalletjes met komma's ertussen. Het zijn zelfbedachte formaten die je omzet in NetCDF. Hoewel een eenvoudige tabel nog omgezet zou kunnen worden in .CSV, geeft 3TU.Datacentrum ook dan de voorkeur aan NetCDF omdat er dan standaard interne metadata worden toegevoegd en de gebruiksmogelijkheden groter zijn. - Na upload
Na verloop van tijd zullen bepaalde data formaten onbruikbaar worden. Eenmaal in beheer van het 3TU.Datacentrum, is het de verantwoordelijkheid van 3TU.Datacentrum om de noodzakelijke conversies te doen die een lange levensduur van onderzoeksdata garanderen.
Bij Darelux, een oude set, is bijvoorbeeld al veel conversie gedaan. De dataset is eerst omgezet in een eigen XML formaat. Vervolgens is daar de NcML (XML versie van NetCDF) van gemaakt en daarna is de dataset nog geconverteerd naar NetCDF. Toen is het geheel verhuisd van de server van 3TU.Datacentrum zelf (Fedora) naar OPeNDAP. De keuze om de de dataset om te zetten in XML is gemaakt omdat er dan standaard metadata worden toegevoegd. Je kunt informatie verschaffen over de inhoud en dat houdt de dataset leesbaar en begrijpelijk. De keuze voor het omzetten in NetCDF is gemaakt vanwege de gebruiksmogelijkheden (zie data interactie)
Daarnaast kan het 3TU.Datacentrum besluiten het formaat te converteren vanwege opslagcapaciteit. De set helikopterdata werd aangeleverd in .tiff, een formaat dat veel opslagruimte in beslag neemt. Deze set is geconverteerd naar .png. Of zo'n conversie zo maar kan, is afhankelijk van de toepassing van je onderzoek. Als je in image processing een .png van de .tiff maakt kun je de data net zo goed weggooien. - Bij download
Als een gebruiker een dataset wil downloaden (DIP), kan hij voorkeur hebben voor een bepaald data formaat. Dit is mogelijk: bij download kun je datasets in diverse formaten ophalen. Van de data op de OPeNDAP server zijn er altijd automatisch verschillende versies beschikbaar. Zo kun je bijvoorbeeld een dataset opgeslagen in netCDF ophalen als CDL en NcML, de platte tekst en XML-representaties van de dataset. Als een datset niet al te groot en ingewikkeld is dan kun je een dataset soms ook downloaden als .CSV (Comma Seperated Value) en Excel.
inpakken en comprimeren
Na upload van een dataset (SIP) wordt er eerst een bagit van gemaakt. Dat is een soort inventaris: wat zit er in deze dataset? Bagit is een formaat waar basis metadata en een zogeheten checksum aan elke file in een dataset is toegevoegd. De checksum is de vingerafdruk van een file in de dataset. Conversie kan tot fouten leiden. Denk daarbij aan het verlies van interne metadata, opmaak enzovoort. Om te kijken of een dataset voor en na conversie nog hetzelfde is, wordt deze gescand en getest op nauwkeurigheid. Hierbij wordt een vergelijking gemaakt met een eerdere versie van dezelfde data. Wat er gebeurt bij het maken van een checksum is dat alle bits op een bepaalde manier bij elkaar op geteld worden. Dat levert dan een getal op die met het getal van de eerdere versie vergeleken kan worden. Een bag maakt het makkelijk om na het verstrijken van een bepaalde tijdsperiode te checken of de dataset nog onveranderd is.
This image was originally taken by Flickr user Keetsa
Na het baggen van de dataset wordt het geheel in één pakketje gecomprimeerd opgeslagen (gezipt). Data compressie wil zeggen dat je de ruimte die onderzoeksdata innemen, verkleint. Je representeert de digitale informatie met minder bits dan de oorspronkelijke data. Dat is handig als je grote hoeveelheden data op wilt slaan of wilt transporteren. Een .zip bestandsformaat is hier waarschijnlijk het bekendst (Application/zip).
Application/x-gzip is de afkorting voor GNU zip: Dat is een datacompressieprogramma voor Unix en Linux. Unix en Linux zijn zogeheten vrije besturingssystemen (Operating Systems of ook wel kortweg OS). Het staat je vrij Unix/Linux te gebruiken, bestuderen, aan te passen. Misschien ken je de namen van andere Operating Systems beter. Microsoft is het OS van Windows en dat van Apple is Mac OS X (commerciële besturingssystemen). Een besturingssysteem zorgt ervoor dat alle applicaties op je PC goed uitgevoerd kunnen worden.
data interactie
Datasets met de formaten NetCDF en HDF5 staan niet op de server van 3TU.Datacentrum (Fedora) zelf, maar ze staan op een andere server genaamd "OPeNDAP". Datasets op de OPeNDAP server zijn direct benaderbaar vanuit programmeertalen. OPeNDAP communiceert op een bepaalde manier met de data waardoor het locale data beschikbaar maakt voor locaties op afstand.
Als je data aan elkaar plakt met NetCDF of HDF5 dan maak je het makkelijker er een zogeheten query op los te laten die potentieel gegevens terug geeft. het DIP dat je ophaalt is dan een deel van de AIP.
Een voorbeeld: de "Heavy particles in turbulent flows" dataset is opgeslagen in HDF5. De dataset bevat zo'n 30 miljard getallen in vijf dimensies. Het formaat waarin het is opgeslagen, maakt het mogelijk daar een deel van in te zien. Zoals je ziet, bestaat een data file uit 103,2 GB. Je kunt een uitsnede van de dataset inzien en dat scheelt een hoop downloadtijd.
Een groot deel van de OPeNDAP server is op dit moment zichtbaar gemaakt via de 3TU.Databrowser. Je kijkt dus eigenlijk op de OPeNDAP server via de interface van 3TU.Datacentrum.
Bij Deltares gebruiken ze veel data van OPeNDAP servers wereldwijd, bijvoorbeeld:
- http://nomads.ncdc.noaa.gov/thredds/catalog.html
- http://data.nodc.noaa.gov/opendap/
- http://www.ifremer.fr/thredds/catalog.html
Deltares werkt samen met2 KNMI en onderzoekers van de TUDelft. Samen met KNMI heeft Deltares data op een pilot server (OPeNDAP) staan.
Voor de liefhebbers: Op de wiki van Deltares staat hoe je met OPeNDAP data overweg kunt3.
1. CCSDS. (2002). Reference Model for an Open Archival Information System (OAIS). Retrieved 9-12-2-11 from http://public.ccsds.org/publications/archive/650x0b1.pdf
2. Deltares. Steden klaar voor extreme regenbuien? Retrieved 9-12-2011 from
http://www.deltares.nl/nl/actueel/nieuwsbericht/item/12079/steden-klaar-voor-extreme-regenbuien
3. Deltares. (2011, november). Tech Notes. Retrieved 9-12-2011 from publicwiki.deltares.nl/display/OET/Tech+Notes
