Selectie van data
Welke selectiecriteria hanteren data portals bij de opname van onderzoeksdata1? Hoewel er wel algemene richtlijnen op te stellen zijn, zullen de selectie eisen goed afgestemd moet worden op de wetenschapsdiscipline. Alleen de onderzoekers zelf zullen de academische waarde van hun onderzoeksdata inhoudelijk kunnen bepalen. Bij de selectie spelen drie factoren een rol:
- de inhoudelijke waarde van de data voor hergebruik, verificatie en erfgoed
- de kosten gemoeid met data curation
- de technische randvoorwaarden
Er zijn grofweg vier verschillende manieren om aan onderzoeksdata te komen:
- door observatie
dit type data kan in de regel maar één keer verzameld worden. Denk hierbij aan klimaatgegevens, astronomische observaties, archeologie - met experimenten
data verzameld met experimenten met lab apparatuur. Kan in de regel herhaald worden, maar kan duur zijn. Denk daarbij aan de synthese van nieuwe moleculen, de analyse van gensequenties, chromatogrammen - door simulatie (test modellen)
denk hierbij aan klimaatmodellen, economische modellen. De resultaten van simulaties zijn meestal makkelijk te reproduceren. Het model en de metadata zelf zijn belangrijker om te bewaren dan de data die de simulaties opleveren - door combinatie
de data zijn opnieuw te combineren, maar dat is kostbaar. Denk aan een collectie van samengestelde datasets
De bibliotheekmedewerker kijkt of de onderzoeksdata geschikt zijn om opgenomen te worden in het 3TU.Datacentrum. Selectie en op waarde schatten (selection and appraisal) gaan hand in hand.
In een rapport van de Europese Unie2 wordt bij de selectie van onderzoeksdata gesproken over klassen van data. Voor sommige klassen van data is het van groter belang dat ze bewaard worden dan voor andere. Het zijn data..
- met potentieel voor hergebruik (die van belang zijn (of lijken) voor een grotere gemeenschap)
- die een open access publicatie verrijken
- die geproduceerd zijn met processen die moeilijk te herhalen zijn (maar één keer gemeten kunnen worden en dus onvervangbaar zijn)
- die verplicht opgeslagen moeten worden omdat de financier dat eist
..die als eerste in aanmerking komen voor opname in een (inter)nationaal data archief/data portal.
De Cabauwradargegevens in 3TU.Datacentrum zijn een duidelijk voorbeeld van data die aan de selectiecriteria voldoen. In deze datasets staat informatie over de klimatologische invloed van stofdeeltjes op de wolkenformatie. Het zijn metingen die je maar één keer kunt doen. Metingen die in de toekomst waardevolle informatie kunnen geven over klimaatverandering.
Van deze klimatologische data worden naast de bewerkte gegevens ook de ruwe gegevens bewaard. Het argument om ook ruwe data te bewaren is dat die misschien wel informatie bevat die we er nu nog niet uit kunnen halen. Een mooi voorbeeld van nieuwe inzichten uit oude data komt bij de NASA vandaan. Bij een heranalyse van oude data van de Hubble telescoop3 zijn twee nieuwe planeten gevonden. De analysetechnieken van nu zijn geavanceerder dan die van toen. Dit maakte de nieuwe ontdekking mogelijk.
De scheidslijn tussen ruwe en bewerkte data is in de praktijk trouwens niet altijd gemakkelijk te trekken. In veel instrumenten treedt al een voorbewerking van de data op voordat de data vrij komen.
Economie van data
Eén van de selectiecriteria bij de opname van datasets is de verwachtte (economische) waarde in de toekomst. Hoe verhouden de kosten van opname, archivering en ter beschikking stellen zich tot de besparingen die tot stand komen? Hoe maakt je aannemelijk dat het ter beschikking stellen van datasets juist geld oplevert? In het rapport "Costs and Benefits of Data Provision"4 laten ze zien dat zelfs op de korte termijn de besparingen de kosten al goed maken. Zo zou met open access toegang tot onderzoeksdata een hoop tijd en geld overblijven die niet aan het onderhandelen over licenties en prijzen besteed hoeft te worden. Ook leidt open access tot een efficiënter gebruik van je "goederen", simpelweg omdat dat wat vrij en makkelijk beschikbaar is vaker opgevraagd wordt. De voordelen die het ter beschikking van onderzoeksdata op lange termijn opleveren, komen daar dan nog bovenop.
Chris Taggert draait de vraag om en vraagt zich af5 wat de kosten van "gesloten data" zijn.
Door de selectiecriteria goed te doorlopen, kan een data portal een inschatting maken of het te verwachten voordeel de kosten kan verantwoorden. Soms is het beter om niet de data te bewaren maar data over het opdoen van data, bijvoorbeeld bij simulaties. Als je jouw services als data portal door wilt berekenen aan de onderzoekers, dan zul je aannemelijk moeten kunnen maken hóe zij door die kosten te betalen eigenlijk juist besparen.
Uitspraken over de waarde van datasets in de toekomst zijn voorspellingen en geven uiteraard geen garanties. De bewaartermijn voor geselecteerde onderzoeksdata is in eerste instantie dan ook vaak 10 jaar1. Het is een arbitrair gekozen periode die alleen maar wil zeggen dat er na die 10 jaar een beslissing nodig is over permanente archivering.
1. SURFfoundation. (2010). Selection of Research Data. Guidelines for Appraising and Selecting Research Data. Retrieved 8-12-2011 from http://www.surffoundation.nl/nl/themas/openonderzoek/cris/Documents/SURFshare_Collectioneren_Selection%20of%20Research%20Data_DANS_3TU_DEFtt.pdf
2. European Union. (2010). Riding the Wave: How Europe can gain from the rising tide of scientific data. Final report of the High Level Expert Group on Scientific Data. A submission to the European Commission, page 18. Retrieved 8-12-2011 from http://cordis.europa.eu/fp7/ict/e-infrastructure/docs/hlg-sdi-report.pdf
3. NASA. (2011). Astronomers Find Elusive Planets in Decade-Old Hubble Data. Retrieved 8-12-2011 from http://www.nasa.gov/mission_pages/hubble/science/elusive-planets.html
4. Victoria University. (2011). Costs and Benefits of Data Provision. Report to the Australian National Data Service. Retrieved 8-12-2011 from http://ands.org.au/resource/houghton-cost-benefit-study.pdf
5. Taggert, C. (2011). The cost of closed data & the economics of open data. Retrieved 8-12-2011 from http://blog.okfn.org/2011/10/17/the-cost-of-closed-data-the-economics-of-open-data/
