Data citeren
Het gezag van een onderzoeker, onderzoeksgroep of onderzoeksveld wordt op dit moment onder andere afgemeten aan de citatiescore van het gepubliceerde werk: hoe vaak wordt er naar het werk verwezen in publicaties van anderen? Deze impactfactor is niet vrijblijvend. Een hogere impact geeft meer kansen op werk, kansen op promotie, kansen op onderzoeksgelden.
Binnen deze structuur is het van groot belang dat de publicatie van onderliggende datasets (data publicatie) ook mee kan tellen als legitieme, citeerbare bijdrage aan het onderzoekscurriculum. DataCite zet zich hier voor in.
Om citatie van datasets mogelijk te maken, moeten deze makkelijk vindbaar zijn op een onveranderlijke plek op het internet. Dat kan door een zogeheten Digital Object Identifier (DOI) toe te kennen. DOI's worden al veel gebruikt in de wetenschappelijk literatuur om naar tijdschriftartikelen te linken. Door een DOI toe te kennen aan een dataset, maak je haar herkomst herleidbaar en citeerbaar.
3TU.Datacentrum is lid van DataCite en is gerechtigd om een DOI toe te kennen aan een dataset. Als er een DOI is toegekend, gaan de metadata naar de zogeheten metadata store van DataCite.
DOI
Alle DOI's beginnen met 10. Strikt gesproken maakt de 10 geen deel uit van de DOI. Het is een algemene identifier die eigenlijk alleen maar wil zeggen dat wat nu volgt een DOI is. Na de 10 volgt een karakterreeks verdeeld in twee delen: een prefix (voorvoegsel) en een suffix (achtervoegsel). De identificatiecode in het voorvoegsel staat voor diegene die de dataset geregistreerd heeft. Na de schuine streep volgt de identifier voor de dataset.
Het maakt niet uit of je hoofdletters of kleine letters gebruikt. 10.123/ABC is hetzelfde als 10.123/abc
Binnen 3TU.Datacentrum hebben nog niet alle datasets een DOI. Wel hebben ze allemaal een UUID (Universally Unique IDentifier). Een UUID bestaat uit 36 karakters (32 letters/cijfers en 4 streepjes) in de vorm 8-4-4-4-12 karakters. Bijvoorbeeld: uuid:32c53005-a4f2-447c-b231-6cdb7dcdd17f. Het totale aantal mogelijke unieke UUID's is zo groot dat het onwaarschijnlijk is dat er twee dezelfde aangemaakt worden.
De DOI's van 3TU.Datacentrum hebben als voorvoegsel de URL van het datacentrum en als achtervoegsel de UUID. http://data.3tu.nl/repository/uuid:32c53005-a4f2-447c-b231-6cdb7dcdd17f Op de pagina van de dataset staat: "please cite/link this dataset as doi:10.4121/uuid:32c53005-a4f2-447c-b231-6cdb7dcdd17f". De code 4121 staat voor 3TU.Datacentrum.
Een URL en een DOI zijn allebei identifiers. Maar een URL geeft de plaats aan waar een bepaald document of bepaalde informatie op het web gevonden kan worden, terwijl een DOI het document zélf identificeert onafhankelijk van de plaats waar deze staat. URL's verliezen vaak hun geldigheid als mensen een website herrangschikken. Bij een DOI is dat niet het geval. De citatie naar een dataset is persistent. Dat wil zeggen dat de link naar de dataset niet verandert in de loop der tijd. Deze garantie is van groot belang bij het opbouwen van vertrouwen in de waarde van data citatie na data publicatie.
Als je een DOI wilt achterhalen zet je er dx.doi.org voor. Dan kom je altijd op de juiste plek. Je kunt ook gebruik maken van resolve a DOI. Ook de resolver moet natuurlijk voor de lange termijn bewaard worden. Dat gebeurt door de international DOI foundation. Zorgen over het in stand houden van de resolver zijn er eigenlijk niet: "It's too big to fail"
Data citatie
Datacite adviseert1 hoe je een dataset moet citeren als je deze in een publicatie vermeldt. De leden van de metadata working group bevelen de volgende schrijfwijze aan:
Creator (PublicationYear): Title. Publisher. Identifier
Dat ziet er dan bijvoorbeeld zo uit:
- Irino, T; Tada, R (2009): Chemical and mineral compositions of sediments from ODP site 127-797. Geological Institute, University of Tokyo. doi:10.1594/PANGAEA.726855
- Voor deze dataset in 3TU.datacentrum is dat:
Keen, A.S (2011): Erosive Bar Migration Using Density and Diameter Scaled Sediment Erosive Profile Set-Prototype Scale (Actual Scal 1:10). TU Delft. doi:10.4121/uuid:32c53005-a4f2-447c-b231-6cdb7dcdd17f
Meer weten?
Toekomst
De tijd dat je de impact van een onderzoeksgroep aan wetenschappelijke publicaties alleen af mat, lijkt zijn langste tijd gehad te hebben. Als het delen van datasets leidt tot een grotere zichtbaarheid en impact van onderzoek dan kan dit data publicatie in een stroomversnelling brengen. Daarnaast bestaan binnen de onderzoeksgemeenschap initiatieven om de total impact van onderzoek te gaan meten.
1. DataCite. (2011). DataCite MetaData Scheme for the Publication and Citation of Resea rch Data. Retrieved 9-12-2011 from datacite.org/schema/DataCite-MetadataKernel_v2.0.pdf
2. ANDS. (2011). Building a culture of data citation. [poster]. Retreived 9-12-2011 from http://ands.org.au/guides/data_citation_poster.pdf
3. Ball, A., Duke, M. (2011). How to Cite Datasets and Link to Publications. DCC How-to Guides. Edinburgh: Digital Curation Centre. Retrieved 9-12-2011 from http://www.dcc.ac.uk
