Metadata

 

"Scientific metadata provide the information
necessary for investigators separated by time,
space, institution or disciplinary norm
to establish common ground"1

 

Bij opname van een dataset in een data archief (ingest) wordt bekeken of de dataset goed genoeg is omschreven. Zowel de maker als de bibliotheekmedewerker kan zogeheten metadata toekennen. Metadata is gestructureerde, gestandaardiseerde, informatie die de aard van een oorspronkelijke bron (zoals een dataset) omschrijft, uitlegt en lokaliseert. Door het toekennen van metadata wordt het makkelijker om een informatiebron te vinden, herkennen, (her) te gebruiken en te linken met andere informatiebronnen. Metadata wordt vaak data over data genoemd. Of informatie over informatie. Er zijn metadata om de inhoud te beschrijven (samenvatting) en metadata om de context te duiden (data van creatie, instrumentarium etc.)

De hamvraag bij het toekennen van metadata is: "Heeft een (toekomstige) gebruiker voldoende informatie om te begrijpen wat de dataset inhoudt?" Vanwege de diversiteit aan datasets zijn de keuzes die daarin gemaakt worden lang niet altijd standaard:  One size fits no one

                     


Hieronder zie je de velden die op het metadata formulier van 3TU.Datacentrum staan (3TU.Datacentrum metadata form). De velden met een sterretje * zijn verplichte velden. De structuur die we als 3TU.Datacentrum gebruiken is gebaseerd op de standaard van het Dublin Core Metadata Initiative (DCMI). Dublin Core is eenvoudig in het gebruik en wordt wereldwijd toegepast.

  • Creator*
    Main researchers involved in producing the data
  • Contributor
    Institution where the data was created or collected. A person or organization responsible for making contributions to the dataset.
  • Publisher *
    Institution which submitted the work
  • Title*
    Name or title by which a resource is known
  • Publication year*
    The year when the data was or will be made publicly available
  • Date created
    Date the resource itself was put together; this could be a data range or a single date
  • Description*
    Concise description of the contents of the dataset. Describe the research objective, type of research, method of data collection and type of data.
  • Subject
    Subject, keyword, classification code, of key phrase describing the resource
  • Coverage temporal
    Indicate the dates to which the data refer. Enter the year, or beginning and end dates
  • Coverage spatial
    Describe the geographic area to which the data refer (e.g. municipality, town/city, region, country) The geographic coordinates of the area may be included, if desired
  • Identifier
    3TU.Datacentrum automatically assigns a persistent identifier to a dataset once the entire deposit procedure has been completed. In some cases, a dataset may be known by one or more other (persistent) identifiers
  • URL to publication
    Include the web addresses for any publication, important internal reports or other datasets that are related to your dataset.

Daarnaast conformeert 3TU.Datacentrum zich aan het DataCite Metadata Scheme2. Als er een DOI is toegekend aan een dataset gaan de bijbehorende metadata naar de zogeheten metadata store.

Afhankelijk van de dataset wordt beoordeeld of en in welke velden extra metadata worden opgenomen. Daarna wordt het geheel voor instemming aan de maker voorgelegd. Qua bewustwording is het van belang dat je de metadata soms uit de data zelf kunt halen. Bepaalde dataformaten hebben in hun data ook metadata. Denk bijvoorbeeld aan digitale foto's. Op het moment dat je die opslaat, worden er automatisch gegevens meeopgeslagen over de omstandigheden waaronder je de foto hebt gemaakt: diafragma, belichting etc. Een ander voorbeeld: In de dataset van IDRA weer metingen staat in de omschrijving (description): Radar range(s): standard, near, far. Max rain level: strong rain. Dit zijn metadata die uit de dataset zelf gehaald zijn. 

Als er geen datum is van datapublicatie of als het niet uitmaakt, dan komt daar de datum van upload te staan. Als een waarneming van een bepaalde datum is, dan komt díe datum in het veld data created te staan.

Curation boundaries

Bij de creatie van de data zijn ze onderzoeksdata in het beheer van de onderzoeker. In de tijd verschuiven de onderzoeksdata (idealiter) in stappen van het privé domein naar het publieke domein. Deze overgangen worden curation boundaries3,4 genoemd. Het zijn de momenten waarop data geschoven worden tussen mensen, organisaties, machines, labs, disciplines en van het ene dataformaat naar het andere. Momenten waarop er beslissingen genomen moeten worden over de data. Bij deze overgangen kan "data frictie"1 optreden: "points of resistance where data can be garbled, misinterpreted, lost". Paul Edwards e.a.1 stellen dat je ook niet moet verwachten dat metadata ondubbelzinnigheid garanderen. Zelfs binnen een discipline hebben mensen verschillende vocabulaires en moeten ze elkaar geregeld vragen: "wat bedoel je precies?". Ze vergelijken een curation boundary met het op elkaar passen van twee metalen delen. Enerzijds streef je naar precisie (metadata), maar daarnaast is er smering nodig om de onvolkomenheden te overkomen. Bij data curation is directe communicatie met de onderzoeker (dataproducent) de smeerolie/reparatie bij onduidelijkheden. 

 

1. Edwards, P. (2011). Science Friction: Data, Metadata, Collaboration. Social Studies of Science 41(5), 667-690. doi: 10.1177/0306312711413314
2. DataCite. (2011). DataCite MetaData Scheme for the Publication and Citation of Resea rch Data. Retrieved 8-12-2012 from datacite.org/schema/DataCite-MetadataKernel_v2.0.pdf
3. Sieverts, E. (2011). De cirkel van onderzoeksdata. Retrieved 8-12-2012 from http://www.library.uu.nl/medew/it/eric/data.pdf
4. ANDS. (2011). Data Curation Continuum. Retrieved 8-12-2012 from http://ands.org.au/guides/curation.continuum.pdf

Twitter
Loading..