met de steun van

"Dat is onontgonnen terrein, maar uiterst efficiënt."

Aan het woord Geschreven op 23 jan. 2024
Fmrub Br WQAMQ Fc C

Het GIVE-project is een ongezien digitaliseringsproject: meer dan 800.000 krantenpagina's, topstukken en glasplaten worden gedigitaliseerd en digitaal gearchiveerd, en met de hulp van artificiële intelligentie krijgen zo’n 130 audiovisuele collecties extra beschrijvingen. Dat zijn niet alleen indrukwekkende cijfers, het project valt ook op door de nauwe samenwerkingen die werden aangegaan: tussen erfgoedorganisaties, experten ter zake, technische partijen, enzovoort.

Ben je benieuwd wie er zijn of haar schouders onder het project heeft gezet? In dit artikel duik je via 10 vragen achter de schermen en maak je kennis met iemand die heeft bijgedragen aan het project. 'Aan het woord' is Matthias Priem, manager archivering bij meemoo.

Team member matthias 1

Hoe ben jij betrokken bij het GIVE-project? Wat is jouw rol?

Ik ben de trekker van het metadatatraject binnen het GIVE-project. Hierin kijken we hoe we metadata kunnen creëren op audiovisueel materiaal. Ik heb een soort van paraplu-rol en bewaak de grote lijnen, maar ik werkte de projectvraag ook uit voor enkele specifieke onderdelen, zoals gezichtsherkenning. Met die technologie deden we in eerdere projecten al ervaring op. Daardoor is de technology gap niet zo groot meer als voordien en hebben we dus vertrouwen dat we daarmee meer kunnen doen.

Verder ben ik doorheen het hele traject betrokken in de werkgroepen. Artificiële intelligentie is voor velen nog ‘nieuw’ om op grote schaal toe te passen, vooral in cultureel erfgoed. Daarom brengen we veel organisaties samen in deze werkgroepen. Hierin zitten niet enkel onze partners, zoals de erfgoedinstellingen, maar ook technici, experts in wetgeving en ethische commissies. Al deze partijen komen er vertellen om de hele groep tot inzichten te laten komen en oplossingen te bedenken.

Wat maakt de digitalisering van erfgoed zo belangrijk en waardevol volgens jou?

Er zijn veel dingen die het waardevol maken. De rechtstreekse link met het internet bijvoorbeeld, maakt de toegang tot de verwerkte archieven plots heel laagdrempelig en bereikbaar voor het grote publiek. Je kan het ontsluiten als het gedigitaliseerd is en je bereikt er op die manier meteen enorm veel mensen mee.

Welke impact hoop je dat het GIVE-project zal maken?

Ik hoop dat de impact zeer groot is! Het metadatatraject heeft een enorme omvang en we hebben echt een serieuze stap gezet rond de inzet van vooruitstrevende technologie om metadata te creëren. Kijk: vroeger moest een archivaris alles manueel oplijsten en beschrijven. Nu zijn het bots en systemen die ons hierbij ondersteunen.

De foutenmarges zijn laag, doordat de technologie matuur genoeg is. Dankzij ethische en juridische kaders kunnen we dan ook die mature technologie inzetten op grotere schaal. We kunnen zo enkele vraagtekens stilletjesaan wegwerken.

De foutenmarges zijn laag, doordat de technologie matuur genoeg is.


Welke uitdagingen kwam je tegen in jouw werkzaamheden in het project en hoe ging je daarmee om?
Op juridisch en ethisch vlak waren er grote uitdagingen, bijvoorbeeld bij gezichtsherkenning: je werkt nu eenmaal met foto’s van mensen. Het gaat om personen of zelfs kinderen, dus moet alles in een ethisch en juridisch aanvaardbaar kader passen. Je gaat de machine namelijk nooit zomaar de kinderen van politici laten herkennen, dus daar moet je de referentiesets correct voor instellen. En dan blijft nog de vraag: waar trek je de grens? Wil je sommige personen wel laten herkennen, als ze bijvoorbeeld buiten hun functie toch op een feest of bijeenkomst zijn? Al dat wikken en wegen wordt grondig afgetoetst met de vele betrokken erfgoedinstellingen.

Ook de schaal van het GIVE-project is ongezien: we spreken over 120.000 uur video die we door de gezichtsherkenning moeten jagen! Een algoritme kijkt naar al die uren video en haalt er wel 3,5 miljoen gezichten uit. Daarna vergelijkt een ander algoritme deze gezichten met een referentieset. Technisch gezien is het een hele uitdaging. Geloof me: het is niet evident om voor al dat erfgoedmateriaal metadata te creëren en het correct te verwerken. Maar dankzij de partners zijn we we er wel geraakt!

Visual metadata audiovideo

Wat heb je bijgeleerd of ontdekt tijdens dit project?

We leerden als sector of groep van mensen vooral dat er echt enorm veel winst zit in samenwerking, in het collectief. Dat merkten we bijvoorbeeld heel concreet bij het traject rond gezichtsherkenning. Vroeger werkte elke archivaris per instelling met de eigen referentieset. Elk had zijn of haar eigen, organisatiegebonden lijst van namen en foto’s die enkel voor hen relevant waren.

Binnen het GIVE-project kwamen we door alle koppen samen te steken tot een collectieve referentieset van alle 120 partners. Van de politiek tot de podiumkunsten: alles zit erin. Een collega stopte er politici in, terwijl een andere archivaris er dansers of auteurs instak. De winst is enorm, want als iemand met zijn expertise een persoon herkent en toevoegt aan de lijst, kan deze entiteit ook doorheen alle archieven herkend worden. Zo kom je tot nieuwe inzichten die je vroeger niet zo snel zou ontdekken.

Welke samenwerkingen binnen het project hebben de grootste indruk op je gemaakt, en waarom?

De samenwerking die leidde tot een collectieve referentieset voor gezichtsherkenning.
Dankzij die samenwerking kan iedereen nu vanuit zijn of haar niche personen toevoegen aan onze referentieset. ‘Koers’ weet alles van renners, archieven hebben dan weer inzicht in politieke figuren en podiumkunsten-organisaties kennen alles van acteurs. Gezien de set gedeeld is, zal een politicus nu ook in een archief van een podiumkunsten-organisatie kunnen gespot worden, of een renner in het Vlaams parlement. Vroeger had men die misschien simpelweg niet geannoteerd, wat jammer is voor eindgebruikers.

Zo voegden we bijvoorbeeld Josse De Pauw toe aan de referentiesets. Een eindgebruiker kan nu alle interessante zaken over deze acteur vinden, ongeacht het archief waarin die info zit. Daar ligt de grote winst voor de eindgebruiker.

Wat is jouw favoriete topstuk, krant (en artikel), glasplaat of stukje metadata en waarom?

Ik denk dat mijn favoriete stuk metadata al hetgene is dat nog niet benoemd of verwerkt werd. Naast de Jan Jambons en Josse De Pauws van deze wereld zijn er namelijk heel wat personen die belangrijk zijn op maatschappelijk of cultureel vlak, maar die nog niet in de referentiesets zitten. Daarom maakten we voor archivarissen een interface die de top 100 toont van de ongeïdentificeerde gezichten uit de archieven. Sommige personen staan bijvoorbeeld op honderden uren video, dan moeten het wel belangrijke figuren zijn. Zo tonen we dan foto’s en links van die ‘onbekenden’ aan de archivarissen, zodat deze er misschien een naam op kunnen plakken en hem of haar zo in het hele archief kunnen benoemen. Dat is onontgonnen terrein, maar uiterst efficiënt!

Screenshot 2024 01 22 at 12 16 32
De interface met referentieset, foto door meemoo, licentie: CC BY-SA

Welk topstuk, manuscript, krant of glasplaat moet voor jou zeker nog worden gedigitaliseerd? Waarom?

Ik denk dat Vlaamse film op pellicule heel belangrijk is om te digitaliseren, maar dat is jammer genoeg ook heel duur.

Daarnaast denk ik dat er ook voor metadata nog heel veel opportuniteiten zijn. Op een hackathon eerder dit jaar werkten we bijvoorbeeld een prototype uit dat iconografische en andere metadata aan fotografisch materiaal kon toevoegen. Opnieuw iets waarvan we denken dat dit mogelijk is en wat een grote impact op doorzoekbaarheid van digitaal materiaal kan hebben.

Wie denk je dat het meest profiteert of het meest beïnvloed wordt door de digitalisering van de erfgoedobjecten?

Als ik voor mijn eigen winkel spreek, dan profiteert de archivaris op korte termijn het meest. De komende twee à drie jaar zit daar de grootste winst voor hen, want metadatering via AI verandert processen en biedt nieuwe, krachtige tools die hun werk een pak efficiënter maken.

En op lange termijn hoop ik hetzelfde voor het grote publiek, want zij willen de correcte, gevraagde informatie sneller en vlotter verkrijgen. Als we de gegenereerde metadata, of delen ervan, ook publiek kunnen maken, profiteren niet alleen de professionals van dit werk maar ook een breder publiek. Let op, daar zijn we nog niet helemaal: we moeten hierover nog uitgebreid overleggen met contentpartners en gebruikers. Bijvoorbeeld: hoe gaan we aangeven dat dit een machine gegenereerd stuk data is? Moeten we iemand fouten kunnen laten aangeven, etc. Maar het potentieel is wel groot.

Wat zou je, op basis van je persoonlijke ervaringen en expertise, aanraden aan iemand die in de toekomst aan een soortgelijk project als het GIVE-project wil meewerken?

Binnen GIVE werkten we meestal op basis van reeds bestaande technologie. We hebben geen nieuwe dingen uitgevonden, maar werkten met bestaande processen: technologie die matuur genoeg is en waarop we konden vertrouwen, dat is een heel belangrijke nuance in dit verhaal. Het hoeft geen state of the art research te zijn, soms kan je door bestaande zaken te combineren ook heel mooie en innovatieve zaken realiseren.


Metadata

Benieuwd naar de gekozen tools & technologieën?

Meer weten?

20220713 081608
Aan het woord

"Digitalisering geeft al die erfgoedobjecten een gezicht."

Agoria 2
Over GIVE

Een dubbele trofee voor het GIVE-project

Peter
Aan het woord

"Door automatische metadatageneratie kunnen we stukken ontsluiten die nooit eerder vindbaar waren."