Artificiële intelligentie is een hot topic. Het opent de deuren naar nieuwe en opwindende mogelijkheden, want met de hulp van machines en algoritmes klaar je tijdrovende taken op een snelle en efficiënte manier. Door je werk hand in hand te laten gaan met AI-oplossingen boek je vooruitgang op talloze vlakken. Maar hoe inzetbaar is AI op archiefmateriaal? Meemoo, Vlaams instituut voor het archief, zocht het uit samen met zijn cultuur- en overheidspartners.
Bronvermelding: Gezichtsherkenning toegepast op een video van LIBERAS
De afgelopen eeuw werd ons leven voor het eerst vastgelegd in bewegend beeld. In Vlaanderen hebben we over de jaren heen dan ook een schat aan audiovisueel archiefmateriaal bij elkaar gefilmd of opgenomen. Deze digitale bestanden beheren, bewaren voor de toekomst én klaarstomen voor hergebruik - dat is digitale archivering in ‘t beknopt. In digitale depots bevindt zich inmiddels een massa aan gedigitaliseerd of digitaal geboren materiaal. Kostbare informatie, die door een gebrek aan beschrijvingen vaak moeilijk doorzoekbaar is.
Hoe artificiële intelligentie kan helpen bij het beheer van zo’n archief? Met als doel de rijke Vlaamse audiovisuele archieven beter doorzoekbaar te maken op een efficiënte en betrouwbare manier, nam meemoo, Vlaams instituut voor het archief, de proef op de som. Onderwerp van de metadataverrijking waren de video’s en geluidsfragmenten van 125 organisaties in cultuur en overheid.
Er zijn tal van professionele archivarissen en domeinexperts die met kennis van zaken beschrijvingen toevoegen, en zo belangrijk werk leveren. Denk maar aan de titel, de personen in beeld, het genre, een datering, een korte inhoud en veel meer. Metadataverrijking - en dus de weg naar toegankelijke archieven - gebeurt op dagelijkse basis en op materiaal allerhande.
Maar wat zijn dan de voordelen van artificiële intelligentie? Wel, het handmatig toevoegen van beschrijvingen neemt ontzettend veel tijd in. Tijd die er niet altijd is, of te kostbaar is. Door bepaalde tijdrovende taken waar mogelijk te automatiseren, krijg je als archivaris een handig hulpje. Artificiële intelligentie blust zeker niet ieder vuurtje, maar kan wél een manier zijn om snel veel en uniforme gegevens toe te voegen. Want door metadata over organisaties heen te verrijken, zorg je voor uniformiteit.
In het GIVE-metadataproject past meemoo drie verschillende methoden toe: gezichtsdetectie- en herkenning, spraakherkenning en entiteitsherkenning. Hiermee komt er een oplossing voor vragen als:
Waar mogelijk worden de gegenereerde persoonsnamen en herkende entiteiten gelinkt aan authentieke bronnen. Bijvoorbeeld Wikidata. Deze authorities zijn een soort databank tjokvol betrouwbare informatie die:
de nieuwe metadata verrijken met aanvullende info.
verwarring uit de weg helpen - Eddy Wally kennen we immers ook als Eduard Van De Walle.
zorgen voor uniformiteit over archieven heen.
Dergelijke technieken toepassen op archiefmateriaal is nét iets gecompliceerder dan hierboven beschreven.
Het is wel duidelijk: AI biedt veel mogelijkheden. Toch spelen er ook bezorgdheden. Artificiële intelligentie laat je niet zomaar los op eender welk materiaal. Gezichtsherkenning omvat gevoelige biometrische data, en kan wel eens discriminerend werken. Het is dan ook van belang dat de ontwikkeling en het gebruik van AI-systemen gebeurt binnen het bestaande regelgevende kader (AVG of GDPR). Daarom ziet meemoo er nauwgezet op toe dat alles zo correct en veilig mogelijk gebeurt. Voor, tijdens én na de start van het project.
In het GIVE-metadataproject was aandacht voor de bescherming van persoonsgegevens (GDPR), bijvoorbeeld door enkel de gezichten van publieke personen te identificeren, en met de uitvoering van een DPIA. Alles gebeurde bovendien met servers binnen de Europese Unie.
Ook voor de ontsluiting van de metadata is er aandacht. Alle AI-gecreëerde metadata worden voorzien van een label. Bij foutieve beschrijvingen ontstaat er op die manier geen verwarring.
Het gesprek rond ethiek werd daarnaast uitgebreid gevoerd, onder leiding van het Nederlandse Kenniscentrum Data & Maatschappij. Tijdens een aantal workshops werden de processen en tools in detail besproken met alle betrokkenen: van personen die herkend kunnen worden in video’s over technici die de processen implementeren tot archivarissen die de data willen gebruiken voor ontsluiting. Op die manier is elke stem gehoord en kwam er een aanpak waarin iedereen zich kan vinden.
Uit onderzoek blijkt ook dat het cruciaal is om gezichtsdetectie- en herkenningsmodellen te trainen op een zo divers mogelijke dataset om vooroordelen of bias rond geslacht, leeftijd en huidskleur te minimaliseren. Om te bereiken dat het systeem uit het GIVE-project hier zo goed mogelijk mee kon omgaan, werden de gebruikte en reeds bestaande open source-modellen via een steekproef gecontroleerd.
Parlementaire debatten in het Vlaams Parlement, opnames van lezingen door Jan Hoet in het SMAK, documentaires van Paul van Ostaijen bewaard door het Letterenhuis, en nog veel en véél meer. Vlaanderen bevat een weelde aan beeld en geluid. Met behulp van artificiële intelligentie zetten maar liefst 126 organisaties in cultuur en overheid een grote stap naar goed beschreven en toegankelijk archiefmateriaal.
3,3 miljoen herkende personen, 500 miljoen getranscribeerde woorden en 6,5 miljoen entiteiten. Mooie resultaten, maar het zou zonde zijn om het verhaal hier te laten stoppen. In dit project was er omwille van een krappe timing enkel ruimte voor de audiovisuele collectie van organisaties in cultuur en overheid. Eind 2023 is het de beurt aan de archieven van de VRT en de regionale omroepen. Meemoo ontvangt trouwens zowat elke dag nieuw materiaal in zijn archiefsysteem. Daarom blijven de opgezette systemen ook na het GIVE-project bruikbaar. Ieder object wordt zo rechtstreeks verrijkt.
Dit project werd mogelijk gemaakt met de steun van het Europees Fonds voor Regionale Ontwikkeling en kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid.