Kranten in massa digitaliseren, daar komt heel wat bij kijken. Want welke exemplaren selecteer je uit meerdere miljoenen niet-gedigitaliseerde kranten? Wat met de verzuring van het papier, die de kranten extra fragiel maakt? En hoe maak je alles nog eens doorzoekbaar? In het Gecoördineerd Initiatief voor Vlaamse Erfgoeddigitalisering (GIVE) worden 630.000 kranten onder leiding van de Vlaamse Erfgoedbibliotheken en meemoo gedigitaliseerd. Op deze pagina lees je van A tot Z over het proces.
Een relatief behapbare set kiezen uit miljoenen nog te digitaliseren kranten, dat was de eerste stap in dit massadigitaliseringsproject. De vzw Vlaamse Erfgoedbibliotheken legde de puzzel van het GIVE-krantenproject Primeur op basis van enkele criteria, met een speciale focus op de meest kwetsbare (lees: verzuurde) exemplaren omdat die als eerste zullen vergaan. Meer over de criteria lees je hier.
Met deze selectie in handen was het tijd voor de registratie en verpakking van het materiaal bij de betrokken collectiebeheerders. De gegevens van iedere krantenbundel werden grondig bestudeerd en vervolgens genoteerd in een online registratiesysteem. Na een eventuele herverpakking werd ieder exemplaar met een unieke barcode gelinkt aan deze digitale notitie. Een heleboel registratoren zetten hun schouders onder deze fase, en waren samen langer dan 2.000 uur zoet. Gemiddeld gingen er 9.600 kranten per week door hun handen!
Wat er geregistreerd werd? Zowel inhoudelijke als technische gegevens over de kranteneditie vonden hun weg in het online systeem. En da’s handig, want met technische metadata als de afmetingen van een krant wordt het digitaliseringsproces gestroomlijnd. Inhoudelijke metadata zoals de titel, gebruikte taal of het jaartal bevorderen later dan weer de doorzoekbaarheid van het materiaal.
Daarnaast was er aandacht voor het in kaart brengen van de schade aan de kwetsbare kranten. Het papier waarop kranten vroeger gedrukt werden, is niet bedoeld om voor eeuwig mee te gaan.
De drager heeft een autodestructief (of zelfvernietigend) karakter en is vooral gevoelig voor verzuring: een onvermijdbaar en onomkeerbaar proces dat ervoor zorgt dat vele kranten uiteindelijk zo broos zijn dat ze uit elkaar vallen. Ondanks goede bewaaromstandigheden! Ook alledaagse handelingen kunnen het papier schaden. De registratoren spotten regelmatig scheuren, inktvlekken, kreuken of vouwen. En dan zijn er nog de onvermijdelijke papier-etende zilvervisjes en schimmel. Archieven nemen de nodige maatregelen tegen deze natuurlijke vijanden, toch kan je schade nauwelijks tegengaan.
Om de digitalisering vlot te laten verlopen én om een overzicht te krijgen van de materiële conditie van het krantenerfgoed over organisaties heen, is de registratie van deze schadekenmerken erg belangrijk. Ook voor de inschatting van de kwaliteit van de latere OCR - het omzetten van de digitale beelden naar machineleesbare en dus doorzoekbare tekst - is schaderegistratie van belang.
Elke krant die op transport gaat naar het digitaliseringsbedrijf moet veilig verpakt worden om schade aan deze kwetsbare drager te vermijden. De volgende stap is dan ook de herverpakking van de broze dragers. Die bestaat uit drie lagen die samen een extra beschermende schil vormen. Bij registratie krijgen losse edities of bundels zonder kaft een nieuwe farde uit zuurvrij papier, aangepast aan de afmetingen van de drager in kwestie. Hierna verdwijnen ze samen in een stevige doos, die op zijn beurt in een plastieken container gaat. Klaar voor transport!
In het GIVE-krantenproject Primeur leidt Picturae, een gespecialiseerde digitaliseringsfirma uit Nederland, de digitalisering in goede banen. Als initiator en coördinator van het GIVE-project koos meemoo deze partij uit na grondige vergelijkingen.
De 630.000 kranten van 8 bewaarinstellingen werden trouwens opgedeeld in kleinere hoeveelheden. Zo lag de opslagruimte bij Picturae niet propvol, en bleef alles overzichtelijk en behapbaar.
Het doel van het GIVE-krantenproject is om waarheidsgetrouwe digitale kopieën te creëren van duizenden krantenpagina’s, en dat razendsnel. Picturae gebruikte hiervoor twee verschillende digitaliseringsopstellingen, afhankelijk van het formaat van de krant:
Het voordeel van deze manier van werken? Door de kranten te verdelen over twee sets, won Picturae veel tijd en werd afhankelijk van het formaat van iedere krant de meest geschikte digitaliseringsmethode gekozen. En da’s nodig in een massadigitaliseringproject! Dankzij deze methode gebeurden er dagelijks gemiddeld 1.400 opnames.
Het doel van het GIVE-project is hoogwaardige digitale kopieën creëren, voor de toekomst bewaren en voor diverse toepassingen herbruikbaar maken. Het stappenplan voor kranten ziet er zo uit:
De camera of camera’s worden correct ingesteld.
Stof of vuil werd waar nodig zorgvuldig verwijderd.
De krant wordt op een tafel met bewegende vlakken gelegd. Die zorgen er o.a. voor dat dikke bundels in evenwicht worden gehouden. Zo komt er minder druk op de rug van de krant.
Een laserlampje bepaalt waar het midden van de krant moet vallen.
Er komt een glasplaat naar beneden die de krant mooi plat duwt.
Met één druk op de knop is de opname een feit!
De operator draait met een speciale handschoen de pagina om.
Zijn alle pagina’s opgenomen? De krant wordt ingepakt en verdwijnt weer veilig in de doos.
Picturae kijkt nog eens naar de metadata en maakt aanvullingen, bvb. het type camera waarmee de opname gebeurde, of de software.
Het digitaliseren gebeurde aan de hand van de strengste Metamorfoze-richtlijnen. Deze set aan normen voor digitale fotografie kwam met de nodige uitdagingen. Wat het betekende voor dit project?
Dagelijks worden alle technische vereisten - het juiste diafragma, de resolutie per afmeting, witbalans en toonschaal - ingesteld en uitgebreid doorgetest door meemoo en Picturae. Dat gebeurt aan de hand van targets: kaarten en schalen waarmee de instellingen van de camera worden gecheckt. Daarnaast worden ook de metadata over het digitaliseringsproces aangevuld en het fysieke object gekoppeld aan de digitale opname. Afhankelijk van de afmetingen van de fysieke krant is die resolutie trouwens 300 PPI. Ook worden de opnames automatisch bijgesneden. De operator controleert na iedere opname of het beeld mooi recht en scherp is, en dat er niet te veel werd afgeknipt.
Dit cruciale meetinstrument voor kleur, belichting, witbalans, resolutie en meer bestaat uit gestandaardiseerde kleurkaarten en toonschalen. Door deze targets digitaal vast te leggen en de afwijkingen te vergelijken met de referentiewaarden, gebeurt alles correct. Dé ideale handlangers voor consistentie doorheen een digitaliseringsproject. In Primeur worden Delt.ae en GIMP gebruikt.
Kranten zijn een kwetsbare drager, wat zorgt voor de nodige uitdagingen. Er ging bijvoorbeeld veel aandacht uit naar de registratie en de veiligheid van het transport. Ook tijdens het digitaliseren zelf was het zaak om de rug van de bundels niet te zwaar te belasten. Dat loste Picturae op met een speciale tafel met verschillende bewegende vlakken. Het omdraaien van de pagina’s zelf gebeurde ook steeds met de nodige voorzichtigheid. De truc? Verzuurd papier brokkelt af bij een drukpunt. Door die druk te verdelen en de krant met je twee handen vast te houden en om te draaien, verminder je het risico van scheuren.
Kwaliteitsvolle digitale beelden van duizenden krantenpagina’s: check! Maar wat nu? De volgende stap in het GIVE-project is de toepassing van een technisch snufje, namelijk optische tekenherkenning of OCR. Met deze AI-techniek maak je tekst computerleesbaar. Erg handig voor een informatiedrager als een krant, want dankzij deze toepassing maak je de drager veel beter en makkelijker doorzoekbaar.
Een duik in het proces:
Het waarheidsgetrouwe digitale beeld van de krant wordt eerst zo goed mogelijk opgepoetst. Het contrast en de helderheid worden aangepast, en ruis wordt weggehaald. Iedere letter wordt op deze manier zo goed mogelijk leesbaar.
In stap drie wordt er een woordenboek bijgehaald. Zijn de herkende tekens wel bestaande woorden? Ook deze stap heeft invloed op de waarschijnlijkheidsscore.
Hierna gebeurt er nog een laatste spellingscheck. Veel kranten in Primeur zijn best oud. Daarom worden er ook historische woordenboeken geconsulteerd.
Voor de digitale bestanden instromen in het archiefsysteem van meemoo, wordt eerst gecontroleerd of alle bestanden voldoende kwalitatief zijn. Naast een dagelijkse controle van de targets met GIMP en Delt.ae checkt meemoo per steekproef of de aangeleverde bestanden compleet zijn en gebeurt er een visuele controle. Zijn de beelden scherp? Werd er niet te veel weggesneden? Zijn er geen vingers in beeld? Hierna worden de bestanden - in TIFF-formaat - gecontroleerd op inhoud en structuur met DPF Manager. Het juiste TIFF-profiel is cruciaal voor hun duurzame bewaring. In het GIVE-krantenproject werd gekozen voor Baseline 6.0 uncompressed.
De resultaten van de OCR (volgens de ALTO-standaard) worden aan de hand van een XSD-schema gevalideerd. Is het bestand juist opgesteld? Staat alles in het bestand? Hoe zit het met de leesbaarheid? Ook wordt er een disclaimer toegevoegd aan deze nieuwe inhoudelijke gegevens, want soms loopt er iets mis.
De metadata die door Picturae werden gecreëerd (in METS XML), worden ten slotte automatisch gecontroleerd: zijn het digitale pakket en de vereiste specificaties ervan volledig? Hierna kunnen de bestanden, in één SIP-pakket, instromen bij meemoo. Daar worden ze duurzaam gearchiveerd. Hierna kunnen alle kranten mondjesmaat ontsloten worden. Door meemoo, en de partners in dit project. Zo kan op termijn iedereen meegenieten van deze schat aan informatie.
In de tweede aflevering duiken we in de enorme verzameling aan kranten die Vlaanderen rijk is. Deze podcastaflevering vertelt hoe deze papieren tijdcapsules zijn gedigitaliseerd, waardoor ze niet alleen bewaard blijven, maar ook gemakkelijker doorzoekbaar zijn dan ooit tevoren.
Dit project werd mogelijk gemaakt met de steun van het Europees Fonds voor Regionale Ontwikkeling en kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid.