met de steun van
630.000 krantenpagina's digitaliseren, een Primeur!

Kranten digitaliseren: van A tot Z

Kranten in massa digitaliseren, daar komt heel wat bij kijken. Want welke exemplaren selecteer je uit meerdere miljoenen niet-gedigitaliseerde kranten? Wat met de verzuring van het papier, die de kranten extra fragiel maakt? En hoe maak je alles nog eens doorzoekbaar? In het Gecoördineerd Initiatief voor Vlaamse Erfgoeddigitalisering (GIVE) worden 630.000 kranten onder leiding van de Vlaamse Erfgoedbibliotheken en meemoo gedigitaliseerd. Op deze pagina lees je van A tot Z over het proces.

Een grondige selectie en voorbereiding

Een relatief behapbare set kiezen uit miljoenen nog te digitaliseren kranten, dat was de eerste stap in dit massadigitaliseringsproject. De vzw Vlaamse Erfgoedbibliotheken legde de puzzel van het GIVE-krantenproject Primeur op basis van enkele criteria, met een speciale focus op de meest kwetsbare (lees: verzuurde) exemplaren omdat die als eerste zullen vergaan. Meer over de criteria lees je hier.

Met deze selectie in handen was het tijd voor de registratie en verpakking van het materiaal bij de betrokken collectiebeheerders. De gegevens van iedere krantenbundel werden grondig bestudeerd en vervolgens genoteerd in een online registratiesysteem. Na een eventuele herverpakking werd ieder exemplaar met een unieke barcode gelinkt aan deze digitale notitie. Een heleboel registratoren zetten hun schouders onder deze fase, en waren samen langer dan 2.000 uur zoet. Gemiddeld gingen er 9.600 kranten per week door hun handen!

  • UGENT 20220310 02
    Krantenregistratie bij UGent, foto door meemoo, licentie: CC BY-SA
  • DSCN2327
    Kranten bewaard bij Picturae, foto door meemoo, licentie: CC BY-SA

Een minutieuze registratie

Wat er geregistreerd werd? Zowel inhoudelijke als technische gegevens over de kranteneditie vonden hun weg in het online systeem. En da’s handig, want met technische metadata als de afmetingen van een krant wordt het digitaliseringsproces gestroomlijnd. Inhoudelijke metadata zoals de titel, gebruikte taal of het jaartal bevorderen later dan weer de doorzoekbaarheid van het materiaal.

DSCN2347
Een verzuurde krant bij Picturae, foto door meemoo, licentie: CC BY-SA

Daarnaast was er aandacht voor het in kaart brengen van de schade aan de kwetsbare kranten. Het papier waarop kranten vroeger gedrukt werden, is niet bedoeld om voor eeuwig mee te gaan.

De drager heeft een autodestructief (of zelfvernietigend) karakter en is vooral gevoelig voor verzuring: een onvermijdbaar en onomkeerbaar proces dat ervoor zorgt dat vele kranten uiteindelijk zo broos zijn dat ze uit elkaar vallen. Ondanks goede bewaaromstandigheden! Ook alledaagse handelingen kunnen het papier schaden. De registratoren spotten regelmatig scheuren, inktvlekken, kreuken of vouwen. En dan zijn er nog de onvermijdelijke papier-etende zilvervisjes en schimmel. Archieven nemen de nodige maatregelen tegen deze natuurlijke vijanden, toch kan je schade nauwelijks tegengaan.

Om de digitalisering vlot te laten verlopen én om een overzicht te krijgen van de materiële conditie van het krantenerfgoed over organisaties heen, is de registratie van deze schadekenmerken erg belangrijk. Ook voor de inschatting van de kwaliteit van de latere OCR - het omzetten van de digitale beelden naar machineleesbare en dus doorzoekbare tekst - is schaderegistratie van belang.

Verpakking en transport

Elke krant die op transport gaat naar het digitaliseringsbedrijf moet veilig verpakt worden om schade aan deze kwetsbare drager te vermijden. De volgende stap is dan ook de herverpakking van de broze dragers. Die bestaat uit drie lagen die samen een extra beschermende schil vormen. Bij registratie krijgen losse edities of bundels zonder kaft een nieuwe farde uit zuurvrij papier, aangepast aan de afmetingen van de drager in kwestie. Hierna verdwijnen ze samen in een stevige doos, die op zijn beurt in een plastieken container gaat. Klaar voor transport!

Een massadigitalisering?

In het GIVE-krantenproject Primeur leidt Picturae, een gespecialiseerde digitaliseringsfirma uit Nederland, de digitalisering in goede banen. Als initiator en coördinator van het GIVE-project koos meemoo deze partij uit na grondige vergelijkingen.

De 630.000 kranten van 8 bewaarinstellingen werden trouwens opgedeeld in kleinere hoeveelheden. Zo lag de opslagruimte bij Picturae niet propvol, en bleef alles overzichtelijk en behapbaar.

Digitaliseren met twee sets

Het doel van het GIVE-krantenproject is om waarheidsgetrouwe digitale kopieën te creëren van duizenden krantenpagina’s, en dat razendsnel. Picturae gebruikte hiervoor twee verschillende digitaliseringsopstellingen, afhankelijk van het formaat van de krant:

Visual kranten unifolio
  • een set met twee camera’s
    Boven deze set hangen twee correct gekalibreerde camera's die kruislings gericht zijn op één bladzijde van de krant. De camera's nemen elk één bladzijde op: dit heet een unifolio-opname. Het voordeel van deze methode is dat zelfs de erg grote exemplaren in goede kwaliteit worden opgenomen. Kwaliteistgarantie, dus!

    Wist je dat… Picturae deze set speciaal voor het GIVE-project bouwde?
Visual kranten bifolio
  • een set met één camera
    Boven deze set hangt één correct gekalibreerde camera loodrecht op beide bladzijden van een opengeslagen kant. De camera neemt beide bladzijden tegelijkertijd op in een bifolio-opname. Deze methode werd in het GIVE-project enkel gebruikt voor kleinere kranten. Zo blijven de kwaliteitseisen overeind, en het aantal pixels per pagina hoog genoeg.

Het voordeel van deze manier van werken? Door de kranten te verdelen over twee sets, won Picturae veel tijd en werd afhankelijk van het formaat van iedere krant de meest geschikte digitaliseringsmethode gekozen. En da’s nodig in een massadigitaliseringproject! Dankzij deze methode gebeurden er dagelijks gemiddeld 1.400 opnames.

Deep dive: hoe digitaliseer je een krant?

Het doel van het GIVE-project is hoogwaardige digitale kopieën creëren, voor de toekomst bewaren en voor diverse toepassingen herbruikbaar maken. Het stappenplan voor kranten ziet er zo uit:

  • De camera of camera’s worden correct ingesteld.

  • Stof of vuil werd waar nodig zorgvuldig verwijderd.

  • De krant wordt op een tafel met bewegende vlakken gelegd. Die zorgen er o.a. voor dat dikke bundels in evenwicht worden gehouden. Zo komt er minder druk op de rug van de krant.

  • Een laserlampje bepaalt waar het midden van de krant moet vallen.

  • Er komt een glasplaat naar beneden die de krant mooi plat duwt.

  • Met één druk op de knop is de opname een feit!

  • De operator draait met een speciale handschoen de pagina om.

  • Zijn alle pagina’s opgenomen? De krant wordt ingepakt en verdwijnt weer veilig in de doos.

  • Picturae kijkt nog eens naar de metadata en maakt aanvullingen, bvb. het type camera waarmee de opname gebeurde, of de software.

De technische details

Het digitaliseren gebeurde aan de hand van de strengste Metamorfoze-richtlijnen. Deze set aan normen voor digitale fotografie kwam met de nodige uitdagingen. Wat het betekende voor dit project?

Dagelijks worden alle technische vereisten - het juiste diafragma, de resolutie per afmeting, witbalans en toonschaal - ingesteld en uitgebreid doorgetest door meemoo en Picturae. Dat gebeurt aan de hand van targets: kaarten en schalen waarmee de instellingen van de camera worden gecheckt. Daarnaast worden ook de metadata over het digitaliseringsproces aangevuld en het fysieke object gekoppeld aan de digitale opname. Afhankelijk van de afmetingen van de fysieke krant is die resolutie trouwens 300 PPI. Ook worden de opnames automatisch bijgesneden. De operator controleert na iedere opname of het beeld mooi recht en scherp is, en dat er niet te veel werd afgeknipt.

Targets kranten

Wat is een target?

Dit cruciale meetinstrument voor kleur, belichting, witbalans, resolutie en meer bestaat uit gestandaardiseerde kleurkaarten en toonschalen. Door deze targets digitaal vast te leggen en de afwijkingen te vergelijken met de referentiewaarden, gebeurt alles correct. Dé ideale handlangers voor consistentie doorheen een digitaliseringsproject. In Primeur worden Delt.ae en GIMP gebruikt.

Broos papier brengt uitdagingen met zich mee

Kranten zijn een kwetsbare drager, wat zorgt voor de nodige uitdagingen. Er ging bijvoorbeeld veel aandacht uit naar de registratie en de veiligheid van het transport. Ook tijdens het digitaliseren zelf was het zaak om de rug van de bundels niet te zwaar te belasten. Dat loste Picturae op met een speciale tafel met verschillende bewegende vlakken. Het omdraaien van de pagina’s zelf gebeurde ook steeds met de nodige voorzichtigheid. De truc? Verzuurd papier brokkelt af bij een drukpunt. Door die druk te verdelen en de krant met je twee handen vast te houden en om te draaien, verminder je het risico van scheuren.

  • BHL 20220311 07
    Krant van Bibliotheek Hasselt Limburg, foto door meemoo, licentie: CC BY-SA
  • DSCN2302
    Digitaliseringsset Picturae, foto door meemoo, licentie: CC BY-SA

Wat na digitalisering?

Aandacht voor bruikbaarheid: OCR

Kwaliteitsvolle digitale beelden van duizenden krantenpagina’s: check! Maar wat nu? De volgende stap in het GIVE-project is de toepassing van een technisch snufje, namelijk optische tekenherkenning of OCR. Met deze AI-techniek maak je tekst computerleesbaar. Erg handig voor een informatiedrager als een krant, want dankzij deze toepassing maak je de drager veel beter en makkelijker doorzoekbaar.

Pa cta text schermafbeelding 2023 04 21 om 133009
OCR toegepast op een krant, uit Vooruit: socialistisch dagblad, 25/9/1914, via nieuwsvandegrooteoorlog.hetarchief.be

Een duik in het proces:

  • Het waarheidsgetrouwe digitale beeld van de krant wordt eerst zo goed mogelijk opgepoetst. Het contrast en de helderheid worden aangepast, en ruis wordt weggehaald. Iedere letter wordt op deze manier zo goed mogelijk leesbaar.

  • Nu iedere letter zo goed mogelijk leesbaar is gemaakt, is het tijd om de tekstherkenning op de digitale beelden te laten lopen.
    • Deze technologie binnen de artificiële intelligentie zoekt naar blokken, waarna de tekens binnen de blokken herkend worden.
    • De kans dat een letter correct herkend is, wordt ook berekend. Iedere letter krijgt een waarschijnlijkheidsscore.
  • In stap drie wordt er een woordenboek bijgehaald. Zijn de herkende tekens wel bestaande woorden? Ook deze stap heeft invloed op de waarschijnlijkheidsscore.

  • Hierna gebeurt er nog een laatste spellingscheck. Veel kranten in Primeur zijn best oud. Daarom worden er ook historische woordenboeken geconsulteerd.

  • De gegevens lopen uit de OCR. Per letter zie je welke letter herkend wordt, in welk lettertype en in welke grootte ze staan, en wat de zekerheid is dat deze herkenning correct is.

Tijd voor kwaliteitscontrole

Voor de digitale bestanden instromen in het archiefsysteem van meemoo, wordt eerst gecontroleerd of alle bestanden voldoende kwalitatief zijn. Naast een dagelijkse controle van de targets met GIMP en Delt.ae checkt meemoo per steekproef of de aangeleverde bestanden compleet zijn en gebeurt er een visuele controle. Zijn de beelden scherp? Werd er niet te veel weggesneden? Zijn er geen vingers in beeld? Hierna worden de bestanden - in TIFF-formaat - gecontroleerd op inhoud en structuur met DPF Manager. Het juiste TIFF-profiel is cruciaal voor hun duurzame bewaring. In het GIVE-krantenproject werd gekozen voor Baseline 6.0 uncompressed.

De resultaten van de OCR (volgens de ALTO-standaard) worden aan de hand van een XSD-schema gevalideerd. Is het bestand juist opgesteld? Staat alles in het bestand? Hoe zit het met de leesbaarheid? Ook wordt er een disclaimer toegevoegd aan deze nieuwe inhoudelijke gegevens, want soms loopt er iets mis.

De metadata die door Picturae werden gecreëerd (in METS XML), worden ten slotte automatisch gecontroleerd: zijn het digitale pakket en de vereiste specificaties ervan volledig? Hierna kunnen de bestanden, in één SIP-pakket, instromen bij meemoo. Daar worden ze duurzaam gearchiveerd. Hierna kunnen alle kranten mondjesmaat ontsloten worden. Door meemoo, en de partners in dit project. Zo kan op termijn iedereen meegenieten van deze schat aan informatie.

Luister nu naar de podcast 'Tot in detail'

In de tweede aflevering duiken we in de enorme verzameling aan kranten die Vlaanderen rijk is. Deze podcastaflevering vertelt hoe deze papieren tijdcapsules zijn gedigitaliseerd, waardoor ze niet alleen bewaard blijven, maar ook gemakkelijker doorzoekbaar zijn dan ooit tevoren.

Dit project werd mogelijk gemaakt met de steun van het Europees Fonds voor Regionale Ontwikkeling en kadert binnen het relanceplan Vlaamse Veerkracht van de Vlaamse overheid.

Pa page width efro eu klein
Op deze pagina: