Promovendus laat computer beter luisteren

Het onderzoek is gedaan in het kader van het CHoral-project, een initiatief van NWO. Van der Werff toonde in zijn promotieonderzoek `Evaluation of Noisy Transcripts for Spoken Document Retrieval' aan, dat zoeken en vinden in audio-archieven beter kan als we met een andere blik naar de achterliggende techniek kijken en rekening houden met de manier waarop de resultaten worden gebruikt.

Redactie AG ConnectMeer van deze auteur

Tech & Toekomst — Shutterstock

Shutterstock

Andere blik op historisch geluid

Automatische spraakherkenning en nieuwe zoektechnologie bieden de mogelijkheid om geluidsbestanden te doorzoeken: het gesproken woord wordt omgezet in een uitgeschreven tekst (transcriptie), die vervolgens `gewoon' te doorzoeken is. In vele onderzoekslabs wereldwijd wordt hard gewerkt om de kwaliteit van die automatische spraakherkenning te verbeteren. Deze verbeteringen leveren echter bij toepassing in zoeksystemen - en zeker bij erfgoedcollecties - niet altijd een maximaal rendement.

"Het automatisch transcriberen van geluidsfragmenten gaat een stuk sneller dan de traditionele methode die gebruik maakt van crowdsourcing. Daarbij laat je groepen mensen naar het gesprokene luisteren en zij maken dan een tekstuele weergave. Met alle fouten en foutjes van dien", zegt Gareth Jones van Dublin University en een van de leden van de promotiecommissie.

Onverwachte resultaten

Van der Werff stelt een nieuwe manier voor om de kwaliteit van automatisch gegenereerde transcripties te evalueren, waarbij beter rekening wordt gehouden met de manier waarop historici en andere eindgebruikers de zoekresultaten willen toepassen. Dit biedt de mogelijkheid om beter te analyseren waar problemen optreden en geeft tevens aan waar mogelijkheden liggen voor optimalisatie. Vanwege het nauwe referentiekader in de erfgoedsector waarop optimalisaties kunnen worden gebaseerd, is dit een zeer welkome stap vooruit.

Bijzondere problemen

Het audiomateriaal in erfgoedcollecties heeft bijzondere eigenschappen. Behalve dat veel geluidsbanden niet gedigitaliseerd zijn, zijn ze meestal ook niet handmatig getranscribeerd. Verder ontbreekt de metadata volledig, of is er slechts een summiere beschrijving. De aanduiding 'minister spreekt tijdens bijeenkomst' zegt nu eenmaal bitter weinig. Bovendien gaat het vaak om opnames van niet-professionele sprekers met ook nog eens veel omgevingsgeluid. En veel van die sprekers komen slechts in één fragment voor, waardoor er voor een computer niet veel trainingsmateriaal beschikbaar is. Door de geavanceerde techniek van Van der Werff te gebruiken, kunnen de geluidsfragmenten toch goed automatisch verwerkt worden.

Praktische resultaten

De technieken uit het CHoral-project werden al toegepast op collecties van:

het Gemeentearchief Rotterdam (uitzendingen Radio Rijnmond; website `Brandgrens' met getuigenverhalen over het bombardement op Rotterdam),
het NIOD (Radio Oranje met toespraken van Koningin Wilhelmina tijdens WOII; getuigenissen van overlevenden uit Buchenwald)
het interview-archief van Aletta/IAVV.

Ook liggen de kennis en technieken uit CHoral mede aan de basis van het open source spraakherkenningspakket SHoUT (Universiteit Twente), dat werd doorontwikkeld binnen het vervolgtraject CATCHPlus.