Universiteit Twente

Zelfs in kakofonie van geluid pikt computer spraak eruit

Uitzendingen van het acht uur journaal doorzoeken kan sinds kort dankzij een spraakherkenner die vooraf getraind wordt. Promovendus Marijn Huijbregts van de Universiteit Twente gaat echter nog een stap verder: ook voor audio- en videobestanden die een spraakherkenner vooraf helemaal niet kent, heeft hij een Spoken Document Retrieval ontwikkeld. Zelfs bij onverwacht veel achtergrondruis kan deze herkenner zijn werk goed doen. Huijbregts promoveert op 21 november aan de faculteit Elektrotechniek, Wiskunde en Informatica.

Informatie uit tekst kan snel gevonden worden met bijvoorbeeld een index in een boek of een zoekmachine als Google. Zoeken in audio- en videobestanden, die geen gemakkelijk doorzoekbare index hebben, is veel moeilijker. Om dit te vereenvoudigen kun je een spraakherkenner gebruiken, aangezien je de meeste informatie uit audio- en videobestanden over het algemeen uit spraak haalt. Met behulp van opname door een spraakherkenner kan spraak worden omgezet in tekst. Hiervoor is een Spoken Document Retrieval (SDR)-systeem nodig. Een SDR-systeem maakt het mogelijk rechtstreeks in audio- en videomaterialen te zoeken, net als het zoeken in tekstdocument. Een soort Google voor audio en video dus.

Acht uur journaal

De Human Media Interaction-groep van de Universiteit Twente ontwikkelde eerder een SDR-systeem voor het acht uur journaal. Met behulp van zoektermen kan gezocht worden naar specifieke onderwerpen. Dit systeem is specifiek getraind met teksten uit dagbladen en twintig uur aan uitzendingen. Het SDR-systeem voor het acht uur journaal werkt goed, omdat in deze situatie duidelijk is wat er ongeveer gezegd gaat worden en er weinig omgevingsruis aanwezig is. Zou je dit systeem ongetraind toepassen op andere videobestanden, dan werkt het niet naar behoren. Huijbregts vroeg zich af of hij ook een SDR-systeem kon ontwikkelen, waarvoor bijna geen trainingsdata nodig is en dat toch onbekende audio- en videobestanden goed kan verwerken.

SHoUT

Bij onbekende audio- en videobestanden is het vooraf niet duidelijk wat er allemaal gaat gebeuren: wie wat zegt, wat er gezegd gaat worden en welke omgevingsgeluiden er zijn. Huijbregts ontwikkelde daarom een SDR-systeem, dat zo robuust mogelijk is voor deze onbekende omstandigheden: SHoUT (Spraak Herkennings onderzoek Universiteit Twente). Het SDR-systeem is robuust als het in staat is om alle audio- en videobestanden te verwerken onder allerlei omstandigheden, zoals veel achtergrondruis of waarbij onduidelijk wordt gesproken.

SHoUT is opgedeeld in drie verschillende stappen. In de eerste stap maakt het systeem onderscheid tussen spraak en andere geluiden. Hierbij wordt bijvoorbeeld achtergrondmuziek gefilterd van spraak. De tweede stap die het systeem neemt is het identificeren van de verschillende sprekers en deze labellen. Dan is het tijd voor de laatste stap: de automatische spraakherkenning. Hier zet het systeem spraak om in tekst. Het tekstbestand kun je nu met trefwoorden doorzoeken naar relevante onderwerpen, zoals Google dat doet met tekstbestanden op internet.

Schematisch overzicht van SHoUT

Schematisch overzicht van SHoUT

De eerste versie van SHoUT is beschikbaar, maar wordt verder ontwikkeld door de promovendus. SHoUT en andere demonstraties van SDR-systemen zijn te vinden op de website van Huijbregts.