Artikel Cursor, jaargang 43, 28 september 2000

Van teletekst naar gesproken taal

Sprekende computer bijna niet te onderscheiden van menselijke stem

GoalGetter/ Chriz van de Graaf

Foto / Bram Saeys

Een sprekende computer die nauwelijks van een mens te onderscheiden is. Dat was wat Mariët Theune voor ogen had toen ze als assistent in opleiding begon aan haar klus bij het IPO. Nu is ze klaar en het resultaat is op zijn minst verrassend te noemen. Niet alleen voor collega's, ook het bedrijfsleven heeft een oogje laten vallen op het bijna vloeiend sprekende apparaat.

Een computer die tegen je praat. Dat kennen we. Een computer die antwoord geeft op vragen over de vertrektijden van de treinen naar Hilversum kennen we ook. Maar een computer die de kale voetbaluitslagen van teletekst omzet in gesproken zinnen die variëren in opbouw en die woorden met meer of minder nadruk uitspreekt, dat is nieuw.

Eén van de verantwoordelijken voor deze noviteit is Mariët Theune. Samen met haar inmiddels gepromoveerde collega Esther Klabbers ontwikkelde ze het computerprogramma dat wedstrijdverslagen op teletekst omzet in gesproken taal. Ze hebben het de naam GoalGetter meegegeven. Het programma zou overigens ook te gebruiken zijn om bijvoorbeeld het weerbericht of de beurskoersen in goedlopende zinnen uit te spreken.

Uniek aan het programma is dat gesproken taal niet slechts wordt beschouwd als een reeks van woorden. Zo gaat een woord dat in de gesproken taal aan het eind van een zin staat meestal in toonhoogte omlaag. Iedereen weet dan: einde zin. Een lange pauze tussen twee woorden betekent meestal: nieuwe zin. En een woord dat met nadruk wordt uitgesproken geeft de luisteraar het signaal: belangrijk. Dit zijn allemaal zaken die niet bewust beleefd worden, maar ze zijn wel essentieel om een gesproken tekst goed te kunnen volgen en te kunnen begrijpen.


Mariët Theune

Robotachtig

Met deze uitgangspunten en de kennis die ze heeft opgedaan tijdens haar studie taalkunde in Utrecht ging Mariët Theune in 1996 als assistent in opleiding aan de slag bij het IPO (Center for User-System Interaction). Ze kwam terecht in het prioriteitenprogramma Taal- en Spraaktechnologie van de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO). Daar werd in samenwerking met universiteiten in het hele land gewerkt aan het reisinformatiesysteem OVIS (Openbaar Vervoer Informatie Systeem).

Voor dit informatiesysteem moeten tekstjes worden gemaakt van gegevens uit tabellen met reistijden. Als vingeroefening voor dit project startte Theune met GoalGetter. 'We gebruikten een systeem dat al bestond en zijn daarmee aan de slag gegaan. Als we met dat programma GoalGetter zouden kunnen maken dan zou het ook voor OVIS werken, zo redeneerden wij.'

Voor het programma van GoalGetter werd onderzocht wat een gesproken tekst nodig heeft om niet saai, blikkerig en robotachtig te klinken. De onderzoekers kwamen tot de conclusie dat door de computer de natuurlijke variatie in de stem moet worden nagebootst. Zo legt de computer een accent op een zelfstandig naamwoord dat voor de eerste keer wordt uitgesproken. Als Kluivert voor de eerste keer scoort en later alleen op het doel afgaat, benadrukt de computer alleen de eerste keer de naam Kluivert. Dus: 'KLUIVERT scoorde in de vierde minuut. Daarna, in de tiende minuut ging Kluivert (geen accentuering) alleen op het doel af'. Ook kan de computer bij de tweede Kluivert het woord 'hij' gebruiken omdat in deze context duidelijk is wie met 'hij' bedoeld wordt.

Pauzes

Overigens houdt de computer ook rekening met uitzonderingen. Als na een verhaaltje over Kluivert een zin over Bergkamp volgt en het daarna weer over Kluivert gaat, krijgt het woord Kluivert weer de nadruk. De computer onthoudt van elk woord hoe lang geleden het voorbij kwam. Ook kan het programma een pauze inlassen tussen twee woorden. De pauzes variëren op een schaal van een tot drie.

Het gesproken wedstrijdverslag is gebaseerd op informatie van teletekst. Op de tekstpagina staat bijvoorbeeld: Ajax - Vitesse 1 - 2, doelpuntenmakers Kluivert (5), vijfde minuut; Machlas (1, 62), gele kaart F. de Boer, scheidsrechter Luinge, 43.000 toeschouwers. Met deze informatie maakt de computer de tekst: 'Vitesse ging op bezoek bij Ajax en won met één - twee. Drieënveertigduizend toeschouwers kwamen naar De Meer. De score werd in de eerste minuut geopend door Machlas van Vitesse. Vier minuten later bracht de Ajax-speler Kluivert de ploegen op gelijke hoogte. In de tweeënzestigste minuut bepaalde Machlas de eindstand op één - twee. Scheidsrechter Luinge deelde geen rode kaarten uit. Ajax-speler Frank de Boer kreeg een gele kaart.' Maar het kan bijvoorbeeld ook deze tekst worden: 'Het duel tussen en Ajax en Vitesse eindigde in één - twee. Drieënveertigduizend mensen kwamen naar de wedstrijd. Het team uit Arnhem kwam in de eerste minuut aan de leiding door een doelpunt van Machlas. Kluivert maakte in de vijfde minuut een goal voor Ajax. Machlas scoorde in de tweeënzestigste minuut opnieuw een goal en bepaalde daarmee de eindstand op één - twee. De wedstrijd werd geleid door scheidsrechter Luinge. Frank de Boer van Ajax ontving een gele kaart. Er werden geen rode kaarten uitgedeeld.'

De computer kiest willekeurig een zinsconstructie. Zo ontstaat een verscheidenheid aan zinbouwen en wordt de indruk gewekt dat de tekst door een mens wordt uitgesproken.

Het systeem bleek te werken en dat is te horen op de webpagina van het IPO. Daar staat een voorbeeld van het programma.

Bedrijfsleven

Theune is derhalve tevreden over de resultaten maar vindt dat er nog wel wat te verbeteren is. 'Van tevoren heb ik altijd grotere plannen dan wat mogelijk blijkt te zijn in de tijd die ik heb. Uiteindelijk kom ik tot de helft van de lijst met plannen die ik heb gemaakt. Nog steeds gaan mijn handen kriebelen als ik hoor en zie dat dingen aan GoalGetter verbeterd kunnen worden.'

Veel zal Theune echter niet meer toevoegen aan GoalGetter, want haar tijd als AIO zit erop. In december gaat ze promoveren op dit onderwerp. Als alles meezit.

'Het promoveren is onder voorbehoud. Dat moet erbij vermeld worden', lacht Theune. 'Ik heb er wel vertrouwen in, hoor. Maar je weet het nooit. Mijn begeleider en promotor zijn erg kritisch en ik kan me nauwelijks voorstellen dat anderen nog kritischer zijn.'

Of Theune als doctor verder gaat werken aan GoalGetter is nog een groot vraagteken, ook al is er interesse uit het bedrijfsleven voor het programma. Theune: 'Net als het reisinformatiesysteem is ook GoalGetter gemaakt als onderzoeksobject. Het is niet gemaakt om in gebruik te worden genomen. Toch zijn we wel aan het praten met een bedrijf. En ik vind het eigenlijk ook wel heel leuk als mensen het echt zouden gaan gebruiken.'

Vreemd is het niet dat bedrijven interesse hebben in de mogelijkheden van GoalGetter, want toepassingen zijn er te over. 'Je zou de computer kunnen bellen als je in de auto zit en de voetbaluitslagen wilt weten. En het ligt voor de hand dat het door blinden en slechtzienden gebruikt kan worden. De informatie wordt ook aantrekkelijker gepresenteerd dan wanneer het in tabellen staat.'

Voor het leven na GoalGetter heeft Theune nog geen concrete plannen. 'Ik wil natuurlijk verder met taalkunde en de praktische kant ervan is me erg bevallen. In de taalkunde ben je vaak bezig met theoriën en soms bijten de theorie en de praktijk elkaar. Dan kom je tot een theorie die praktisch helemaal niet uitvoerbaar is.'

Wat in ieder geval wel blijft is haar werk voor Amnesty International. 'Amnesty bevredigt mijn wens om ècht nuttige dingen te doen', vertelt Theune. 'Een link met mijn werk heeft Amnesty niet. De enige link is misschien de link op mijn homepage. We hebben overigens wel studenten nodig bij Amnesty. Zo kan ik toch even misbruik maken van de aandacht voor GoalGetter!'


Mariët Theune
Last modified: Thu Oct 10 11:57:15 MEST 2002