Overigen

Spraakherkenning en filmpjes vormen een populair duo. Dikwijls gaat het over de imperfectie van spreaakherekenning: mensen die tervergeefts tegen een device kletsen met alle miscommunicatie van dien. Toch zijn er ook steeds meer filmpjes, die ondank een hilarische benadering, laten zien dat taal- en spraaktechnologie in het algemeen en spraakherkenning in het bijzonder, wel degelijk kunnen werken.

Hieronder een niet en Hier komen de zaken die niet in een van de andere velden thuishoren.

Fimpjes over Taal- en Spraaktechnologie
Image Titel beschrijving
KnowledgeNavigator Apple's
Knowledge Navigator
De Knowledge Navigator is een door een directeur van Apple beschreven concept uit 1987 (dus 25 jaar oud). Het beschrijft een soort persoonlijke assistent die niet alleen praat en luistert, maar er ook nog als een mens uit ziet (dus niets animatiekarakter). Je kunt er vragen aan stellen ("wie heeft er gebeld?", "zoek eens wat artikelen over onderwerp XYZ", etc.). De spraakherkenning is (bijna) perfect en de assistent weet ook om te gaan met vage vragen als: "ik zoek iets van Dr. Fimson of zo iets". Ook de TTS is perfect: het systeem spreekt bijna volkome menselijk.
Toch zijn de meeste technologien die getoond worden al enige tijd beschikbaar. Ze werken nog niet zo perfect als in het filmpje en vooral de verwerkingssnelheid is nog een stuk trager dan wordt getoond. Ook het omgaan met de onzekerheid in de spraak is nog iets waar de software van nu nog niet goed mee kan omgaan.
Desalnietemin is het filmpje verassend nauwkeurig in het voorspellen van wat "zal" komen en met enige fantasie kan men er al de blauwdruk van het huidige SIRI in zien. Zie hier voor meer informatie.
ProjectNatal Microsofts
Project Natal
In antwoord op het succes van de WII kwam Microsoft met de een nog mooiere oplossing: de Kinect. Een set-op box die met behulp van meerdere camera's een infraroodcamera en een paar microfoons het ideale instrument is voor de interactie met de computer.
In het Project-Natal filmpje wordt een bijna perfecte interactie tussen een mens (Claire) en een virtueel karakter geschetst. Zeker het moment waarop Claire een vis tekent, het velletje papier vervolgens voor de camera houdt waarna een velletje in de virtuele wereld naar beneden dwarrelt, is geweldig.
Nee, lang net alles dat getoond wordt, kan al. Maar het scheelt in veel gevallen niet veel meer en met het voorbeel van de KnowledgeNavigator voor ogen zouden we kunnen stellen dat ook dit over niet al te lange tijd werkelijkheid wordt.
Watson IBM's
WATSON
WATSON kan beschouwt worden als een soort opvolger van Deep Blue: het spraakmakende programma dat als eerste er in slaagde wereldkampioen schaken te worden. WATSON slaagde er in 2011 in om twee voormalige kampioenen van het quiz-spelletje Jeoardy verpletterend te verslaan. WATSON "las" en vooral "interpreteerde" hiervoor tientallen-miljoenen documenten. De vragen werden vooraf ingevoerd (en dus niet door een spraakherkenner herkend zoals gesuggereerd wordt).
Als de vraag geheel was voorgelezen, werd de tekst ingevoerd. Het feit dat de tekst alleen in hoofdletters werd geschreven (iets dat pas eenn paar dagen voor de wedstrijd bleek) koste IBM nog wel wat punten: met gewone tekst was het dus nog beter gegaan.
De relevantie van WATSON is nog niet goed in te schatten: wel dat die enorm is. IBM geeft aan dat WATSON als eerste in de juridische en medische hoek zal worden ingezet.
Apple's
SIRI
Het DARPA-project CALO (Cognitive Agent that Learns and Organizes) lag ten grondslag aan het programma SIRI: een personal assistent in de stijl van Apple's KnowledgeNavigator. (CALO betekent: dienaar van de soldaat).
Op de nieuwste iPhone (de 4S) kan de gratis app worden gebruikt waarmee de beller allerlei zaken zoals bellen, SMS-sen, e-mailen, afspraak maken, de temperatuur opvragen een restaurant in de buurt zoeken etc etc. met spraak kan invoeren. Voorlopig "kent" het systeem alleen maar Amerika. Vragen over buiten de VS liggense zaken kunnen niet beantwoord worden.
De spraaak wordt niet op de iPhone zelf geprocessed maar ergens in een groot datacenter in de VS. Je moet dus "online" zijn om het te kunne gebruiken. De afwezigheid van Europese gegevens (zoek een goed restaurant in Firenze) en de noodzaak om alles te ver-Engelsen, maakt de app razend interessant maar nog niet erg nuttig. Het alaat wel zien welke kant het met de smart-phones en de bediening opgaat: spraak wordt definitief een belangrijk invoer medium.
  SpeechRecoDate Dit is een komisch filmpje dat laat zien hoe groot de afstand tussen mens en computer nog is. Een jongen en een meisje hebben een afspraak in een cafe. Zij doet de "voice recording" voor verschillende Amerikaanse bedrijven.
In het filmpje reageert zij steeds zoals de sprekende computers van eind jaren negentig deden: accuraat maar erg onbeholpen. Helemaal op het eind blijkt ze toch meer van vlees-en-bloed dan gedacht.
Erg leuk.
FoBo Telecats
FoBo

FrontOffice-BackOffice: een saaie naam voor een geweldig product!

De politieregio Hollands-Midden heeft een pilot uitgetest met een FrontOffice BackOffice (FOBO) concept waarbij spraakherkenning een belangrijke rol speelt. Medio februari is het evaluatierapport aangeboden aan de minister van Veiligheid en Justitie Ivo Opstelten, die het concept landelijk wil uitrollen. Initiatiefnemer Ron Maas: het programma past perfect binnen de wens van de burger die al jaren roept om meer blauw op straat.

FoBo Telecats
Aegon
AEGON heeft de laatste jaren alle telefoonnummers op een na uit de markt gehaald: iedereen belt nu met een nummer met AEGON. Om de bellers zo snel mogelijk bij de juiste medewerker "af te leveren" worden twee vragen gesteld: wie bent u (via postcode-huisnummer) en waarom belt u ons? Het systeem weet wie er belt en dus wat de producten zijn waarover een beller (waarschijnlijk) een vraag gaat stellen. Het systeem zorgt voor een geheel andere werkwijze van de call cnter medewerkers: daarover vertellen ze in het filmpje.
Telecats
RechtSpraakHerkenning
In toenemende mate worden zittingen in Nederlandse rechtbanken opgenomen. Taal- en Spraaktechnologie kunnen worden ingezet om de opnamen eenvoudig doorzoekbaar te maken.
Samen met de rechtbank Almelo is er een systeem gemaakt waarmee snel voor de rechtszaak relevante documenten gebruikt kunnen worden voor het creƫren van een taalmodel. Notoire lastige items als "namen van de verdachten", "delicten" en "locaties" kunnen dan goed herkend worden.
De combinatie van goede geluidsopname, sprekerspecifieke akoestische modellen en een taalmodel, resulteren in goede herkenning. Dit, gecombineerd met een zoeksysteem dat het mogelijk maakt niet alleen in de "best herkende" zin maar ook in mogelijke herkenningsalternatieven te zoeken, levert een geavanceerd systeem voor het zoeken in rechtszittingen.