Winkelmand

Geen producten in de winkelwagen.

De stille revolutie van de spraakherkening

Spraaktechnologie is al lang geen futurologisch trucje meer. Vitale bedrijfsprocessen worden inmiddels door het gesproken woord aangestuurd. De ooit als spraakmakend aangekondigde revolutie van het gesproken woord verloopt in alle stilte.

Elke dag bellen vijftigduizend mensen met de Amerikaanse aandelenhandelaar Charles Schwab. Ze doen dat om handel te drijven in aandelen. De klanten worden niet te woord gestaan door een vriendelijke telefoniste, maar door een computer. De klant kan aangeven welk aandeel hij wil verhandelen. Hij doet dat door de naam van het bewuste aandeel uit te spreken. In het geval van IBM kan de klant ook Big Blue noemen of Industrial Business Machines. De computer herkent wat de klant wil. De meeste klanten zijn zich nauwelijks bewust van het feit dat ze een computer instrueren. En waarom zouden ze zich daar ook druk over maken? Het enige dat ze interesseert is dat het systeem foutloos noteert welke aandelen ze willen verhandelen, hoe groot het te verhandelen volume is en tegen welke prijs er geboden of verkocht wordt.
Voor Schwab was de installatie van het met spraakherkenning uitgeruste systeem 'VoiceBroker' een kwestie van overleven. Bob Wolhsen, technisch directeur spraaktechnologie bij Schwab, legt uit: “Toen we in 1996 VoiceBroker in gebruik namen, was het gebruik van internet nog niet zo wijdverbreid als vandaag. Het telefoonverkeer nam toen een enorme vlucht. Het bleek niet mogelijk om het aantal oproepkrachten af te stemmen op de pieken in het belverkeer. Als die niet verwerkt konden worden door het belcentrum, zaten we met een probleem. Spraaktechnologie bleek de enige oplossing die we konden vinden. Tegelijk stelde het ons in staat de klant zoveel mogelijk dingen via de telefoon te laten doen.” VoiceBroker gold voor de klanten van Schwab als een natuurlijk verlengstuk van het al bestaande telefoonsysteem TeleBroker. Klanten die gebruik maakten van TeleBroker hadden geen moeite met de overgang. Het nieuwe systeem bleek eenvoudiger in het gebruik dan het oude. Wolhsen: “Bij TeleBroker moest de klant voor de A eenmaal toets 2 indrukken. Voor de letter B moest hij tweemaal toets 2 indrukken. Enzovoorts. Voor een heel specifieke opdracht moest de klant misschien wel twintig tot dertig toetsen indrukken. Dat bleek in de praktijk erg vermoeiend. Bovendien ging dat ook erg traag.” Samen met het aantal telefonische oproepen nam bij Schwab vanaf 1996 ook de klanttevredenheid toe. Schwab was ook om deze reden erg tevreden: de installatiekosten waren binnen een jaar terugverdiend.

Belcentrum
De ooit veelbelovende revolutie die de spraakindustrie teweeg zou brengen, lijkt zich in alle stilte te voltrekken. Het grote publiek heeft geen weet van systemen zoals VoiceBroker. Het bedrijfsleven begint zich intussen aarzelend te realiseren dat er geld te verdienen valt met spraaktechnologie. Schwab is niet het enige bedrijf dat na minder dan een jaar tijd ruim uit de kosten kwam met zijn installatie. Diverse praktijkvoorbeelden tonen aan dat het optuigen van een callcenter met spraakherkenning weliswaar duur is, maar dat de kosten binnen minimaal 6 tot maximaal 24 maanden terugverdiend worden. Niet dat het altijd even goed werkt. Het trucje is vooralsnog verre van perfect. Maar dat zijn menselijke receptionisten ook niet, als je ze op een krappe arbeidsmarkt al kunt vinden.
In het voor de spraaksector prehistorische jaar 1993 nam de Amerikaanse telecomgigant AT&T de beslissing om zijn belcentra met spraakherkenning uit te rusten. Die beslissing viel makkelijk. Nieuw personeel vinden voor het belcentrum was begrotelijk en lastig. Bovendien gaf het bedrijf sinds jaar en dag onderdak aan een van de oudste laboratoria voor spraakherkenning. De klanten werden min of meer gedwongen om spraakherkenning te gebruiken. Voortaan moesten ze aan het begin van elk gesprek met de stem aangeven op welke manier ze wilden betalen. Ook voor AT&T kwam het tenslotte toch nog als een verrassing toen bleek dat het bedrijf zich op jaarbasis maar liefst 300 miljoen dollar aan mensen en middelen bespaarde. Sinds 1993 is dat bij elkaar opgeteld toch bijna 5 miljard gulden.
De leek die dacht dat spraakherkenning in hoofdzaak bedoeld was om toetsenbord en muis te vervangen, heeft het verkeerd. “Eigenlijk is de spraakindustrie nooit vast te pinnen geweest op spraakherkenning voor de pc,” zegt William Meisel. Meisel is de nestor van de spraakanalisten. Hij draait al ruim twintig jaar mee in de industrie. De voormalige hoogleraar en bedrijfsleider geeft zijn eigen maandelijkse nieuwsbrief uit over spraaktechnologie en organiseert een jaarlijks terugkerende conferentie over het onderwerp. Meisel is formeel: “De telefoniemarkt is de belangrijkste groeipool voor spraak- en taaltechnologische producten en diensten.”

Houthandel
Ook het gespecialiseerde Amerikaanse onderzoeksbureau Voice Information Associates (VIA) deelt die mening. Het stelt dat er vorig jaar in de telefoniemarkt 500 miljoen dollar aan omzetten werden geboekt door bedrijven uit de spraaksector. In 2003 zouden die omzetten met een jaarlijkse groei van circa 30 procent doorstoten naar een omvang van bijna 1,2 miljard dollar. Dat is slechts een fractie van wat er met spraaktechnologie te verdienen valt.
Ook buiten de markt voor telefonie kan spraaktechnologie op diverse terreinen snel aan belang winnen. De automobielsector rust steeds meer wagens standaard uit met een autonavigatiesysteem. Chauffeurs worden om evidente redenen van veiligheid verondersteld de handen op het stuur en de ogen op het wegdek te houden. Spraaktechnologie is de enige oplossing die een veilig autogebruik garandeert. De chauffeur vraagt aan het systeem welke weg hij moet nemen en de boordcomputer leest de reisroute vervolgens voor. In België werd het gebruik van de gsm in de auto door chauffeurs vorig jaar al verboden. De kans is vrij groot dat steeds meer landen hun wetgeving of verkeersreglement zullen aanpassen zodat gevaarlijk bellende chauffeurs tot het verleden gaan behoren omdat ze strafrechtelijk vervolgd worden. De oplossing voor dat probleem heet overigens voice dialing. Verschillende producenten hebben hun mobiele telefoons daarmee uitgerust. Het volstaat in het toestel te toeteren wie er gebeld moet worden en het nummer wordt door het toestel zelf gedraaid.
Ook in de logistiek blijkt spraakherkenning een belangrijk hulpmiddel te zijn. Kou en regen vormden van oudsher de grootste obstakels bij de verwerking van de logistieke gegevens bij de firma G. Wijma & Zonen, internationale houthandel met hoofdzetel te Kampen. Wijma is gespecialiseerd in azobé, een duurzame houtsoort afkomstig uit de bossen van Kameroen. Een aantal zogenaamde 'vermeters' van het harde rondhout werkt buiten in weer en wind. Zij nemen de maten en controleren de kwaliteit van het hout. Vroeger gebeurde dat met pen en papier. Sinds 1996 gebruiken de vermeters een Talkman van de Amsterdamse firma Vocognition. De Talkman is een computer die aan de broekriem wordt gedragen. De vermeters spreken hun instructies in via een 'headset' die aan de minicomputer verbonden is. Het resultaat? De vermeters werken veiliger, sneller en ze maken minder fouten.
Spraaktechnologie met praktisch nut dus, ver voorbij de hype. Veiligheid, productiviteitsverhoging en efficiëntieverbetering lijken de voornaamste redenen waarom spraaktechnologie in toenemende mate door het bedrijfsleven omarmd wordt. Maar ook worden er nieuwe diensten mee ontwikkeld, zoals bijvoorbeeld de virtuele nieuwslezeres Ananova. Ananova werd vorig jaar geïntroduceerd en leest nieuws voor op internet. Ze doet dat op afroep van de consument. Die kan dat nieuws naar keuze beluisteren of bekijken op zijn wap-telefoon, via internet of met zijn Palm Pilot.

Spice girl
Ananova lijkt op een veredelde Spice Girl, maar is van top tot teen onecht. In het Guinness Book of Records staat zij genoteerd als het allereerste virtuele nieuwsanker. Haar geanimeerde gezicht is bedacht door tekenaars en het geluid dat zij voortbrengt wordt gegenereerd door een gesynthetiseerde computer die ook haar lipbewegingen aanstuurt. Spraaksynthese laat de computer een bijna menselijk klinkend, moeilijk van echt te onderscheiden geluid produceren. Dergelijke software kan ook gebruikt worden om cartoonstemmetjes te produceren. Makers van kinderspeelgoed gebruiken de technologie om poppen te laten praten.
Het volledige gamma toepassingen dat met spraak bedacht kan worden, is schier eindeloos. Lattoflex, een Belgische producent van lattenbodems, heeft een gemotoriseerd bed ontworpen dat is uitgerust met spraakherkenning. De gebruiker kan door middel van zijn stem aangeven of het voeteneind, het middenstuk of het hoofdeinde van het bed omhoog dan wel omlaag moeten. Kostprijs: circa 15.000 gulden. Lattoflex hoopt het bed te verkopen aan ziekenhuizen en bejaardeninstellingen. Het is nog maar de vraag of ze dat ook zal lukken. Het bed is niet handiger in het gebruik dan datzelfde bed zonder spraakherkenning. Dat bed beschikt over een afstandsbediening met zes simpele knoppen: twee voor het voeteneinde, het middenstuk en het hoofdeinde. Spraakherkenning maakt het bedieningsgemak van het bed niet groter. Het voordeel is met andere woorden verwaarloosbaar, terwijl dat van de meerkosten niet gezegd kan worden.
Ook op de markt is een gsm in de vorm van een polshorloge. Door de voortschrijdende miniaturisatie is het mogelijk om de volledige functionaliteit van een mobiele telefoon te verpakken in de vorm van een klein polshorloge. Op dat polshorloge is echter onvoldoende plaats voor een deugdelijk toetsenbord. De oplossing is dat de consument zijn telefoonhorloge gebruikt door er tegen te praten. Hier is het gebruik van spraakherkenning, anders dan in het geval van het spraakgestuurde bed, de basisvoorwaarde voor het gebruik van het horloge. Maar ook hier blijft het de vraag of de consument ervoor overstag gaat. Het zal de ontwikkelaars intussen niet deren. Met de voorbeelden van Schwab en AT&T op zak, struinen ze de wereld af op zoek naar nieuwe afnemers.

Geen ‘out-of-the-box-experience

De geluiden die wij produceren wanneer we spreken, veroorzaken behoorlijk wat ongemak en tumult onder de luchtmoleculen die ons omringen. En dan hoeft er nog geen glas uiteen te spatten. De bandbreedte van een beetje geluid heeft een frequentie tussen 85 en 8000 Hertz. Het menselijk oor kan frequenties aan tussen de 1000 en 6000 Hertz. Uit een vergelijkbare klankenbrij moet de computer tekst opmaken. Rekening houdend met de enorme complexiteit van taal noemt William Meisel de spraakherkenningspakketten voor de pc 'kleine mirakeltjes'. Dat neemt niet weg dat het gros van de gebruikers na verloop van tijd afhaakt. De verklaring is dat spraakherkenning geen 'out-of-the-box-experience' is. Het volstaat niet om de cd-rom bij de computerboer om de hoek op te halen. Programma en gebruiker moeten eerst door een gewenningsfase heen. Het gaat om een wederzijds leerproces: de computer moet de stem van zijn gebruiker leren kennen. Op zijn beurt moet de gebruiker leren praten op een manier die zijn computer begrijpt. Van begrijpen is eigenlijk geen sprake. In het allerbeste geval distilleert de computer uit de geluidenbrij slechts de meest waarschijnlijke transcriptie van wat hij gehoord heeft. De computer doet dat op basis van statistische taalmodellen. Over kennis van de wereld beschikt de computer, anders dan zijn gebruiker, niet. Die kennis is nochtans bepalend voor de manier waarop mensen auditieve informatie verwerken. Consumenten met een laag verwachtingspatroon komen een heel eind met de producten. De meesten evenwel haken na verloop van enkele dagen of weken af. De 'drop-out-rate' bedraagt naar verluidt meer dan 50 procent.
Mensen met een muisarm hebben overigens wél baat bij spraakherkenning. De muisarm is het gevolg van overbelasting die niet voorkomen of genezen wordt met ergonomisch verantwoord meubilair in de kantoortuin. Overbelasting op een ergonomisch verantwoorde werkplek blijft overbelasting. Als spraakherkenning gebruikt wordt, kunnen arm en pols rusten terwijl de stem de pc dicteert en commandeert. Dat sluit niet uit dat ook de stem overbelast kan raken. Dragon Systems, in maart van vorig jaar overgenomen door Lernout & Hauspie, is ooit strafrechterlijk vervolgd door gebruikers die knobbeltjes hadden gekregen op de stembanden door al te intensief gebruik van… juist, ja… spraakherkenningsoftware.


Paul Celen

Op een van de conferenties die de spraakindustrie jaarlijks organiseert, nam de blozende, zweterige Belg Paul Celen, destijds de nummer twee bij Philips Speech Processing (PSP), deel aan een panelgesprek. Daaraan nam verder een aantal vertegenwoordigers uit de industrie deel. Celen, niet gehinderd door een overschot aan fijngevoeligheid, verkondigde met luide stem dat 90 procent van zijn collegae op het podium binnen enkele jaren van het strijdtoneel zou verdwijnen. De nieuwbakken ondervoorzitter van PSP werd op een luid boegeroep onthaald. Wist Celen veel dat de spraakindustrie in oorsprong bestaat uit een clubje bevlogen insiders. De roergangers zijn wetenschappers die in de loop van de jaren tachtig hun laboratoria verlieten om kleine spraakbedrijfjes op te richten. De oude vrienden werden zo concurrenten. Meisel behoort tot die groep. Hij richtte destijds Speech Systems op, inmiddels overgenomen door SyVox. Meisel geeft toe dat hij, eenmaal gebeten door de spraakmicrobe, zoals zoveel anderen, de fascinatie voor de wondere wereld van de spraaktechnologie niet meer los kon laten. Meisel is een pionier. Leden van de spraakindustrie menen dat al wie langer dan tien jaar in de industrie zit zichzelf een pionier mag noemen. Dat Celen werd uitgejouwd door zijn collegae kwam dan ook niet als een verrassing. Concurrenten of niet, de ware pioniers van de spraakindustrie bejegenen elkaar met groot respect. Een nitwit van het kaliber Celen werd binnen het milieu niet aanvaard. Er heeft dan ook niemand een traan gelaten toen Celen enkele jaren later zelf met stille trom werd afgevoerd bij Philips Speech Processing. De door Celen voorspelde genocide onder de spraakbedrijfjes heeft zich intussen nog steeds niet voltrokken.


Lernout & Hauspie

De belangstelling voor spraaktechnologie is in Nederland en België ongekend groot in vergelijking met de ons omringende landen. Die aandacht is goed verklaarbaar uit de aanwezigheid van twee prominente spelers uit de spraakmarkt: in ons land is dat Philips, dat met de divisie Philips Speech Processing (PSP) sinds meer dan dertig jaar over een bloeiend onderzoekscentrum beschikt. Aan de andere kant van de grens bevindt zich het Belgische Lernout & Hauspie Speech Products (L&H), vooralsnog de absolute marktleider. In de zomer van vorig jaar opende de gezaghebbende Amerikaanse zakenkrant Wall Street Journal een ongemeen harde aanval op de Ieperse klankentappers. De Koreaanse omzetten van het bedrijf zouden grotendeels verzonnen zijn. En in Singapore zou het bedrijf actief zijn geweest met spookfirma's. Het aandeel-L&H kelderde toen het bedrijf niet in staat bleek om een adequaat antwoord te verschaffen op de aantijgingen en ten slotte werd de beursnotering zelfs geschrapt van de Amerikaanse en Europese beurzen. Roel Pieper gaf heel even acte de présence in Ieper als bestuursvoorzitter in de ijdele hoop het tij te keren. Begin dit jaar gooide Pieper de handdoek in de ring. Hij verklaarde dat hij het redden van L&H altijd al een waardeloze klus had gevonden. Bovendien werd zijn reputatie er niet beter van. Pieper was snel weg uit Ieper. Hij deed dat nadat er een nieuwe ceo was aangesteld. De Waalse senator Philippe Bodson is de nieuwe rots in de branding. Hij brengt een sterke internationale reputatie met zich mee. Daar staat tegenover dat de problemen waar hij voor staat afzichtelijk groot zijn. De kansen dat het bedrijf zich herstelt, lijken sinds zijn aantreden wel toegenomen. Volgens vriend en vijand beschikt L&H over bijzonder waardevolle technologie. Als geen ander bedrijf in de sector kan het beschouwd worden als een 'one-stop-shopping place'. L&H produceert alle verschillende types spraak- en taaltechnologie, voor vrijwel alle denkbare soorten processoren en dat in meerdere talen. De concurrentie bestaat uit enkele honderden nichespelers die geen volledig technologisch aanbod verkopen. De verdenking van fraude mag dan zwaar wegen op de reputatie van het bedrijf, het simpele feit dat de internationaal gereputeerde Bodson zich warm maakt voor de zaak, zou wel eens kunnen betekenen dat L&H niet langer aan het begin van het einde staat, doch veeleer aan de vooravond van een nieuw begin.


Dagelijks de nieuwsbrief van Management & Leiderschap ontvangen?Door je in te schrijven ga je akkoord met de algemene en privacyvoorwaarden.

Science Fiction

2001, a space odyssey van cultregisseur Stanley Kubrick, op basis van een scenario van Arthur C. Clarke, was het eerste massaspektakel waarin, lang voordat de allereerste commerciële toepassingen van spraakherkenning naar de markt werden gebracht, het gebruik ervan omstandig werd gedemonstreerd. Het hoofdpersonage van de film is de computer HAL. De computer dankte zijn naam aan computergigant IBM: het letterwoord HAL werd door de makers afgeleid van IBM door telkens één letter lager te nemen in het alfabet. HAL was niet alleen met spraakherkenning uitgerust. Hij beschikte, tot ergernis van de astronauten die hem bedienden, ook over een eigengereid karakter op basis van artificiële intelligentie. Maar er was meer aan de hand. Toen de astronauten de balorige HAL om strategische redenen wilden uitschakelen, lukte dat niet. HAL voorzag wat zij met hem van plan waren. Toch hadden de astronauten hun euthanasieplannen in het bijzijn van HAL niet luidop uitgesproken. Hij had hen eens kunnen horen. Nee, ze hadden hun plannen fluisterend met elkaar besproken. Dat kon HAL toch onmogelijk gehoord hebben? Inderdaad niet, maar HAL kon wel liplezen en ving op die manier toch op wat de astronauten met hem van plan waren.

Veel commentatoren wijzen er intussen op dat de voorspellende waarde van de film gering is. De computers in de film waren gigantisch van formaat, terwijl we vandaag weten dat een computerchip op een bankpas past. Toch is een groot aantal van de voorspellingen van Arthur C. Clarke verdraaid correct. Clarke had zijn scenario dan ook gebaseerd op de wetenschappelijke kennis van zijn tijd. Spraakherkenning voor de pc is in 2001 overal te koop voor enkele tientjes. Ook de liplezende computer is niet langer sciencefiction. Aan de Carnegie Mellon University in Pittsburgh is enkele jaren geleden al een camera uitgevonden die kan liplezen en zo, in combinatie met de spraakherkenner, in staat is om de accuratesse van de spraakherkenning te verhogen. Die camera kan aangeven wat de gebruiker gezegd heeft als de spraakherkenner het niet goed gehoord heeft, want hij heeft het gezien.