• Middle East Eye
  • Reader
  • Siri spreekt geen Arabisch

Siri spreekt geen Arabisch

Middle East Eye | Freya Pratty | 12 november 2019

Computers kunnen niet overweg met de ruim dertig dialecten van het Arabisch, terwijl er toch 300 miljoen mensen zijn die die taal spreken. Met behulp van kunstmatige intelligentie werken computerwetenschappers nu aan het uitbreiden van de zogeheten inclusiviteit van technologie.

Alexa spreekt geen Arabisch. Cortana ook niet. Siri is het gestandaardiseerd Arabisch machtig, maar kan niet overweg met dialecten. Google Translate is bij lange na niet nauwkeurig genoeg.

Let wel: Alexa, Cortana en Siri zijn geen mensen van vlees en bloed. Het zijn computers, begiftigd met kunstmatige intelligentie. Er zijn veel talen die ze behoorlijk onder de knie hebben. Maar als het om de op vier na meest gesproken taal ter wereld gaat, tast de technologie van de eenentwintigste eeuw nog behoorlijk in het duister.

‘Arabisch wordt wereldwijd door ongeveer 300 miljoen mensen gesproken en is de taal van een religie met 1,5 miljard aanhangers,’ zegt Mustafa Jarrar, een computerwetenschapper aan de Palestijnse Universiteit van Bir Zeit, bij Ramallah, op de Westelijke Jordaanoever. ‘Maar het is een van de minst gebruikte talen in de technologie.’

Inclusiviteit

Daarin willen Jarrar en andere computerwetenschappers uit het Midden-Oosten verandering brengen. Ze zijn bezig de zogeheten inclusiviteit van ‘tech’ uit te breiden door ervoor te zorgen dat kunstmatige intelligentie (artificial intelligence, oftewel AI) ook raad weet met andere vormen van Arabisch dan alleen de standaardversie. Natural Language Processing (NLP): zo heet het onderdeel van AI waarbij computers menselijke taal verwerken en interpreteren.

Wanneer we Alexa, de spraakgestuurde virtuele assistent van Amazon, vragen een liedje ten gehore te brengen, gebruikt ze NLP-technieken om ons spraakcommando te verwerken. Maar het hoeft niemand te verbazen dat de manier waarop computers talenkennis opbouwen anders is dan die van mensen. ‘Computers leren talen door middel van statistieken,’ legt Jarrar uit. ‘Om van de ene taal naar een andere te vertalen, verzamelt de computer miljoenen en soms zelfs miljarden zinnen met dezelfde betekenis in de twee talen, en kiest hij de vertaling die het meest voorkomt.’

Data

Onderzoekers geven woorden ook bepaalde kenmerken mee, zoals de plaats in een zin, of de functie van voor- of achtervoegsel, waardoor er een verzameling gegevens ontstaat waarop de computer zijn statistieken kan baseren. Hoe meer gegevens er worden verzameld, des te groter de nauwkeurigheid. Data zijn dus van het allergrootste belang als het erom gaat een computer een taal te leren. Maar bij Arabische dialecten, zegt Jarrar, is het moeilijk om voldoende gegevens te verzamelen.

‘Vóór de opkomst van sociale media bestond er eigenlijk geen geschreven Arabisch dialect,’ zegt Jarrar, die gespecialiseerd is in de Palestijnse variant van de taal. ‘Een dialect was simpelweg hoe je met je familie en vrienden sprak. Dit betekent dat Arabieren op sociale media schrijven hoe ze spreken, fonetisch dus.’

Arabisch dialect verscheen pas later online dan talen als het Engels, Frans en Spaans, die het Latijnse schrift gebruiken. Dit betekent dat wetenschappers als Jarrar over minder gegevens beschikken waarmee ze AI-computers kunnen trainen dan collega’s die met andere talen werken.

‘Inmiddels zijn computers in staat het Palestijnse dialect te begrijpen,’ zegt Jarrar, die net niet de primeur heeft een computer een Arabisch dialect te leren: al eerder had het Amerikaanse leger een computer het Egyptisch bijgebracht.

Een gebrek aan data is niet de enige reden dat het zo moeilijk is om computers Arabisch te leren: de taal heeft ook eigenschappen die zorgen voor extra ambiguïteit. ‘Het Arabisch gebruikt geen hoofdletters,’ zegt Ali Farghaly, een NLP-onderzoeker uit Egypte. ‘En dat is lastig, want daarmee geef je eigennamen aan. Arabische letters veranderen ook van vorm als ze ergens anders in het woord staan.’

Bovendien kunnen er in het Arabisch langere woorden worden gemaakt door kleinere taalelementen aan elkaar te rijgen. Een Arabisch woord als wafi betekent ‘trouw’, maar als je het opsplitst in twee woorden, krijg je wa (‘en’) en fi (‘in’). Doordat deze woorden op meer dan één manier kunnen worden gedeconstrueerd, is het in NLP heel moeilijk om dubbelzinnigheden te vermijden.

Dergelijke problemen doen zich vooral voor bij machine learning. Wetenschappers proberen ze al sinds begin jaren tachtig op te lossen.

Het onderzoek kwam in een stroomversnelling door een dramatische historische gebeurtenis. ‘Na 9/11 heeft de Amerikaanse overheid universiteiten, onderzoekscentra en particuliere bedrijven royaal geld gegeven om aan Arabisch NLP te werken,’ zegt Farghaly. ‘Sindsdien hebben Amerikaanse wetenschappers geavanceerde technologie ingezet om Arabische machinevertaalsystemen te ontwikkelen. Dat had ook een positief effect op NLP-werk in de Arabische wereld.’

Commerciële projecten

Toch zijn er nog steeds relatief weinig middelen beschikbaar om computers Arabisch bij te brengen – met name de verschillende dialecten. Grote bedrijven als Amazon, Google en IBM blijven liever geld steken in talen die gebruikmaken van het Latijnse schrift.

Abdallah Faza, een techondernemer uit Jordanië, zegt dat dit gebrek aan investeringen vooral is te wijten aan het feit dat het voor ondernemingen interessanter is producten te ontwikkelen in talen die vaker worden gebruikt, zoals het Mandarijn, of die belangrijker zijn voor de handel, zoals het Spaans. Faza creëerde Arabot, een van de eerste chatbots in het Arabisch. Met het programma kunnen klanten online vragen stellen over producten, die vervolgens door een computer worden beantwoord.

En er zijn meer commercieel aantrekkelijke projecten in aantocht. Eerder dit jaar kondigde de staatsomroep van de Verenigde Arabische Emiraten aan dat ze de eerste Arabisch sprekende AI-nieuwslezer ter wereld gingen ontwikkelen. Mawdoo3, een Jordaans bedrijf, liet vorig jaar weten dat het bezig was met een virtuele assistent zoals Alexa of Siri. Het is de bedoeling dat ‘Salma’ alle Arabische dialecten onder de knie krijgt.

Vóór sociale media bestond er geen geschreven Arabisch dialect

De initiatieven beperken zich niet tot de commerciële sector. Zo werkt een team van onderzoekers van de Amerikaanse Universiteit van Beiroet aan het verbeteren van de Arabische NLP, zodat die kan worden gebruikt om informatie op sociale media te analyseren en zodoende belangrijke maar niet onopgemerkt gebleven informatie op te halen. ‘De analyseapparatuur die we ontwikkelen, kan worden gebruikt om berichten over mensen, plaatsen, geweld, klachten en andere gebeurtenissen op social media op te sporen. Zo kunnen we het door mainstreammedia weergegeven beeld aanvullen,’ aldus Fadi Zaraket, die het team leidt.

Internationale organisaties hebben de mogelijkheden inmiddels ook onderkend. Martin Wählisch, politiek adviseur bij het Department of Political and Peacebuilding Affairs van de Verenigde Naties: ‘Een van onze teams werkt aan de ontwikkeling van een systeem dat computers die Arabische dialecten beheersen gebruikt om zogeheten massafocusgroepen te sturen. Het systeem stelt duizenden mensen in een conflictgebied vragen en schift vervolgens gelijkluidende antwoorden. Op die manier hopen we de zorgen en behoeften van mensen beter te kunnen begrijpen, wat ons weer zal helpen bij het verduurzamen van vredesprocessen.’

 

Cybertoekomst

Jarrar is optimistisch over de cybertoekomst van het Arabisch en trots op de geboekte vooruitgang. ‘NLP voor Arabisch is veel beter dan vijf of tien jaar geleden,’ zegt hij. ‘Na de verwerking van de dialecten wacht de uitdaging om te werken met computers die de taal écht begrijpen, in plaats van vertalingen te maken op basis van statistieken. Als je een computer vertelt dat je op vakantie gaat, kan hij dat vertalen, maar als je hem vervolgens vraagt: “Waar ga ik naartoe op vakantie?”, weet hij het antwoord niet. Hij kan de inhoud verwerken, maar de betekenis van de woorden niet echt begrijpen. Dat is dus onze volgende opdracht.’

Auteur: Freya Pratty

Middle East Eye
VK | middleeasteye.net

Onafhankelijke Engels/Franse nieuwssite onder leiding van David Hearst, voormalig correspondent van The Guardian. Beschikt over een groot netwerk van correspondenten en verslaat politiek, economisch en maatschappelijk nieuws uit 24 landen in het Midden-Oosten.

Dit artikel van Freya Pratty verscheen eerder in Middle East Eye.
Recent verschenen
Een remedie tegen navelstaren?
Schrijf je in voor onze nieuwsbrief.
Onze nieuwsbrief wordt wekelijks verzonden.
inschrijven

Schrijf je in voor onze nieuwsbrief!

En ontvang wekelijks het beste uit de internationale pers in uw mailbox.