L’apprendimento automatico migliora le capacità di trascrizione del parlato in arabo

Posted on

Grazie ai progressi nell’elaborazione del parlato e del linguaggio naturale, c’è speranza che un giorno potresti essere in grado di chiedere al tuo assistente virtuale quali sono i migliori ingredienti per l’insalata. Attualmente, è possibile chiedere al proprio gadget di casa di riprodurre musica o di aprirlo tramite comando vocale, che è una funzionalità già presente in molti dispositivi.

Se parli marocchino, algerino, egiziano, sudanese o uno qualsiasi degli altri dialetti della lingua araba, che sono immensamente vari da regione a regione, dove alcuni di essi sono reciprocamente incomprensibili, è una storia diversa. Se la tua lingua madre è l’arabo, il finlandese, il mongolo, il navajo o qualsiasi altra lingua con un alto livello di complessità morfologica, potresti sentirti escluso.

Questi complessi costrutti hanno incuriosito Ahmed Ali per trovare una soluzione. È un ingegnere principale presso il gruppo Arabic Language Technologies presso il Qatar Computing Research Institute (QCRI), una parte dell’Università Hamad Bin Khalifa della Qatar Foundation e fondatore di ArabicSpeech, una “comunità che esiste a beneficio della scienza del linguaggio arabo e delle tecnologie del linguaggio .”

Sede della Fondazione Qatar

Ali è rimasto affascinato dall’idea di parlare con automobili, elettrodomestici e gadget molti anni fa mentre lavorava in IBM. “Possiamo costruire una macchina in grado di comprendere diversi dialetti: un pediatra egiziano per automatizzare una prescrizione, un insegnante siriano per aiutare i bambini a ottenere le parti fondamentali della loro lezione o uno chef marocchino che descrive la migliore ricetta di couscous?” egli dichiara. Tuttavia, gli algoritmi che alimentano quelle macchine non possono vagliare le circa 30 varietà di arabo, figuriamoci dare loro un senso. Oggi, la maggior parte degli strumenti di riconoscimento vocale funziona solo in inglese e in poche altre lingue.

La pandemia di coronavirus ha ulteriormente alimentato una dipendenza già crescente dalle tecnologie vocali, in cui il modo in cui le tecnologie di elaborazione del linguaggio naturale hanno aiutato le persone a rispettare le linee guida per il soggiorno a casa e le misure di distanziamento fisico. Tuttavia, mentre abbiamo utilizzato i comandi vocali per aiutare negli acquisti di e-commerce e gestire le nostre famiglie, il futuro riserva ancora più applicazioni.

Milioni di persone in tutto il mondo utilizzano massicci corsi online aperti (MOOC) per il suo accesso aperto e la partecipazione illimitata. Il riconoscimento vocale è una delle funzionalità principali di MOOC, dove gli studenti possono cercare all’interno di aree specifiche nei contenuti parlati dei corsi e abilitare le traduzioni tramite sottotitoli. La tecnologia vocale consente di digitalizzare le lezioni per visualizzare le parole pronunciate come testo nelle aule universitarie.

Ahmed Ali, Hamad Bin Kahlifa University

Secondo un recente articolo sulla rivista Speech Technology, si prevede che il mercato del riconoscimento vocale e vocale raggiungerà i 26,8 miliardi di dollari entro il 2025, poiché milioni di consumatori e aziende in tutto il mondo si affidano ai robot vocali non solo per interagire con i loro elettrodomestici o auto, ma anche anche per migliorare il servizio clienti, guidare le innovazioni sanitarie e migliorare l’accessibilità e l’inclusività per coloro che hanno problemi di udito, parola o motori.

In un sondaggio del 2019, Capgemini prevede che entro il 2022 più di due consumatori su tre opteranno per gli assistenti vocali piuttosto che per le visite ai negozi o alle filiali bancarie; una quota che potrebbe giustamente aumentare, data la vita e il commercio domiciliari e fisicamente lontani che l’epidemia ha imposto al mondo per più di un anno e mezzo.

Tuttavia, questi dispositivi non riescono a fornire a vaste aree del globo. Per quei 30 tipi di arabo e milioni di persone, questa è un’opportunità sostanzialmente mancata.

Arabo per macchine

I robot vocali di lingua inglese o francese sono tutt’altro che perfetti. Tuttavia, insegnare alle macchine a capire l’arabo è particolarmente complicato per diversi motivi. Queste sono tre sfide comunemente riconosciute:

  1. Mancanza di segni diacritici. I dialetti arabi sono vernacolari, come quelli principalmente parlati. La maggior parte del testo disponibile non è diacritico, il che significa che manca di accenti come l’acuto (´) o il grave (`) che indicano i valori sonori delle lettere. Pertanto, è difficile determinare dove vanno le vocali.
  2. Mancanza di risorse. C’è una carenza di dati etichettati per i diversi dialetti arabi. Collettivamente, mancano di regole ortografiche standardizzate che impongano come scrivere una lingua, comprese le norme o l’ortografia, la sillabazione, le interruzioni di parola e l’enfasi. Queste risorse sono fondamentali per addestrare i modelli informatici e il fatto che ce ne siano troppo poche ha ostacolato lo sviluppo del riconoscimento vocale arabo.
  3. Complessità morfologica. I parlanti arabi si impegnano in molti cambi di codice. Ad esempio, nelle aree colonizzate dai francesi – Nord Africa, Marocco, Algeria e Tunisia – i dialetti includono molte parole francesi prese in prestito. Di conseguenza, c’è un numero elevato di quelle che vengono chiamate parole fuori vocabolario, che le tecnologie di riconoscimento vocale non possono comprendere perché queste parole non sono arabe.

“Ma il campo si sta muovendo alla velocità della luce”, dice Ali. È uno sforzo collaborativo tra molti ricercatori per farlo muovere ancora più velocemente. Il laboratorio di tecnologia della lingua araba di Ali sta guidando il progetto ArabicSpeech per riunire le traduzioni arabe con i dialetti nativi di ciascuna regione. Ad esempio, i dialetti arabi possono essere suddivisi in quattro dialetti regionali: nordafricano, egiziano, del Golfo e levantino. Tuttavia, dato che i dialetti non rispettano i confini, questo può andare a grana fine come un dialetto per città; per esempio, un madrelingua egiziano può distinguere tra il proprio dialetto alessandrino dal suo concittadino di Assuan (una distanza di 1.000 chilometri sulla mappa).

Costruire un futuro tecnologico per tutti

A questo punto, le macchine sono accurate quanto i trascrittori umani, grazie in gran parte ai progressi nelle reti neurali profonde, un sottocampo dell’apprendimento automatico nell’intelligenza artificiale che si basa su algoritmi ispirati a come funziona il cervello umano, biologicamente e funzionalmente. Tuttavia, fino a poco tempo fa, il riconoscimento vocale è stato un po’ violato. La tecnologia ha una storia di affidamento su diversi moduli per la modellazione acustica, la costruzione di lessici di pronuncia e la modellazione del linguaggio; tutti i moduli che devono essere formati separatamente. Più di recente, i ricercatori hanno addestrato modelli che convertono le caratteristiche acustiche direttamente in trascrizioni di testo, ottimizzando potenzialmente tutte le parti per l’attività finale.

Anche con questi progressi, Ali non riesce ancora a dare un comando vocale alla maggior parte dei dispositivi nel suo arabo nativo. “E’ il 2021 e ancora non riesco a parlare con molte macchine nel mio dialetto”, commenta. “Voglio dire, ora ho un dispositivo in grado di capire il mio inglese, ma il riconoscimento automatico del parlato arabo multi-dialetto non è ancora avvenuto.”

Fare in modo che ciò accada è il fulcro del lavoro di Ali, che è culminato nel primo trasformatore per il riconoscimento del parlato arabo e dei suoi dialetti; uno che ha raggiunto prestazioni finora ineguagliate. Soprannominata QCRI Advanced Transcription System, la tecnologia è attualmente utilizzata dalle emittenti Al-Jazeera, DW e BBC per trascrivere contenuti online.

Ci sono alcuni motivi per cui Ali e il suo team hanno avuto successo nella creazione di questi motori vocali in questo momento. In primo luogo, dice: “C’è bisogno di avere risorse in tutti i dialetti. Dobbiamo costruire le risorse per poi essere in grado di addestrare il modello”. I progressi nell’elaborazione del computer significano che l’apprendimento automatico ad alta intensità di calcolo ora avviene su un’unità di elaborazione grafica, in grado di elaborare e visualizzare rapidamente grafici complessi. Come dice Ali, “Abbiamo un’ottima architettura, buoni moduli e abbiamo dati che rappresentano la realtà”.

I ricercatori di QCRI e Kanari AI hanno recentemente costruito modelli in grado di raggiungere la parità umana nelle notizie trasmesse in arabo. Il sistema dimostra l’impatto della sottotitolazione dei report giornalieri di Aljazeera. Mentre il tasso di errore umano inglese (HER) è di circa il 5,6%, la ricerca ha rivelato che l’HER arabo è significativamente più alto e può raggiungere il 10% a causa della complessità morfologica della lingua e della mancanza di regole ortografiche standard nell’arabo dialettale. Grazie ai recenti progressi nel deep learning e nell’architettura end-to-end, il motore di riconoscimento vocale arabo riesce a superare i madrelingua nelle notizie trasmesse.

Mentre il riconoscimento vocale dell’arabo standard moderno sembra funzionare bene, i ricercatori di QCRI e Kanari AI sono impegnati a testare i confini dell’elaborazione dialettale e a raggiungere grandi risultati. Poiché nessuno parla arabo standard moderno a casa, l’attenzione al dialetto è ciò di cui abbiamo bisogno per consentire ai nostri assistenti vocali di capirci.

Questo contenuto è stato scritto da Istituto di ricerca informatica del Qatar, Hamad Bin Khalifa University, membro della Qatar Foundation. Non è stato scritto dalla redazione del MIT Technology Review.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *