WELCOME TO R:Ed
People using an AI Tool to translate Shona. Photo credit - AI Generated

Shona, l’IA et le déficit de données linguistiques en Afrique

Introduction

L’Afrique compte plus de 2 000 langues, soit environ un tiers des langues vivantes dans le monde, mais seules quelques-unes sont prises en charge par les outils de traduction basés sur l’IA. En conséquence, de nombreux utilisateurs africains d’Internet qui ne parlent pas l’anglais ou d’autres langues dominantes ont du mal à accéder à l’information en ligne. Certaines langues, comme le shona, sont reconnues par les plateformes d’IA, mais restent « à faible ressources » en raison du manque de données écrites pour entraîner les modèles de langage. La plupart des outils d’IA, y compris ChatGPT, se concentrent sur l’anglais et d’autres langues largement documentées, creusant ainsi le fossé numérique, renforçant les inégalités linguistiques et économiques et limitant l’accès aux outils basés sur l’IA à travers le continent.

 

Bref historique de la langue shona

Le shona est la langue la plus parlée au Zimbabwe, langue maternelle d’environ 80 % de la population, et l’une des langues officielles du pays. Historiquement, il se composait d’environ six dialectes mutuellement intelligibles : korekore, zezuru, karanga, manyika, ndau et kalanga. L’intervention coloniale a conduit à l’unification de ces dialectes en une langue standard en 1931. Le linguiste Clement Doke a créé un système d’écriture standardisé basé sur le dialecte zezuru. Le shona est une langue tonale, ce qui signifie que les variations de ton et de hauteur peuvent modifier le sens d’un mot. Cependant, ces caractéristiques tonales ne sont pas représentées à l’écrit, car Doke pensait que les accents sur les lettres seraient source de confusion. Cela rend l’interprétation écrite difficile pour les systèmes d’IA.

 

Le défi de la traduction de l’anglais vers le shona

Étant donné que l’anglais domine les données d’entraînement des IA, il est souvent utilisé comme « langue pivot » pour la traduction. Cela signifie que lors de la traduction entre langues à faible ressources, le texte source peut d’abord être traduit en anglais avant d’être rendu dans la langue cible. Les outils de traduction IA et les traducteurs neuronaux, comme Google Translate, reposent largement sur des concepts occidentaux d’équivalence, plutôt que sur des approches culturelles de la traduction. En shona, le mot pour traduction, kushandura, signifie « changer » ou « modifier », plutôt que recréer exactement le sens, soulignant que l’IA reflète non seulement des données occidentales mais aussi des concepts occidentaux. La traduction basée sur l’équivalence ignore les différences culturelles et l’intraduisibilité linguistique. Le shona possède des règles grammaticales et des spécificités culturelles très différentes de l’anglais. Cela a été particulièrement problématique pendant la pandémie de Covid-19, lorsque les traducteurs ont eu du mal à rendre des termes techniques sans équivalent en shona. Le shona est aussi une langue agglutinante, c’est-à-dire que les mots se forment en reliant des morphèmes (unités de sens) indiquant des informations grammaticales, comme le temps ou le nombre. Cette structure rend le shona plus comparable au mandarin qu’à l’anglais, compliquant davantage la traduction par IA.

 

Conclusion

L’importance des modèles IA multilingues. Les modèles d’IA multilingues élargissent l’accès à la recherche et favorisent la collaboration mondiale. L’augmentation de datasets de haute qualité pour les langues africaines à faible ressources, comme le shona, est essentielle pour développer des systèmes d’IA plus sensibles culturellement. Des organisations comme African Next Voices et Masakhane s’attaquent au déficit de données linguistiques en enregistrant les langues dans divers contextes et en traduisant des travaux académiques dans plusieurs langues africaines. En développant des ensembles de données ouverts et de qualité pour le texte et la parole, l’IA peut être mieux entraînée pour soutenir la diversité linguistique.

Lauren Lisk

VIEW ALL POSTS

Leave a reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *