TArC : Incrementally and Semi-Automatically Collecting a Tunisian arabish Corpus - Conférences TALN RECITAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

TArC : Incrementally and Semi-Automatically Collecting a Tunisian arabish Corpus

TArC. Un corpus d'arabish tunisien

Résumé

This article describes the collection process of the first morpho-syntactically annotated Tunisian arabish Corpus (TArC). Arabish is a spontaneous coding of Arabic Dialects (AD) in Latin characters and arithmographs (numbers used as letters). This code-system was developed by Arabic-speaking users of social media in order to facilitate the communication on digital devices. Arabish differs for each Arabic dialect and each arabish code-system is under-resourced. In the last few years, the attention of NLP on AD has considerably increased. TArC will be thus a useful support for different types ofanalyses, as well as for NLP tools training. In this article we will describe preliminary work on the TArC semi-automatic construction process and some of the first analyses on the corpus. In order to provide a complete overview of the challenges faced during the building process, we will present themain Tunisian dialect characteristics and its encoding in Tunisian arabish.
Cet article décrit la procédure de constitution du premier corpus d’arabish tunisien (TArC) annoté avec des informations morpho-syntaxiques. L’arabish est la transcription spontanée des dialectes arabes en caractères latins et arythmographies, c’est à dire avec des chiffres utilisées comme lettres. Ce système d’encodage a été développé par les utilisateurs arabes des réseaux sociaux afin de faciliter l’écriture dans les communications informelles. L’arabish diffère pour chaque dialecte arabe et il est sous-doté en termes de ressources, de la même façon que la plupart des dialectes arabes. Dans les dernières années, l’attention des travaux de recherche en TAL sur les dialectes arabes est augmentée de façon remarquable. En prenant ceci en compte, TArC serait un support utile pour plusieurs types d’analyses, computationnelles ainsi que linguistiques, et pour l’apprentissage d’outils informatiques. Nous décrivons le travail fait pour mettre en place une procédure d’acquisition semi-automatiquedu corpus TArC, ainsi que certaines analyses faites sur les données collectées. Afin de montrer les difficultés rencontrées pendant la procédure de constitution du corpus, nous présentons également les caractéristiques principales du dialecte tunisien, ainsi que sa transcription en arabish.
Fichier principal
Vignette du fichier
133.pdf (298.82 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02784772 , version 1 (07-06-2020)
hal-02784772 , version 2 (18-06-2020)
hal-02784772 , version 3 (23-06-2020)

Identifiants

  • HAL Id : hal-02784772 , version 3

Citer

Elisa Gugliotta, Marco Dinarelli. TArC : Incrementally and Semi-Automatically Collecting a Tunisian arabish Corpus. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles, Jun 2020, Nancy, France. pp.232-240. ⟨hal-02784772v3⟩
221 Consultations
102 Téléchargements

Partager

Gmail Facebook X LinkedIn More