Comparateur d'accents du Corpus de la parole

Sommaire

Origine du projet

Ce projet prend place au sein du projet de Cabinet de curiosités du Corpus de la parole.

Principe

Il existe de très nombreuses langues, chacune ayant ses particularités et ses sonorités. Certains phonèmes des langues de l'Est ne peuvent être prononcés par un Français par exemple. Le but du projet est de comparer et mettre en avant ces accents. Afin de s'adapter au Corpus, il a été adapté avec les différents enregistrements de la Parabole de L'enfant Prodigue enregistré dans le sud de la France.

La Parabole de l'Enfant Prodigue

"Le Fils prodigue est l'une des paraboles les plus connues de Jésus de Nazareth, également appelée parabole du Fils perdu, ou de l’Enfant prodigue ; on lui préfère quelquefois le titre de Père prodigue, Fils retrouvé, ou parabole du Père et des deux fils... Cette parabole est l'image du retour de la brebis égarée, et aussi de la repentance." Source : Wikipedia

De nombreux enregistrements de ce texte ont été effectué dans les années 60. Ces enregistrements "des enquêtes dialectologiques en vue de constituer l'Atlas Linguistique et Ethnographique de la Gascogne dirigé par Jean Séguy. Une traduction de la Parabole de l'Enfant Prodigue a été enregistrée dans chaque point d'enquête." Source : Corpus de la Parole

Nous avons accès au meta donné telle que le lieu, la date et le speaker de chaque enregistrement. Nous avons même accès pour la plupart à une transcription du texte.

Exemple d'enregistrement

D'autres exemples sont disponible sur le site corpusdelaparole.huma-num.fr

Préliminaire

Dispositifs

Deux idées d'appareils/machines me sont venu en tête pour répondre à cette problématique de mise en avant des accents et prononciations.

Dispositif n°1

Le principe est d'avoir une représentation par piste de plusieurs échantillons du corpus. Tout ces enregistrements du même textes sont synchronisé. Par soucis de clarté, il est possible d'écouter un seul échantillon à la fois. En revanche, ils sont tous visionnable en simultané. Il faut imagine ce dispositif comme un très ancien dispositif d'étude des patois français.

Une dizaine de pistes sont alignés perpendiculairement à un sélecteur sur rail. Lorsque le sélecteur se situe devant une piste, l'utilisateur entend cette piste.

Représentation de l'audio

Il est difficile de représenter l'audio. Si nous utilisons une visualisation temps réel, l'utilisateur ne voit pas nécessairement les variations dû à la fréquence de la voix.

Visualisation n°1

Un cordon est tendu d'un bout à l'autre de la piste. Des moteurs perpendiculaire à ce cordon le font osciller de manière à former une sinusoïde parfaite. Lorsqu'un accent est détecté dans l'échantillon sonore, une variation est visible sur la sinusoïde parfaite. Le cordon "monte" ou "descend" plus bas. Cette variation se propage jusqu'au bout de la piste.

Visualisation n°2

Même principe qu'un sismographe, un bras articulé trace une sinusoïde parfaite et marque les accents par un mouvement plus ample. Le support arrive au bout de la piste puis est effacé pour être ré-écrit.

A l'heure actuelle, ces deux visualisations présentent un inconvenient : l'utilisateur ne va pas forcement noter qu'un accent est présent. En effet, il va voir la variation avec un léger décalage (du au temps de réaction de son cerveau et du temps que ses oreilles mettent pour transmettre l'information). Proposition de solution : représenter la totalité de l'échantillon sur la piste et modélisé une tête de lecture. L'utilisateur pourrait savoir à quel instant un accent devra être attentivement écouté.

Dispositif n°2

Il prend la forme d'une carte des différents villages d'où proviennent les échantillons du Corpus. Chaque village présente une entrée jack 6,35 mm. A l'instar des opératrices téléphonique, l'utilisateur branche un jack sur un village afin d'entendre le texte de ce village. Le dispositif se veut être un vieux dispositif éducatif que l'on aurait trouvé dans les écoles du milieu du XXe siècle.

Variation 1

La carte est la face supérieur d'un cube. Les autres faces contiennent chacune un haut-parleur. 4 jacks sont disponible. 1 par haut-parleur. Si l'utilisateur branche le jack A il entendra le son dans le haut-parleur A.

Variation 2

L'utilisateur dispose d'un double jack, il peut donc écouter maximum 2 enregistrements.

Synchronisation

Dans tous les cas, une synchronisation parfaite est nécessaire. l'utilisateur doit pouvoir passer d'enregistrement à l'autre de manière fluide. Cette synchronisation est complexe car les speakers ajoutent/suppriment des mots, parlent plus ou moins vite, etc.

Dispositif Final

Le dispositif final s'inspire du dispositif 1. L'utilisateur se trouve devant une machine composé de n pistes. Devant chaque piste se trouve un interrupteur permettant la lecture de la piste. Chaque piste est représentant par sa forme d'onde.

Général

Schéma du dispositif

Dimension :

Pyramide et VP

La pyramide sera constitué de 4 tasseaux de bois

VP

Caractéristique du VP :

Courte focale (rapport proche de 1)
Longue durée de vie donc LED
Encombrement minimum
prix

Mon choix c'est arrêté sur le Asus B1M

Pyramide

Baguette en bois et attache

4 baguettes attachée à à la caisse. L'attache se fait par un U en métal, visé à la caisse et au tasseau.

Tissus

Les cotés sont recouvert de tissus.

Caisson VP

Les baguettes se recoupent en haut et son fixé par une planche de bois.

Pistes

Les pistes sont représenté par leur forme d'onde. Cette forme est découpé avec la CNC sur du bois.

Export de la forme d'onde

L'export c'est fait via sndfile-waveform sous Ubuntu. Exemple de rendu :

Traitement

Chaque forme d'onde a été traité afin d'être exporté en png pour la cnc

Exemple de traitement :

Synchro

La synchronisation se fait via une base de données de marqueur.

Choix des marqueurs

Avant toute choses, il faut prendre une transcription et décider l'emplacement de chaque marqueur. J'ai décidé de grouper les noms avec leur pronoms. Exemple de fichiers de transcription avec les marqueurs numérotés :

Village : Plaisance du Gers.

Placement des marqueurs

J'ai ensuite, grâce au logiciel Audacity, noté la position de chaque marqueur en milliseconde. Attention a placé le marqueur sur le 0. Exemple :

Bon	Mauvais

Stockage dans la bdd

J'ai ensuite structuré le fichier .txt de la manière suivante :

Le code processing lit le fichier puis stock les marqueurs dans un tableau a deux dimensions : la première colonne correspond au numéro du marqueur et la deuxième la position en milli-secondes.

Code Java Processing :

private void fillMarqueurTab(){
    String[] stuff = loadStrings("data/"+village+"/marqueur.txt");
    int[] tampon = new int[2];
    marqueurTab = new int[stuff.length][2];
    for(int i = 0; i<stuff.length;i++){
       tampon = int(split(stuff[i],' ')); 
       marqueurTab[i][0]= tampon[0];
       marqueurTab[i][1]= tampon[1];
    }
  }

Récupération des différents villages

J'ai crée un fichier bdd.txt qui regroupe les différents villages ainsi que leur id. Ce fichier est lu puis stocké dans un tableau à deux dimensions afin de récupérer les informations de chaque villages automatiquement. Il suffit donc d'ajouter des villages dans dd.txt pour qu'ils soient pris en compte.

Code source

Github

Représentation de la tête de lecture

Représenter l'emplacement de la tête de lecture est une tâche compliqué. Si une seule tête se déplace d'une piste à l'autre, cela inclue de la latence mécanique à chaque changement. La tête de lecture est représenté par un vidéo projecteur (VP). Celui ci placé en haute de la pyramide affiche l'emplacement de la lecture sur la piste en cours ainsi que l'emplacement de tous les marqueur. Afin de ne pas avoir la nécessité d'un vp puissant, il est placé au dessus du dispositif, en haut d'une petite pyramide dont 3/4 faces sont opaques afin de ne pas laisser passer la lumière.

Comment placer le marqueur sur la piste réelle ? Le fichier display.txt contenu dans chaque dossier de chaque ville dans "data", contient les coordonnées et la longueur de la piste.

x@y@w@h =>

x : coordonnée en X du coin en haut à gauche de la piste en pixel
y : coordonnée en y du coin en haut à gauche de la piste en pixel
w : longeur de la piste en pixel
h : hauteur de la piste en pixel

Diffusion sonore

Les hauts parleurs seront placés au bout des pistes, diffusant directement face à l'utilisateur.

Choix des pistes

J'ai d'abord supprimé toute les pistes dont la voix était trop faible comparé au bruit.

J'ai ensuite choisis de ne prendre que les voix masculines : souvent plus posé et moins âgés. Le timbre moins agressif de ces voix d'homme collait plus au dispositif et à son environnement.

Puis j'ai supprimé les pistes ou la reverberation de la pièce était trop importante.

Je me suis retrouvé avec 22 enregistrements. J'ai appliqué les critères suivants :

voix distinctes
qualité de l'enregistrement
mots : en effet certaine personnes disent "fils" drolles ou bien hills. Ces variations de vocabulaire n'ont plus de rapport avec l'accent, et ne sont donc pas nécessaire.

Les 4 extraits choisis :

Lahitère
Marestaing
Rieumes
Romieu

Boutons de sélection des pistes

4 boutons poussoir + 4 rond de bois collé dessus. Les boutons poussoirs sont soudé sur une carte de clavier usb, correspondant aux touche t, j, c, a

Leur durée est de 20 sec.

Transport

Afin de faciliter le transport il est nécessaire que la structure soit de taille raisonnable et pliable.

Les pieds seront escamotable. Les pistes pourront être enlevé et les cotés de la pyramides rabattable.

Etat d'avancement

Reste à faire

acheter et poser le tissu sur la pyramide + tendre tissus sous le vp pour le cacher + couvrir le dessus du dispositif
réinstaller le VP et recaler avec la cale verte si nécessaire + Attacher allié sur le dispositif + faire passer cable alim et vga dans le compartiment prévu à cet effet
peindre les pistes ou laisser tel quel selon histoire du dispositif
recoller boutons si nécessaire
écrire historique en cohérence avec l'ensemble du cabinet
trouver un mini ordinateur pour faire tourner le code processing

Amelioration

actuellement le VP n'affiche que le marqueur, il pourrait afficher des informations liés à la piste ou divers animation
trouver un système de réglage du vp plus précis grâce à une pièce imprimée en 3D, au niveau de l'actuel support, traversé par des tiges filetés.
améliorer les boutons (solidité)