Le benchmark MEDIA revisité : données, outils et évaluation dans un contexte d'apprentissage profond

Abstract

Nous discutons ici du jeu de données françaises de référence MEDIA, créé en 2005 et distribué par ELRA gratuitement pour la recherche académique depuis 2020. Bien que parmi les plus riches et complexes à traiter, ces données sont rarement utilisées au-delà de la communauté scientifique française. Pour en faciliter l’usage dans un contexte d’apprentissage profond, une recette complète a été intégrée à SpeechBrain, une boite à outils logicielle dédiée au traitement de la parole par des approches neuronales, de plus en plus populaire au niveau international. De plus, des corrections ont été apportées aux annotations manuelles, proposées par différents chercheurs ayant régulièrement travaillé sur ces données. Cette nouvelle version du corpus sera intégrée au catalogue de ELRA. Un nouvel ensemble de données jamais utilisées jusqu’à présent, mais collectées durant la création du corpus original, est également décrit. Enfin, nous abordons des considérations liées à l’évaluation de la tâche MEDIA.

Publication
I34e Journées d’Etudes sur la Parole (JEP2022) 2022