Deuxièmes Journées Perception Sonore 2012

10 et 11 décembre 2012

CNRS Laboratoire de Mécanique et d'Acoustique

31, Chemin Joseph Aiguier

13009 Marseille

Comparaison de deux modèles de prédiction de la qualité vocale en contexte super-large bande.

Nicolas COTE¹, Sebastian MÖLLER², Timothée MANNOURY³

Institut d’Electronique de Microélectronique et de Nanotechnologie, CNRS UMR 8520, département ISEN, Lille, France,

Quality and Usability Lab, Telekom Innovation Laboratories, TU Berlin, Germany,

ENSEIRB-Matmeca, Talence, France

En 2011, un modèle d’estimation de la qualité perçue de signaux de parole transmis par réseau téléphonique, le Perceptual Objective Listening Quality Assessment (POLQA, ITU-T Rec. P.863) a été normalisé par l’Union l’Internationale des Télécommunications (UIT). Ce modèle détermine la qualité globale des réseaux téléphoniques bande étroite (300-3400 Hz), large-bande (50-7000 Hz) et super large- bande (50-14000 Hz) en terme de note moyenne d’opinion (nommée habituellement Mean Opinion Score, MOS). Un deuxième type de modèle permet de diagnostiquer la dégradation introduite par un réseau, suivant certaines caractéristiques perceptives considérées comme pertinentes pour évaluer la qualité de la voix. Le résultat d’une estimation correspond donc à cinq valeurs, la qualité globale ainsi qu’une valeur par dimension perceptive : coloration, discontinuité, bruyance et niveau.
Dans cette contribution, nous comparerons le nouveau standard POLQA (ITU- T Rec. P.863, 2011) au modèle diagnostique Diagnostic Instrumental Assessment of Listening quality (DIAL) sur plusieurs bases de données communes afin d’analyser la fiabilité de leurs estimations. Nous nous focaliserons sur certaines conditions où ces modèles montrent des limitations et proposerons des possibilités d’amélioration.