Deuxièmes Journées Perception Sonore 2012

10 et 11 décembre 2012

CNRS Laboratoire de Mécanique et d'Acoustique

31, Chemin Joseph Aiguier

13009 Marseille


Comparaison de deux modèles de prédiction de la qualité vocale en contexte super-large bande.


Nicolas COTE1, Sebastian MÖLLER2, Timothée MANNOURY3

  1. Institut d’Electronique de Microélectronique et de Nanotechnologie, CNRS UMR 8520, département ISEN, Lille, France,
  2. Quality and Usability Lab, Telekom Innovation Laboratories, TU Berlin, Germany,
  3. ENSEIRB-Matmeca, Talence, France

En 2011, un modèle d’estimation de la qualité perçue de signaux de parole transmis par réseau téléphonique, le Perceptual Objective Listening Quality Assessment (POLQA, ITU-T Rec. P.863) a été normalisé par l’Union l’Internationale des Télécommunications (UIT). Ce modèle détermine la qualité globale des réseaux téléphoniques bande étroite (300-3400 Hz), large-bande (50-7000 Hz) et super large- bande (50-14000 Hz) en terme de note moyenne d’opinion (nommée habituellement Mean Opinion Score, MOS). Un deuxième type de modèle permet de diagnostiquer la dégradation introduite par un réseau, suivant certaines caractéristiques perceptives considérées comme pertinentes pour évaluer la qualité de la voix. Le résultat d’une estimation correspond donc à cinq valeurs, la qualité globale ainsi qu’une valeur par dimension perceptive : coloration, discontinuité, bruyance et niveau.
Dans cette contribution, nous comparerons le nouveau standard POLQA (ITU- T Rec. P.863, 2011) au modèle diagnostique Diagnostic Instrumental Assessment of Listening quality (DIAL) sur plusieurs bases de données communes afin d’analyser la fiabilité de leurs estimations. Nous nous focaliserons sur certaines conditions où ces modèles montrent des limitations et proposerons des possibilités d’amélioration.