Comparaison de deux modèles de prédiction de la qualité vocale en contexte super-large bande.
Nicolas COTE1, Sebastian MÖLLER2, Timothée MANNOURY3
Institut d’Electronique de Microélectronique et de Nanotechnologie, CNRS UMR 8520, département ISEN, Lille, France,
Quality and Usability Lab, Telekom Innovation Laboratories, TU Berlin, Germany,
ENSEIRB-Matmeca, Talence, France
En 2011, un modèle d’estimation de la qualité perçue de signaux de parole transmis par réseau téléphonique, le Perceptual Objective Listening Quality Assessment (POLQA, ITU-T Rec. P.863) a été normalisé par l’Union l’Internationale des Télécommunications (UIT).
Ce modèle détermine la qualité globale des réseaux téléphoniques bande étroite (300-3400 Hz), large-bande (50-7000 Hz) et super large- bande (50-14000 Hz) en terme de note moyenne d’opinion (nommée habituellement Mean Opinion Score, MOS).
Un deuxième type de modèle permet de diagnostiquer la dégradation introduite par un réseau, suivant certaines caractéristiques perceptives considérées comme pertinentes pour évaluer la qualité de la voix.
Le résultat d’une estimation correspond donc à cinq valeurs, la qualité globale ainsi qu’une valeur par dimension perceptive : coloration, discontinuité, bruyance et niveau.
Dans cette contribution, nous comparerons le nouveau standard POLQA (ITU- T Rec. P.863, 2011) au modèle diagnostique Diagnostic Instrumental Assessment of Listening quality (DIAL) sur plusieurs bases de données communes afin d’analyser la fiabilité de leurs estimations.
Nous nous focaliserons sur certaines conditions où ces modèles montrent des limitations et proposerons des possibilités d’amélioration.