REPRÉSENTATIONS PARCIMONIEUSES STRUCTURÉES : APPLICATION À L'INDEXATION AUDIO Pierre Leveau - leveau(at)lam.jussieu.fr 1ère année de thèse LAM - ENST Les représentations du signal utilisées dans les tâches d'indexation audio sont en général de simples transformations orthogonales (STFT, MDCT, etc...). Bien que certaines structures apparaissent sur leurs visualisations (transitoires percussifs, partiels visibles sur un spectrogramme), elles ne sont pas extraites dans la majorité des algorithmes d'extraction de paramètres haut-niveau tels que les notes (transciption automatique, détection de tempo), ou dans la séparation de sources. Or de telles structures sont pertinentes d'un point de vue perceptif ou signal (sinusoïdes ou ondelettes), également quand on s'intéresse à la production des sons par les instruments de musique. Notre objectif est donc d'obtenir une représentation orientée objet du signal, montrant ces structures, qui serait intermédiaire entre le signal audio et une représentation plus haut-niveau de type MIDI, par exemple. Une telle représentation aura l'avantage de simplifier le substrat des diverses extractions d'information (automatique ou non), et permettra d'effectuer très facilement des traitements audio de type pitch-shifting de certaines notes dans un flux audio continu, time stretching différencié sur transitoires et parties harmoniques, etc... Pour extraire ces structures intermédiaires, de nombreux algorithmes ont été développés. Nous avons choisi de nous baser sur des méthodes dérivant du Matching Pursuit, procédure itérative permettant de décomposer un signal selon ses composantes significatives, choisies parmi un dictionnaire redondant d'atomes (par exemple ondelettes + sinusoïdes), puis structurées en fonction d'hypothèses spécifiques au signal musical (suivi de partiels, corrélation entre les coefficients d'ondelettes selon les échelles...).