Codage Conjoint Source-Canal des Sources Vidéo

L’objet de cette thèse est de proposer un codage conjoint source-canal de séquences vidéo pour la transmission sur des canaux sans fil. D’après le théorème de séparation de Shannon, l’optimisation d’un système de transmission passe par l’optimisation séparée du codeur source et du codeur canal. Cependant, cette optimisation n’est valable que pour des blocs de données de taille infiniment longue, ce qui se traduit en une complexité élevée des deux codeurs, prohibitive pour des systèmes temps réel. La solution la plus récente dans ce domaine est d’optimiser des combinaisons de blocs de la chaîne de transmission afin de diminuer la complexité sans sacrifier les performances. Le but dans un tel schéma de codage conjoint source-canal est de minimiser la distorsion globale du système. Les travaux dans ce domaine se repartissent essentiellement en deux catégories : l’optimisation du codeur de canal en fonction de la source [61], [62], [44], [12], [88] et l’optimisation du codeur de source en fonction du canal [21], [19], [23], [22]. Dans le premier cas, le code source est généré pour un canal sans bruit. Le codeur de canal est ensuite optimisé en fonction de la source afin de minimiser la distorsion globale du système. Dans le deuxième cas, le code de la source est directement optimisé pour un canal bruité connu, afin de minimiser la distorsion globale du système. Une des caractéristiques cruciales pour la performance du système, surtout lorsque l’on utilise un quantificateur vectoriel, est l’étiquetage binaire, c.a.d. l’assignation d’un mot de code source à un mot de code canal. De façon génerale, il est souhaitable que les mots de code proches en distance euclidienne correspondent à des étiquettes binaires proches en distance de Hamming ; ainsi, si un bit est erroné, la distorsion engendrée reste faible. Le système de codage conjoint source-canal proposé dans cette thèse est fondée sur un quantificateur vectoriel structuré et une assignation linéaire d’étiquette qui minimisent simultanément la distorsion canal et la distorsion source. Le quantificateur vectoriel est construit à partir de constellations provenant de réseaux de points, lesquels satisfont la propriété de diversité maximale et minimisont la distorsion source. La distorsion canal est également minimisée par l’étiquetage linéaire [46].

Avant d’introduire la contribution de cette thèse, nous présentons un résumé de propriétés des constellations de réseaux de points à diversité maximale. L’utilisation de systèmes à diversité maximale est plutôt liée aux canaux à évanouissements pour lesquels le décodeur, s’il dispose de plusieurs répliques du signal émis, est capable de reproduire l’information. Ceci justifie la popularité des diversité en temps, diversité en fréquence ou la diversité d’antennes pour de canaux à évanouissements. Les derniers temps, la diversité de modulation, qui n’est qu’une modulation tournée, devient, également, un outil assez populaire. Elle correspond au nombre minimal de composantes différentes entre toute paire de points d’une constellation.

La théorie algébrique des nombres permet de construire des constellations multidimensionnelles extraites de réseaux de points à diversité maximale. Dans [4], [33], [34], [9], nous trouvons que les réseaux provenant du plongement canonique dans les corps de nombres algébriques réels garantissent à la constellation obtenue une diversité maximale égale à la dimension de la constellation. Si l’on applique le plongement canonique à un idéal particulier de cet anneau, on obtient une version tournée Zn,n du réseau Zn. Plus précisément, dans [4], [34], le corps choisi est le sous-corps réel d’un corps cyclotomique.

Dans cette thèse, nous utilisons deux constructions différentes de Zn,n provenant du plongement canonique d’un idéal d’anneau de sous-ensemble réel dans un corps cyclotomique. La première [4] construit des réseaux Zn tournés où n est de la forme n = (p−1)/2 et p ≥ 5 est un nombre premier. On obtient de cette façon des constellations de taille n = 2, 3, 5, 6, 8, 9, 11, 14, 15, 18, 20, 21, · · · . Si, ensuite, on mélange des constellations produites de cette façon, on obtient de nouvelles constellations de taille n = 10, 16, 22, 24, · · · . La deuxième construction [34] produit des réseaux Zn tournés, où n est une puissance de 2. Cette méthode est plus simple que la première puisqu’elle ne nécessite pas de réduction de base. De plus, elle est plus appropriée pour le traitement vidéo, comme nous le verrons par la suite, où en raison de l’existence de dépendances entre les coefficients d’ondelettes, il est préferable que la dimension des vecteurs de source soit un multiple de quatre. Nous avons comparé ces deux méthodes de constructions de constellations tournées sur un canal Rayleigh, pour différentes dimensions, et avons constaté qu’elles donnaient, quasiment, les mêmes performances.

Afin d’obtenir ces performances, nous avons utilisé comme algorithme de décodage le décodage universel par sphères [92] qui utilise le critère du maximum de vraisemblance. Cet algorithme est applicable aussi bien sur le canal Gaussien additif (AWGN) que sur le canal de Rayleigh. Son idée principale est la suivante : il limite la recherche, parmi tous les points du réseau, du celui qui est le plus proche du vecteur reçu, aux points du réseau qui se trouvent dans une sphère de rayon √C centrée sur le point reçu. Sur un canal de Rayleigh, où l’on suppose que les évanouissements sont indépendants grâce à un entrelaceur, la complexité devient un peu plus élevée, puisque le réseau change à chaque vecteur de coefficients d’évanouissements. De plus, sur un canal Rayleigh, le choix du rayon de décodage devient un facteur important pour la vitesse de l’algorithme. Il est ainsi souhaitable de pouvoir adapter le choix du rayon en fonction des valeurs des coefficients d’évanouissement. Cependant, la complexité de cet algorithme limite son utilisation à des dimensions de réseau inférieures ou égales à 32.

Table des matières

1 Statistical models for wavelet coefficients
1.1 Introduction
1.2 Overview of statistical wavelet models for still images
1.2.1 Interscale Models
1.2.2 Intrascale Models
1.2.3 Composite Models
1.3 Simoncelli’s Joint Statistical Model
1.4 Introduction to the t + 2D scheme of decompositon of a video sequence
1.5 Overview of statistical wavelet models for video
1.5.1 Marginal distribution of the spatio-temporal wavelets coefficients
1.5.2 Extension of models for still images to the video domain
1.6 Conclusion
2 Spatio-temporal modelling of the wavelet coefficients in a t+2D scheme
2.1 Introduction
2.2 Conditional histograms of wavelet coefficients in a t + 2D scheme
2.3 Double Stochastic Model
2.4 Model Estimation
2.4.1 Least squares (LS)
2.4.2 Maximum-likelihood (ML)
2.4.3 A more Efficient Criterion (EC)
2.5 Illustration Examples
2.6 Conclusion
3 Application of the statistical model to error concealment and quality enhancement of video
3.1 Introduction
3.2 Prediction Method
3.3 Model-Based Quality Enhancement of Scalable Video
3.4 Error concealment in the Spatio-temporal wavelet domain
3.5 Error concealment of scalable bitstreams
3.6 Conclusion
4 Overview of Joint Source-Channel coding schemes
4.1 Introduction
4.2 Problem Statement
4.2.1 Vector Quantization
4.2.2 Index assignment (IA)
4.2.3 Channel coding
Reed-Muller codes
Rate-Punctured Convolutional Codes
4.2.4 Channel decoding
Decoding Rate Punctured Convolutional codes with the Viterbi algorithm
4.3 Source-optimized channel coding
4.4 Channel-optimized source coding
4.5 Other combined optimizations
4.6 Conclusion
Conclusion Générale