Le principe de la numérisation d'une image vidéo est assez simple. La première étape consiste à sous diviser chaque image vidéo selon une résolution donnée(normalement 720 x 486 pixels pour une image vidéo normale) et a associer une valeur numérique à chacun des éléments qui forment la couleur de ce pixel(YUV ou RGB) en utilisant une table de conversion de couleurs(normalement 24 bits par pixels pour 16 millions de couleurs possibles en chaque point).
Ce procédé de conversion doit se faire très rapidement étant donné qu'une image vidéo traditionnelle contient plusieurs milliers de pixels et que la vidéo analogique NTSC défile à près de 30 images par seconde(25 images de 720 x 576 pixels par seconde en PAL)! Heureusement, il existe actuellement sur le marché plusieurs puces permettant d'accomplir cette tâche en temps réel.
Si un signal vidéo de 720x486 pixels de résolution est numérisé en utilisant la norme YUV 4:2:2, le fichier résultant sera de 1025,16 Ko par image ou 30,03 Mo/sec. C'est ce qu'on appelle le format non compressé de ratio 1:1. Ces valeurs sont calculées de la façon suivante:
Note: Ces calculs sont valides pour le format NTSC. Pour le PAL, les calculs donneront environ 25,03 Mo/sec. en se basant sur la résolution 720 x 576 pixels à 25 images/sec.
La capacité de stockage:
Le problème est donc de diminuer au maximum le nombre de bits ou d'octets utilisés pour représenter une image et, par là, de réduire le débit binaire nécessaire pour la transmettre. La première solution est de diminuer le nombre d'images par secondes, sauf qu'en dessous de 15 à 18 images par secondes notre oeil commencera à capter une saccade plutôt désagréable.
La deuxième possibilité est de réduire le nombre de points de l'image par 2 ou par 4 sauf que la qualité visuellede l'image résultante sera passablement réduite, voire même inacceptable. La troisième possibilité est de coder moins d'informations de couleur, sur 2 octets(16 bits) par pixel en 64 000 couleurs, par exemple, ou encore sur un seul octet par pixel en palette de 256 couleurs. Pour les applications multimédia, cette solution est acceptable et d'ailleurs très recommandée pour les présentations multimédia, mais pas pour le montage vidéo, même amateur.
Toutes ces méthodes auront bel et bien pour effet de réduire le débit des données, mais la dégradation de l'image sera si importante que même un amateur la rejetterait. La seule vraie solution au problème de débit est apportée par la compression, aussi appelée Bit Rate Reduction(Réduction du débit binaire). Plusieurs méthodes ont été mises au point avec plus ou moins de succès.
Tout d'abord, il est important de savoir que les techniques de compression du flux de données numériques sont principalement basées sur une constatation : une image contient énormément d'informations redondantes, redondance dont on peut distinguer deux types:
La redondance spatiale:
La redondance temporelle:
La compression va donc consister à déterminer ces redondances et à les éliminer. La contrainte liée à la qualité de l'image nous oblige à être capables de reproduire l'image originale intacte ou, tout au moins, une image très proche de celle-ci. Cette définition nous amène à envisager deux types de techniques pour la compression.
Il existe différentes techniques permettant d'obtenir des facteurs de compression nettement plus élevés qu'avec les techniques réversibles. Mais, avec de telles méthodes, l'image reconstruite après décompression, bien qu'elle reste proche de l'image originale, n'est plus identique. On parlera alors de méthodes de compression irréversibles.
Cependant, même si elles induisent des pertes d'informations dans les images, en choisissant judicieusement le type d'informations qui seront perdues ou dégradées, il est néanmoins possible de reconstruire des images d'une qualité telle que l'oeil humain ne pourra les distinguer des images originales. En effet, l'oeil est plus sensible à certaines notions qu'à d'autres. Ainsi, une dégradation des couleurs dans une scène remplie d'objets en mouvement rapide passera inaperçue alors qu'une faible perte de qualité dans une image fixe comportant un dégradé de couleurs sera immédiatement perçue. Ces particularités de l'oeil humain sont exploitées depuis le début de la vidéo.
La vidéo numérique utilise également au maximum les particularités de l'oeil humain lorsqu'il s'agit de compression d'images. Nous obtenons ainsi une compression visuellement sans perte d'informations. De ces constatations sont nées plusieurs classes de méthodes de compression:
Il se base sur la constatation que certaines combinaisons de pixels sont plus fréquentes que d'autres. Dès lors, en recensant toutes les combinaisons possibles d'un nombre donné de pixels, il est possible d'en étudier leur fréquence d'apparition dans une image. On attribue alors à chaque combinaison un code dont la longueur(nombre de bits) est d'autant plus faible que la combinaison apparaît souvent dans l'image. La première application de cette méthode est bien antérieure à la vidéo. Le code morse rejoint la même idée.
Il se base sur la constatation que, dans la plupart des images, les différences entre deux pixels adjacents sont souvent faibles, les transitions franches(par exemple: un rectangle noir sur un fond blanc) étant assez rares. Il est donc envisageable, connaissant la valeur d'un pixel, de prédire la valeur de son voisin.
Elle se base sur la transformation d'une représentation spatiale d'un bloc de pixels, c'est-à-dire position horizontale, verticale ainsi que l'amplitude, en une représentation sous forme mathématique différente. Cette représentation plus compacte de l'image requiert de traiter moins d'informations. En effet, cette nouvelle représentation ne se base plus sur une analyse spatiale(positions horizontale, verticale et amplitude) mais sur une analyse fréquentielle savamment calculée. Cette technique est rendue possible grâce à l'utilisation d'une variante des séries de Fourier. Celles-ci permettent de reconstruire une fonction à partir d'une somme de sinusoïdes multipliées chacune par un certain coefficient dit "de Fourier". La DCT s'apparente à cette méthode. La DCT, en elle-même, ne comprime donc pas l'image. Elle la représente simplement sous une forme qui se prête beaucoup mieux à la compression. Il ne reste alors plus qu'à appliquer un codage intelligent des différents coefficients.
Pour plusieurs personnes, rien ne peut rivaliser avec un original. En fait, la compression "Lossless" est supérieure à du vidéo non-compressé parce que la qualité est identique et qu'en plus on sauve de l'espace disque étant donné que le signal est compressé. Le problème est qu'étant donné qu'il y a très peu de redondance dans une image vidéo, le gain n'est seulement que de 50% en moyenne.
Plusieurs standards de compression ont déjà été développés. Voici une liste non exhaustive des méthodes de compression rencontrées le plus fréquemment ainsi que leurs champs d'application.
Le but du MPEG-1 était de produire des images de qualité équivalente au VHS tout en parvenant à descendre à un débit binaire de l'ordre de 1.2 Mbits/seconde(1.5 Mbits/seconde en incluant le son).
Le MPEG-2 fut conçu pour traiter des séquences d'images entrelacées. Le but était de produire des images de la qualité d'un système vidéo composite avec un débit binaire de l'ordre de 4 à 8 Mbits/seconde ou des images de haute qualité avec un débit de 10 à 15 Mbits/seconde. Les domaines d'application principaux de MPEG-2 sont liés à la distribution de programmes vidéo: diffusion par satellite, télédistribution, Digital Video Disc.
Comme on peut le voir, le MPEG offre un vaste éventail de possibilités, semble flexible et permet d'atteindre une bonne qualité d'image. Dès lors, pourquoi ne pas l'utiliser tout au long d'une chaîne de production vidéo professionnelle? Les raisons sont multiples: MPEG conduit à des systèmes fortement asymétriques; le processus de compression est beaucoup plus complexe que le processus de décompression. Il faut donc une puissance de calcul de loin supérieure pour la compression que pour la décompression. Ceci ne pose pas de problème lorsqu'il s'agit de distribuer des images car, par définition, on compresse à un seul endroit, lors de l'émission, puis l'on diffuse les images qui sont décompressées sur de multiples récepteurs. Dans le cas d'une chaîne de postproduction, il en va tout autrement; il faut pouvoir compresser et décompresser à chaque maillon de la chaîne. De plus, le système MPEG n'a pas été conçu pour faire du montage à l'image près, ce qui est un des pré-requis majeurs pour faire de la postproduction. Des générations successives, entrecoupées de traitements(effets), peuvent induire une perte de qualité qui s'avérera rapidement inacceptable. MPEG n'a pas été conçu pour permettre des opérations telles que le "chroma key".
Parallèlement aux travaux de MPEG, le secteur informatique a développé ses propres solutions pour amener la vidéo sur les écrans des micro-ordinateurs. Les possibilités d'affichage et de traitement permettaient, dès la fin des années quatre-vingt, d'afficher des images (fixes) de haute qualité, et de créer des animations élémentaires.
Quicktime:
Vidéo pour Windows:
Pas plus que Quicktime, Vidéo pour Windows n'est pas un algorithme de compression. Il s'agit plutôt d'une interface standardisée entre le matériel et les procédés de codage et de compression, qui offre des API(interfaces de programmation) relativement indépendantes du matériel. Cependant, comme Apple, Microsoft a également défini des algorithmes de compression adaptés à différentes situations (Microsoft Vidéo 1, Microsoft RLE compressor), et intègre ceux proposés par des sociétés tierces, comme Indeo d'Intel. Plus qu'une technique de compression, Vidéo pour Windows fournit en fait une plate-forme commune sur laquelle pourront s'articuler divers procédés de codage.
La Digital Video Cassette(DVC):
La compression DV ne joue que sur les redondances spatiales à l'intérieur de l'image complète. Elle ne cherche pas à réduire les redondances temporelles comme le fait le MPEG. Elle utilise un facteur de compression de 5:1. Elle permet donc d'obtenir une excellente qualité d'image en première génération, ce qui est l'idéal pour un usage grand public. Une heure de vidéo numérique en format composante(Y, R-Y, B-Y) peut être sauvegardé sur une mini-cassette plus petite qu'une cassette audio DAT. La qualité est considérée comme supérieure au BetacamSP. Une autre cassette DV légèrement plus grosse qu'une cassette 8mm peut contenir jusqu'à 270 minutes d'enregistrement numérique!
La technologie FireWire:
Il est important de faire la distinction entre la technologie FireWire et le DV. Les termes sont souvent interchangeables, mais ont une fonction bien différente. En gros on peut dire que la technologie Firewire est une affaire de plomberie. C'est un standard de transmission. C'est une nouvelle manière de transmettre des informations numériques à travers un câble et une prise spéciaux entre des périphériques et un ordinateur. Le DV, quant à lui, est un nouveau standard d'enregistrement. C'est une nouvelle manière d'écrire un signal vidéo compressé sur la bande magnétique.
La télévision numérique n'est plus dans le domaine du futur, elle est maintenant une réalité dans le monde. Aux États-Unis d'abord, où des satellites offrent depuis quelques années plusieurs dizaines de chaînes de télévision en numérique; en Europe ensuite, où on assiste à une véritable mobilisation depuis les premières semaines de l'année 1996. Ce qui a permis la révolution numérique, ce sont les progrès réalisés dans la compression des données et plus particulièrement les travaux du groupe de normalisation MPEG(Moving Pictures Experts Group) dont furent issues entre autres les normes MPEG-1 et MPEG-2.
Grâce à la technologie du numérique, il est aujourd'hui possible de faire transiter simultanément plusieurs programmes dans un même canal satellite, là où on ne pouvait en loger, en analogique, qu'un seul et unique. Cette possibilité d'acheminer plusieurs chaînes de télévision numériques sur un même répétiteur de satellite permet de diffuser non plus quelques dizaines, mais quelques centaines de programmes sur chaque satellite. Parmi les autres avantages du numérique, on peut également noter: