philippe gourgand - etude comparative des technologies d’encodage audio-visuel pour l’internet...
Post on 27-Jul-2015
273 Views
Preview:
TRANSCRIPT
IUT A, Université Claude Bernard, Lyon 1
UbicMedia Europe
[2010]
[Etude comparative des Technologies d’encodage Audio-Visuel pour l’Internet et le Multimedia]
Etude avancée du format de fichier Vidéo numérique AVC/H.264
Philippe Gourgand
Mémoire de Licence Pro Conduite de Projet TIC dans les PME
Tuteur en entreprise : M. Perrin
Enseignant Suiveur : M. Odin
Enseignant Lecteur: Mme. Bureau
Philippe Gourgand – Licence CPTIC - 2010 1
Remerciements
La rédaction de ce mémoire m’a permis de rencontrer des gens nouveaux, qui m’ont apporté beaucoup
d’aide et de soutien dans mes recherches et que je souhaite aujourd’hui remercier.
Tout d’abord, je tiens à remercier Véronique Cohen et l’équipe pédagogique de l’IUT qui m’ont donné envie
d’approfondir les compétences nécessaires pour conduire un projet dans le secteur du multimédia dans une
entreprise, au point de m’amener aujourd’hui à rédiger un mémoire traitant de ce sujet.
Au cours de cette année, une autre personne a fortement influencé mes choix quant à l’orientation de mon
mémoire et à l’intérêt que je porte à tout ce qui touche aux aspects technologiques du secteur du
multimédia. Je souhaite donc ici saluer Alain Rosset PDG d’UbicMedia SAS qui m’a fait confiance en signant
ce contrat d’apprentissage avec moi et qui m’encourage encore après cette année passée ensemble dans
cette direction. Je tiens également à adresser des remerciements sincères à Bertrand Perrin, directeur
technique et maitre d’apprentissage qui m’a apporté une aide précieuse dans la rédaction de ce mémoire.
Je tiens à remercier aussi Lionel Martin qui m’a apporté un regard éclairé (et toutes les documentations
techniques à lire en anglais).
Enfin, je remercie tous ceux qui m’ont apporté leur soutien et leur aide au cours de cette année, ma famille
et plus spécialement mon père, qui a su me soutenir dans mes périodes de doute et sans qui l’achèvement
de ce travail aurait été beaucoup plus difficile, sans oublier ma mère pour son grand sens de l’orthographe...
Mon entreprise
UbicMedia SAS, société fondée en 2006.
Sa principale activité est de développer une solution de protection de contenus vidéo « PUMit » ainsi que de
promouvoir celle-ci. Cette solution requiert de la part de l’ayant droit, de fournir un fichier MPEG-4 (dont
nous parlerons dans l’introduction de ce mémoire), puis une fois le fichier « Pumé » celui-ci devient illisible
et non visionnable pour une personne qui n’aurait pas les droits de visionnage !
Tout en permettant la libre circulation du fichier sur l’Internet, et aux personnes voulant acquérir légalement
les droits de visionnage, de pouvoir faire cette démarche simplement.
Ces fichiers ainsi protégés ne sont accessibles qu’en téléchargement, et non en streaming.
La démarche de ce mémoire, était de promouvoir au sein de l’entreprise, l’adoption d’un nouveau format, le
H.264, dont le sujet de ce mémoire est dédié, dans une optique de fichier téléchargeable et non en
streaming.
Philippe Gourgand – Licence CPTIC - 2010 2
Table des matières
Remerciements.................................................................................................................................................... 1
Introduction : ....................................................................................................................................................... 3
Historique : ...................................................................................................................................................... 4
1 – Description de la Vidéo Numérique et formats de diffusion : ....................................................................... 5
1.1 Notions de Production et Diffusion ........................................................................................................... 5
1.2 Notion de CODEC ....................................................................................................................................... 6
La fonction Codage (Compression): .................................................................................................... 6
La fonction Décodage (Décompression): ............................................................................................ 6
La fonction Transcodage (changement de CODEC) : ........................................................................... 7
1.3 Notions de structure d’un fichier Vidéo .................................................................................................... 9
1.4 Notion de débit de données (Bitrate) ..................................................................................................... 11
2 - Etude Avancée du Format vidéo AVC/H.264 ................................................................................................ 12
2.1 Présentation Technologique ................................................................................................................... 12
2.1.1 Technologie ...................................................................................................................................... 12
2.1.2 Apports et Etude Comparative ......................................................................................................... 21
2.1.3 : Technologies Evolutives de ce format ............................................................................................ 27
3- Solutions Alternatives : Formats Propriétaires et Open-source .................................................................. 33
3.1 – VC-1 (Format Propriétaire) ................................................................................................................... 33
3.2 – X.264 (CODEC Alternatif) ...................................................................................................................... 35
Un Contexte économique et technologique: ................................................................................................ 37
3.3 – Ogg Theora (format open-source) ........................................................................................................ 37
Voici un comparatif visuel du même fichier encodé en H.264 et en Theora ............................................ 38
3.4 – WebM (VP-8) (Format open-source) .................................................................................................... 42
Voici un petit comparatif visuel entre le VP8 et l’AVC/H.264 ................................................................... 43
Conclusion et Prospective: ................................................................................................................................ 44
Annexes : ........................................................................................................................................................... 47
Lexique :......................................................................................................................................................... 47
Bibliographie : ................................................................................................................................................ 50
Notes : ........................................................................................................................................................... 51
Philippe Gourgand – Licence CPTIC - 2010 3
Introduction :
Chaque jour, lorsque vous allumez votre téléviseur, votre ordinateur, votre téléphone portable, vous
visionnez des clips vidéo, des extraits de films, des émissions de télévision, avec votre Smartphone, votre
caméscope, vous saisissez en vidéo des scènes entre amis.
Chacune de ces vidéos est numérique et diffusée comme tel par l’Internet, les chaines de télévision TNT, les
opérateurs téléphoniques, les sites de diffusion comme YouTube ou DailyMotion et autres supports DVD ou
clés USB.
Pour l’utilisateur final que nous sommes, ces images sont seulement différenciées par le format (hauteur par
largeur) et l’écran de diffusion (petit ou grand) : la notion de « format » importe peu à l’utilisateur puisque
la technologie est là pour afficher presque n’importe quelle image sur n’importe quel écran.
Pourtant, l’utilisateur lambda est familiarisé avec les « formats » du cinéma : Super8mm, 16mm, 35mm,
cinémascope, Panavision, … et les « formats » de la télévision : SECAM en France, PAL en Allemagne, NTSC
aux Etats Unis. Chacun de ces formats évoque des notions de qualité d’image (familiale pour le super8 ou
professionnelle pour le cinémascope), des spécificités géographiques et donc difficilement compatibles entre
les pays : une cassette VHS achetée aux USA ne pouvait être lue sur un magnétoscope français.
Dans le monde du numérique d’aujourd’hui, il en va de même. De multiples « formats » sont apparus pour
fabriquer des photos et des vidéos, l’utilisateur se perd entre les « formats » de prise de vues, de retouche,
de diffusion ou de stockage, et leurs incompatibilités.
Pourtant, une homogénéisation des technologies du numérique est en train de voir le jour :
Quel est le point commun entre les vidéos diffusées par le célèbre site YOUTUBE, le « flash » incontournable
sur Internet, la TNT haute définition et le Blu-ray ?
Le format vidéo Advanced Video Coding/H.264 (AVC/H.264 ou h.264).
Au gré de mes premières expériences professionnelles, j’ai utilisé diverses technologies dans le domaine de
la vidéo et de l’Internet, et dernièrement, au cours de la mission que m’a confiée mon maitre
d’apprentissage, j’ai été amené à étudier ce format dans toutes ces composantes.
L’étude menée depuis un an m’a permis d’appréhender cette technologie dans sa globalité, grâce à tous les
usages que j’ai pu observer et réaliser.
Au travers de ce mémoire, je vais vous montrer que le format vidéo Advanced Video Coding/H.264
(AVC/H.264 ou h.264) devient le format universel de captation, de production et de diffusion, et s’adapte à
tous les usages présents et futurs.
Ce format est-il réellement la solution aux attentes des utilisateurs (particuliers et professionnels), en
terme de demandes de Qualité Audiovisuelle et d’Accessibilité Universelle ?
Pour répondre à cette problématique, nous devrons comprendre cette technologie, la resituer dans
l’ensemble des formats vidéo numériques et ainsi pouvoir en mesurer l’impact sur le futur.
Philippe Gourgand – Licence CPTIC - 2010 4
Historique :
En janvier 1988, le Motion Picture Expert Group (MPEG) réunit les experts de l’Organisation Internationale
de Normalisation et la Commission Electrotechnique Internationale (ISO/CEI) pour définir un système
normalisé de codage de contenus cinématographiques, le MPEG-1.
Le MPEG-1 est ainsi la première norme présentée pour les applications multimédia. Elle sera ensuite
complétée par la norme MPEG-2 pour les applications du domaine de la radiodiffusion.
La norme MPEG-2 est structurée en profils et niveaux et, pour chacun d'eux, le débit binaire maximum que
le décodeur doit pouvoir traiter est clairement défini.
Une fois normalisée, MPEG-2 a été très largement utilisée (DVB Norme TV européenne, ATSC Norme TV USA,
DVD, etc.). A l'instar de la plupart des autres méthodes de codage, MPEG-2 définit uniquement la syntaxe du
flux binaire et les caractéristiques du décodeur, laissant aux fabricants le loisir d'appliquer l'algorithme côté
codeur. Pour ces raisons, les codeurs MPEG-2 affichent des performances différentes selon le type
d'algorithme affecté à la compensation de mouvement, les valeurs de la matrice de quantification et le
dispositif de contrôle du débit.
En 1999, apparait le premier successeur de la norme MPEG-2, le MPEG-4, partie 2 publiée par l'ISO.
Comme dans le cas de MPEG-2, l'efficacité du codage est étroitement liée à la complexité du matériel de
source et à la mise en œuvre du codeur. MPEG-4 a été définie pour des applications multimédia à faibles
débits binaires, puis étendue aux applications du domaine de la radiodiffusion. Une évaluation officielle
subjective indique que le codage MPEG-4, partie 2, offre un gain d'efficacité de 200 à 400 % par rapport à
MPEG-2. Ainsi, pour les applications DVB (télévision numérique européenne), ce gain n'est pas suffisant pour
justifier une migration du MPEG-2 vers le MPEG-4, partie 2.
En 2001, soucieuses de mettre au point un système de compression plus efficace, les instances de
normalisation ISO/CIE (MPEG) et l’Union internationale des Télécommunications (UIT) conjuguent leurs
efforts au sein du groupe de travail Joint Video Team (JVT) chargé de développer le système de codage
Advanced Video Coding ou AVC.
En 2003, le système AVC est intégré en tant que partie 10, à la norme MPEG-4 (ISO/ IEC 14496-10) et repris
sous l’appellation H.264 (H.264/AVC (MPEG-4, Part 10)).
En septembre 2004, le consortium DVB modifie la norme TS 101 1542 (Implémentation Guidelines for the
Use of Vidéo and Audio Coding in Broadcasting Applications based on the MPEG-2 Transport Stream) afin d'y
inclure également AVC/H.264.
Philippe Gourgand – Licence CPTIC - 2010 5
1 – Description de la Vidéo Numérique et formats de diffusion :
1.1 Notions de Production et Diffusion
Avant de commencer à parler du format H.264 (H.264/AVC (MPEG-4, Part 10), il est primordial d’expliquer
tout d’abord certaines notions, ceci dans le but d’appréhender cette étude de la meilleure manière possible.
On parle de format numérique à partir du moment où un film vidéo est réalisé, en comparaison d’un film
cinéma tourné et monté en Super8, 16mm, 35mm, cinémascope, ou Panavision.
Un film vidéo est tourné avec une caméra numérique et enregistré, soit sur bande magnétique, soit
directement sur disque dur ou carte mémoire. Il est ensuite monté à l’aide de logiciels, appelés éditeurs de
montage vidéo, plus ou moins spécialisés et professionnels, en fonction du niveau d’expertise des personnes
et surtout en fonction de l’objectif de diffusion de l’œuvre : cinéma, télévision, DVD, internet, film de
vacances…
Pour tourner et monter un film vidéo, les constructeurs de matériels et leurs technologies nous obligent à
utiliser différents formats : la caméra enregistre dans un format propre à la captation d’images, à sa
définition standard ou haute, et au support d’enregistrement utilisé par la caméra. Le logiciel de montage,
lui, est capable de monter les images dans différents formats, en fonction de l’usage final qui sera fait du film
vidéo.
Ces différents formats de fichiers vidéo numériques, se classent en deux catégories : les propriétaires,
développés par les constructeurs de caméras, les éditeurs de logiciels de montage et d’effets spéciaux et les
Institutions internationales et Joint-Ventures, comme le Motion Picture Expert Group (MPEG), et les libres
provenant d’Organisations non lucratives de développeurs d’applications et de formats libres de droits.
Il va de soi que les formats dits propriétaires permettent à leurs auteurs de percevoir des royalties à chaque
intégration dans un système d’encodage.
Exemples de formats :
Propriétaires :
- Les différentes normes MPEG : .MPG / .mp4
- Microsoft Windows Media Video : .WMV
- Apple QuickTime : .mov
- Real Video : .rm / .rmvb
Libres :
- Ogg Theora : .ogg
- Dirac Video
Parmi ces formats de fichier, il convient de différencier :
Les formats de captation (production)
utilisés par les caméras Grand Public (DV, HDV, AVCHD), et Professionnel : AVCHD, P2, ProHD,
DVCam, XDCam, HDCam, Digital Betacam.
Format de diffusion
Ce sont les formats de fichier qui sont utilisés le plus souvent en lecture, c’est-à-dire à partir d’un
ordinateur avec un logiciel « Player » particulier, ou sur un téléphone par exemple.
Philippe Gourgand – Licence CPTIC - 2010 6
1.2 Notion de CODEC
CODEC est l’abréviation de COmpresseur-DECompresseur. Un codec est une application capable de
compresser et/ou décompresser un signal numérique audio/vidéo en l’encodant et/ou le décodant. Il existe
deux types de CODEC : les CODEC logiciels et les CODEC matériels
On peut comparer le codage d’un film vidéo aux perforations sur le bord d’un film cinéma. Dans les deux cas,
ce processus correspond à la nécessité de « normer » avec précision un format (16/35mm ou MPG1/MPG2,
par exemple) dans le contexte d’un usage précis : projection sur grand écran, sur téléviseur, sur téléphone, …
Il existe de très nombreux codec, dont la plupart sont déjà installés dans les systèmes d’exploitation
(Windows, Mac, Linux, …) des ordinateurs, lecteurs multimédia, téléphones, …
Les Codecs encodent des flux pour la transmission ou le stockage, et d’un autre côté, décodent ces flux
pour l’édition ou la restitution du flux.
La fonction Codage (Compression):
La fonction de codage (ou d’encodage) est la compression de données, ou codage, qui consiste à
transformer une suite de bits A en une suite de bits B plus courte, contenant les mêmes informations, en
utilisant un algorithme particulier. Cette opération de codage, consiste à changer la représentation de
l'information, dans le but de rendre la représentation compressée plus courte que la représentation
originale. La décompression est l'opération inverse de la compression.
La fonction Décodage (Décompression):
La fonction de décodage, ou décompression, est la lecture du fichier numérique audio/vidéo. Pour qu’une
vidéo soit lisible sur un ordinateur ou tout autre lecteur multimédia, il faut donc que le CODEC approprié y
soit installé (et dans le cas d’un CODEC matériel, que soit présente une carte de décompression). On dit
qu’un CODEC est performant en lecture si l’image qu’il affiche est nette, sans saccade et ne consomme pas
abusivement la puissance du processeur. La lecture du fichier numérique audio/vidéo se fait grâce à un
logiciel intégrant le CODEC approprié. Ces applications de lecture sont des logiciels de lecture simple et des
logiciels d'édition : logiciel de montage vidéo, audio, logiciel d'animation, logiciel d’effets, logiciel 3D.
Certains sont de vrais gestionnaires de données multimédia permettant d'acheter des fichiers en ligne et de
gérer les DRM. D'autres sont capables grâce à un moteur de recherche local de cataloguer et organiser ces
données, ils offrent aussi des fonctions plus avancées comme des
réglages de colorimétrie. Ces logiciels utilisent des « players »
pour visualiser le contenu multimédia et permettent la lecture de
métadonnées.
La plupart des formats audio/vidéo numérique se reconnaissent
par la forme de leur enveloppe de transport (on dit que les
formats sont encapsulés), comme le MPG, l’AVI de Microsoft
(Audio Video Interleave) ou le Quicktime (.MOV) d’Apple. Mais
ces enveloppes ne permettent pas d’identifier le CODEC utilisé.
On constate, à l’instar de Google, que Microsoft et Apple
développent en interne leurs propres CODEC et les implantent
dans leurs systèmes d’exploitation.
Au travers de cette étude, nous allons
observer des tests exécutés avec
différents logiciels de transcodage.
Cela ayant pour but de confronter
leurs performances,
aussi bien lors de transcodages que
lors de décodages.
Philippe Gourgand – Licence CPTIC - 2010 7
La fonction Transcodage (changement de CODEC) :
Le transcodage, en vidéo et/ou en audio, est le fait de changer le format de codage d’un média en le
comprimant ou l’encapsulant. Le transcodage permet d'adapter le format du média au support sur lequel il
est transporté, stocké ou diffusé. Il est aussi utilisé pour adapter le média aux matériels, aux normes
différentes en vue de son traitement (interopérabilité). On notera qu'il ne s'agit pas d'un codage au sens
strict du terme car le plus souvent la transformation comporte des pertes. Ainsi, le format SVCD par
exemple, permet de faire contenir un film de plus d'une heure sur un support de 650 Mo (CD), au prix d'une
qualité d'image moins bonne qu'un DVD (4,7Go) en raison du codec utilisé pour parvenir à cela : on parle
alors d’un codec destructif. On adaptera donc, soit la qualité du média à une quantité de données
d'information (résolution, finesse des détails) compatible avec le support envisagé au transport, au stockage
ou à la diffusion du média, soit sa quantité d'information véhiculée en modifiant par exemple le nombre
d'images par seconde d'une vidéo, ou en changeant sa définition.
Philippe Gourgand – Licence CPTIC - 2010 8
(Schéma de transcodage vers différents supports)
Philippe Gourgand – Licence CPTIC - 2010 9
1.3 Notions de structure d’un fichier Vidéo
Un fichier vidéo est composé de plusieurs parties ;
- Le Flux vidéo, cet élément ne contient que les informations nécessaires pour afficher la vidéo.
Le type de flux est déterminé par le CODEC utilisé (COdage /DECodage) Il est aussi défini par le
nombre d’images par secondes (Frame Per Second-FPS). En fonction de l’utilisation voulue, cette
donnée est différente. Le nombre d’images par seconde est défini ainsi :
25 images/sec (Europe) 30 images/sec (USA/ Japon) et 24 images/sec (Cinéma)
- Le Flux audio, cet élément contient la ou les pistes audio incluses dans le fichier vidéo à lire, il
est possible en fonction des spécifications du fichier de contenir plusieurs pistes, comme sur un
DVD par exemple.
- Les fichiers de sous-titres, il s’agit en général de fichiers texte contenant les données spatio-
temporelles permettant de synchroniser les textes avec le film.
- Le conteneur, ou « container » il s’agit d’une « capsule » qui va contenir en son sein le flux vidéo
et le flux audio ainsi que les fichiers de sous-titres ; ainsi que d’autres données comme une
description des flux que contient le conteneur, des métadonnées (auteur, date, etc.), des
chapitrages. Ce conteneur a pour principale utilité de faciliter le transport et la lecture d’un
fichier. Le lecteur va ensuite se charger de séparer les deux flux pour les lire.
Les principaux conteneurs vidéo sont :
- Advanced Streaming Format (extension : .asf) : développé par Microsoft,
- Ogg Media (extension : .ogm) : développé par Xiph.org,
- Windows Media Video (extension : .wmv) : développé par Microsoft,
- Material eXchange Format (extension : .mxf) : standard de la SMPTE,
- Audio Video Interleave (extension : .avi) : développé par Microsoft,
- Matroska (extension : .mkv) : développé par CoreCodec, Inc.,
- NUT Container (extension : .nut) : développé par des développeurs de MPlayer et FFmpeg,
- QuickTime (extension : .mov) : développé par Apple,
- 3gp (extension .3gp ou .3g2) : défini par le 3GPP,
- MPEG 1/2/4 (extension : .mpg ou .mpeg) : codec et conteneur défini par le Moving Picture
Experts Group,
- RealMedia (extension : .rm) : développé par RealNetworks.
Il ne faut pas confondre format et conteneur !
Un conteneur .AVI peut contenir différents formats de fichiers
Philippe Gourgand – Licence CPTIC - 2010 10
Chaque fichier vidéo possède un PROFIL, celui-ci correspond à des caractéristiques le destinant à des
applications différentes. Chaque profil a son utilisation finale.
Ce profil est défini lors du processus de transcodage par le logiciel, il est possible d’influer manuellement sur
ces réglages mais cela reste réservé aux utilisateurs expérimentés.
Chaque fichier vidéo possède aussi un NIVEAU (Level), qui lui est propre.
Ce niveau, est une valeur comprise entre 1 (le plus bas) à 5.1 (le plus élevé) correspond à des limitations sur
un certain nombre de paramètres. Cela indique au logiciel de décompression les ressources machine
nécessaires pour décompresser la vidéo. Plus son profil est élevé, et plus sa décompression va requérir de
ressources.
Ces deux notions seront détaillées plus tard, dans la 2ème partie de ce mémoire.
Philippe Gourgand – Licence CPTIC - 2010 11
1.4 Notion de débit de données (Bitrate)
Un critère essentiel pour juger de la qualité d’un fichier, est la valeur de son débit de données, appelé le
Bitrate.
Le Flux audio et le flux vidéo ont chacun un débit propre.
Cette donnée est exprimée le plus souvent sous forme de valeur en Kilobit par seconde (Kb/s). Pour les
fichiers de plus grande taille comme des vidéos en Haute Définition (HD) celui-ci peut être exprimé en
Mégabit par seconde (Mb/s)
Il convient généralement de dire, que plus le débit est élevé et plus la qualité du flux est excellente.
Il convient de différencier 2 types de Bitrate en vidéo :
Le Débit Constant (CBR)
Le débit du fichier est fixé à une valeur donnée pour toute la durée de la vidéo et/ou de l’audio. Lors
du processus d’encodage, on attribue une valeur de Bitrate, celle-ci correspond à la qualité que l’on
veut donner au fichier encodé.
En fonction de la définition de la vidéo, c’est-à-dire sa taille, celle-ci est exprimée en pixel, comme la
taille d’un écran d’ordinateur. Plus la définition est importante, plus le Bitrate doit être important, à
l’inverse si celle-ci est réduite, le débit peut être diminué.
Le Débit Variable (VBR)
Le débit fixé n’est qu’une moyenne. Lors de séquences ne nécessitant que peu d’informations la
valeur va être réduite automatiquement en fonction de la charge nécessaire, à l’inverse pour les
séquences complexes, le débit est augmenté.
Ce type de débit a l’avantage certain de rendre un fichier de qualité supérieure. Puisque celui-ci va
s’adapter automatiquement à la complexité de la vidéo.
De plus, les fichiers encodés ont un poids sensiblement inférieur à ceux encodés avec un débit de
type constant. L’amplitude, l’écart entre le début minimum et le débit maximum varie selon les
choix de l’utilisateur ou des paramètres prédéfinis du logiciel. Cet écart peut être extrême sans pour
autant augmenter significativement le poids du fichier.
Exemple : une vidéo Haute Définition aura un Bitrate de 6Mb/s (voir 15Mb/s pour un film commercial)
alors qu’une vidéo pour l’Internet dans une définition plus standard pourra avoir une qualité correcte avec
un débit de 1Mb/S voire 1,5Mb/s si la vidéo est complexe.
Philippe Gourgand – Licence CPTIC - 2010 12
2 - Etude Avancée du Format vidéo AVC/H.264
Au travers de ce mémoire, nous allons définir ce qu’est le format Vidéo AVC/H.264, ses utilisations
et ses évolutions.
Comme nous l’avons vu précédemment, le format AVC/H.264 a été conçu pour remplacer les normes
vieillissantes de vidéo aussi bien télévisuelles que cinématographiques.
Dans cet objectif, le consortium chargé de sa normalisation a défini des critères à respecter pour que ce
format soit « viable » et surtout performant pour être en mesure de remplacer la précédente norme MPEG-
2.
Au travers de différents tests et exemple concrets, nous allons observer comment se comporte le format
AVC/H.264 dans ses utilisations, et en quoi ce format répond aux attentes des consommateurs.
Mais tout d’abord, un peu de technique,
Il serait difficile de dire qu’il s’agit d’une étude avancée si nous n’évoquions pas les aspects techniques qui
sont l’essence même du format AVC/H.264.
2.1 Présentation Technologique
2.1.1 Technologie
Au travers de cette partie, nous allons présenter et observer les technologies présentes au sein de ce format,
et pourquoi celui-ci est à même de répondre aux besoins technologiques actuels.
Le Format AVC/H.264 à proprement parler est une norme. Celle-ci comprend différentes technologies qui
doivent être implémentées au sein des différents CODEC AVC/H.264 présents sur le marché.
Avant tout, il faut savoir que lors de l’élaboration de ce format, le consortium MPEG avait inscrit au cahier
des charges que ce nouveau format devrait apporter un gain de qualité théorique de 40% en terme de
rapport « Poids/qualité visuelle » en opposition au format MPEG-4.
Ce format possède différentes technologies lui permettant de compresser plus efficacement les vidéos que
les normes précédentes (ex : MPEG-2 et MPEG-4 part 2 ASP)
Une meilleure compensation des mouvements dans l’utilisation des images déjà encodées comme
références. Le choix de l'image de référence intervient au niveau MacroBloc et sous-MacroBloc. Ceci
permet d'utiliser dans certains cas jusqu'à 32 images de référence. Les précédentes normes étaient
limitées à 2 images de références.
Une précision au quart de pixel pour la compensation de mouvement, ceci permet d’avoir un rendu
plus précis des déplacements des zones mobiles. (Pour la chrominance, la précision de la
compensation de mouvement se fait même au huitième de pixel.)
Un filtrage anti-blocs, ce filtre est appliqué pendant l’opération de transcodage, et a pour but de
réduire les artefacts caractéristiques d’un codage par bloc. (pixellisation)
Un codage Arithmétique (CABAC : Context-Adaptive Binary Arithmétiques Coding) qui est une
technique sophistiquée de codage entropique qui produit d'excellents résultats en terme de
compression mais possède une grande complexité demandant une machine puissante pour être
décodé, (n’est pas disponible dans tous les profils H.264)
Philippe Gourgand – Licence CPTIC - 2010 13
Un codage adaptatif de type Huffman à longueur variable (CAVLC : Context-Adaptive Huffman
Variable-Length Coding)
La numérotation des images permet la création de sous-séquences (ceci permet une « Scalabilité
temporelle » que nous étudierons plus tard dans ce mémoire)
Ces technologies, ainsi que plusieurs autres permettent au format AVC/H.264 de « dépasser » les standards
précédents en termes de qualité dans une grande variété de circonstances et dans une grande variété
d'environnements d'application. Cela apporte un nouveau standard en termes de qualité de diffusion.
On remarque que le format AVC/H.264 produit des fichiers dont le « poids » est inférieur à une vidéo
MPEG-2, en obtenant la même qualité avec un Bitrate diminué de moitié, voire plus.
Comparons 2 formats utilisés en utilisation commerciale ;
Prenons un DVD par exemple, celui-ci contient plusieurs fichiers Vidéo encodés en MPEG-2 en 720x576
pixels (576p)
La particularité du DVD est de concaténer la totalité du film en plusieurs fichiers de 1 Go, et ces fichiers sont
dénommés en .VOB. Cela explique pourquoi lorsque l’on visionne un DVD, il peut y avoir une légère coupure
de l’image pendant un bref instant. Cela est dû au changement de « VOB » pendant la lecture.
Le DVD « existant » depuis 1995, et les ordinateurs étant limités à l’époque, il a fallu trouver une astuce pour
réduire la charge du processeur lors de la décompression des films. Depuis, le processeur ne décompresse
plus le MPEG-2, la carte graphique s’occupe de cette tâche.
Un VOB correspond à environ 30 minutes de vidéo, cela est approximatif car dépendant de la qualité visée
par le studio responsable de la production du DVD. De plus, la durée maximale va dépendre de la
technologie de compression utilisée (Compression à débit constant ou variable)
Ce principe est applicable à tous les formats de vidéo et à tous leurs supports.
Donc en MPEG-2 ,576p : 1Go ≈ 30minutes
(MPEG-2 : entre 1 Mbit/s et 15 Mbit/s en définition standard (SD : 720 x 576 pixels en PAL))
Sur un Blu-ray où le format AVC/H.264 est utilisé, il n’y a qu’un seul fichier pour la globalité du film.
Cela ne produit pas de coupure pendant la lecture, mais nécessite un PC relativement puissant ou un
matériel de décompression dédié (lecteur Blu-ray de salon, carte de décompression HD…), aussi du fait de sa
plus grande compression, donc complexité.
Par contre, en AVC/H.264 576p 3Mb/s est recommandé
AVCHD : entre 5 et 24 Mbit/s en 720p et 1080p
Un film H.264 qualité Blu-ray en 1080p peut « peser » jusqu’à 35Go !
Il est difficile pour ce format de donner une valeur de référence pour 30minutes, cela varie en fonction du
matériel de captation ou du logiciel utilisé.
Toutefois, il faut nuancer ces valeurs, car le H.264 utilise la plupart du temps un encodage de type Variable.
Les chiffres donnés ne sont que des moyennes permettant d’afficher une marge suffisante pour permettre
aux CODEC de travailler sur le flux vidéo de manière optimale. Les images ne nécessitant pas du débit
maximum seront bien sûr encodées à un débit moindre, permettant ainsi d’avoir un fichier HD avec un poids
inférieur au 5,2Go nécessaire à un fichier d’1h en 6Mb/s
Philippe Gourgand – Licence CPTIC - 2010 14
Concrètement, lors d’un encodage d’une vidéo d’un format vers celui-ci, le CODEC va analyser la vidéo
source. Lors de cette opération le logiciel va analyser image par image les éléments (objets) apparents ainsi
que leurs trajectoires, mais aussi les couleurs des images ainsi que l’aspect de l’image s’il s’agit d’un film en
16/9 ou 4/3, ou encore au format cinéma « anamorphosé » (cinémascope, Panavision,…)
Ensuite, l’opération de transcodage débute, le CODEC va, en fonction de l’analyse, compresser ces images à
l’aide de « MacroBloc » ceux-ci sont des blocs de Pixel de différentes tailles,
Ceux-ci étant généralement désignés ainsi : (16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4)
Plus leur taille sera petite, plus leur précision sera proche de l’originale. La taille de ces blocs est définie à
l’avance par l’analyse de leurs emplacements sur l’image. En effet, une zone contenant du mouvement sera
définie par des MacroBloc de plus petite taille pouvant ainsi reproduire ce mouvement de manière plus
précise. Par différence, une zone ayant peu, ou pas du tout de mouvement sera définie par des MacroBloc
plus « gros » donc moins précis.
Une fois cette opération de transcodage terminée le logiciel va « recoller » les flux Vidéo et Audio dans le
fichier conteneur, on dit qu’il effectue un multiplexage. Lors du transcodage, le logiciel a, nous l’avons dit, ré-
encodé la vidéo, et fait de même avec la ou les différentes pistes son. Car un format comme l’AVC/H.264
peut, au sein du conteneur supporter différents format audio. Exemple : un Blu-ray contient au minimum 2
pistes, la VO et la VF.
(Schéma simplifié du processus d’encodage et de décodage)
Philippe Gourgand – Licence CPTIC - 2010 15
Comme nous l’avons vu précédemment, un transcodage peut induire une perte de données, mais certains
formats audio dit « lossless » (sans perte) permettent de bénéficier d’un son de grande qualité.
Une fois multiplexé, le fichier peut être lu à condition de posséder un logiciel pouvant décompresser la vidéo
ou tout autre appareil comme un téléphone compatible ou un lecteur de salon.
A noter, qu’il existe aussi des formats vidéo sans perte, dont principalement le Motion JPEG 2000, qui sera
utilisé plus loin dans ce mémoire.
La contrepartie, est que le format AVC/H.264 peut, dans certaines conditions nécessitant une qualité
maximale, être assez complexe à décompresser et donc à visualiser. Ceci interdit la lecture de film sur des
ordinateurs peu puissants comme les Netbook.
La notion de complexité, veut dire que pour décoder le ou les flux, le traitement nécessitera de la part du
processeur un apport de puissance bien supérieur. Toutefois, il existe une « parade » : les Cartes Graphiques
ou GPU (Graphic Processor Unit). Celles-ci deviennent suffisamment puissantes pour décoder en partie ou
totalement les flux vidéos. Cela permet de laisser le processeur libre pour d’autres opérations. On appelle
cela le DXVA (DirectX Video Acceleration)
Certains Codec (propriétaires) AVC/H.264 ont comme avantage d’être pleinement compatibles avec cette
technologie.
Certains Netbook plus « avancés » possèdent un GPU plus puissant, pouvant décompresser des flux HD. Mais
cela est souvent un argument marketing.
Toutefois, pour une utilisation Internet, les fichiers sont « taillés » pour le streaming, donc de qualité visuelle
inférieure. Le « problème » de complexité ne s’applique pas.
La problématique principale devient alors la « Bande Passante »
Il devient nécessaire d’avoir accès à une connexion Internet à haut débit pour bénéficier de l’affichage de
film en streaming.
(Nous parlons ici de streaming, nous n’aborderons pas l’épineux problème du streaming illégal.)
Le streaming a l’avantage de diffuser des fichiers de qualité inférieure, leur poids est plus faible donc plus
facile à transporter, à télécharger. Un avantage certain pour les personnes qui ne veulent pas télécharger un
fichier complet DVD ou HD. L’ordinateur a toujours le rôle de la décompression, mais la complexité étant
moindre, son travail est facilité. Il est possible à l’heure actuelle de visionner certaines vidéos encodées dans
ce format à l’aide d’un Smartphone, par exemple.
Toutefois, vous êtes tributaire de la technologie Flash de l’éditeur Adobe, car celle-ci a pour rôle
d’acheminer le flux vidéo jusqu’à votre ordinateur.
Philippe Gourgand – Licence CPTIC - 2010 16
2.1.1.1 Profils
On appelle « Profils » un ensemble d’outils, principalement des algorithmes et des process liés au codage et
au décodage de vidéo.
Ces outils sont autant d’implémentations qu’il existe de technologies d’optimisation dans le h.264, chaque
profil est défini en fonction des technologies supportées ou non.
Un logiciel d’encodage, a la capacité d’être flexible sur ce point, puisqu’il va en fonction des réglages définis
par l’utilisateur, sélectionner le bon profil, permettant ainsi au décodeur d’adapter son processus de
décodage par rapport au mode de codage préalablement défini.
Il est donc défini lors du processus de transcodage par le logiciel, toutefois il est possible d’influer
manuellement sur ces réglages mais cela reste réservé aux utilisateurs expérimentés.
C’est aussi un moyen de normer les différents fichiers, ceci permettant d’avoir une uniformisation des
fichiers malgré leurs nombreux profils.
Tout fichier possèdera un Profil, le plus généralement le profil « Main » le plus standard
Le profil « Baseline » et « extended » sont utilisés pour le streaming
Le Profil « High » est utilisé pour les fichiers HD et nécessitant une haute qualité.
Le Profil « Intra » est utilisé pour les fichiers produits par les caméras de type professionnel, il permet
l’édition des fichiers HD ou SD dans les logiciels de montage vidéo professionnel.
(Schéma des 3 Profils les plus utilisés et les plus courants)
Ce schéma présente les principales différences entre les profils, présentant leurs technologies et possibilités
Philippe Gourgand – Licence CPTIC - 2010 17
Certains Profils ont plusieurs déclinaisons particulièrement le « High » et le « Intra »
Les différences sont souvent minimes mais apportent une ou deux améliorations et optimisations, qui seront
bienvenues pour un usage professionnel et commercial.
(Schéma des profils utilisés par la plupart des logiciels d’encodage professionnels et amateur)
Ce schéma apporte un complément d’information quant à la différenciation des sous profils « Main » et
« High »
Philippe Gourgand – Licence CPTIC - 2010 18
(Schéma des Profils utilisés par les studios de Production pour le montage (Intra) et pour une utilisation
commerciale (High))
Ce schéma présente les différenciations entre le profil « Main » et les profils « Intra » utilisé en Production !
Philippe Gourgand – Licence CPTIC - 2010 19
2.1.1.2 Levels (Niveaux)
Nous l’avons déjà abordé dans les notions, mais le niveau d’un fichier est un élément très important à
prendre en compte.
Cette Valeur, est déterminée lors de l’encodage du fichier vidéo, et est en rapport avec les différents
éléments qui composent le fichier, plus particulièrement son flux vidéo : sa résolution, son débit (Bitrate) et
surtout son profil.
Cette valeur va de 1 à 5.1 voire dans certains cas, une valeur plus importante allant jusqu’à 5.4.
Celle-ci se trouve dans de rares logiciels spécialisés permettant l’édition de Master 2 K ou 4 K pour le Cinéma
et l’édition de DVD et Blu-ray.
Elle indique au logiciel de décompression les ressources machine nécessaires pour décompresser la vidéo.
Plus son profil est élevé, et plus sa décompression va requérir de ressources.
(Schéma présentant des exemples de profils et niveaux en fonction de la résolution de l’image)
Un profil de niveau 1 par exemple ne pourra s’appliquer qu’à une vidéo de 128×96 pixels a 30images/s
Alors qu’un niveau 3 ne s’applique que pour les vidéos de 720×576 pixels à 25images/s (Qualité DVD)
Vous l’aurez compris pour de la Haute définition, un Blu-ray par exemple doit avoir un niveau plus élevé ; un
niveau 4 est nécessaire, car c’est à partir de ce niveau qu’un fichier est capable de posséder une résolution
aussi importante.
Philippe Gourgand – Licence CPTIC - 2010 20
Level
Max macroblocks Max video bit rate (VCL)
Examples for high resolution
@
frame rate
per second per
frame
BP, XP,
MP HiP Hi10P
Hi422P,
Hi444PP (max stored frames)
(kbit/s) (kbit/s) (kbit/s) (kbit/s)
1 1,485 99 64 80 192 256 128×96@30.9 (8)
176×144@15.0 (4)
1b 1,485 99 128 160 384 512 128×96@30.9 (8)
176×144@15.0 (4)
1.1 3 396 192 240 576 768
176×144@30.3 (9)
320×240@10.0 (3)
352×288@7.5 (2)
1.2 6 396 384 480 1,152 1,536 320×240@20.0 (7)
352×288@15.2 (6)
1.3 11,88 396 768 960 2,304 3,072 320×240@36.0 (7)
352×288@30.0 (6)
2 11,88 396 2 2,5 6 8 320×240@36.0 (7)
352×288@30.0 (6)
2.1 19,8 792 4 5 12 16 352×480@30.0 (7)
352×576@25.0 (6)
2.2 20,25 1,62 4 5 12 16
352×480@30.7(10)
352×576@25.6 (7)
720×480@15.0 (6)
720×576@12.5 (5)
3 40,5 1,62 10 12,5 30 40
352×480@61.4 (12)
352×576@51.1 (10)
720×480@30.0 (6)
720×576@25.0 (5)
3.1 108 3,6 14 17,5 42 56
720×480@80.0 (13)
720×576@66.7 (11)
1280×720@30.0 (5)
3.2 216 5,12 20 25 60 80 1,280×720@60.0 (5)
1,280×1,024@42.2 (4)
4 245,76 8,192 20 25 60 80
1,280×720@68.3 (9)
1,920×1,080@30.1 (4)
2,048×1,024@30.0 (4)
4.1 245,76 8,192 50 62,5 150 200
1,280×720@68.3 (9)
1,920×1,080@30.1 (4)
2,048×1,024@30.0 (4)
4.2 522,24 8,704 50 62,5 150 200 1,920×1,080@64.0 (4)
2,048×1,080@60.0 (4)
5 589,824 22,08 135 168,75 405 540
1,920×1,080@72.3 (13)
2,048×1,024@72.0 (13)
2,048×1,080@67.8 (12)
2,560×1,920@30.7 (5)
3,680×1,536@26.7 (5)
5.1 983,04 36,864 240 300 720 960
1,920×1,080@120.5 (16)
4,096×2,048@30.0 (5)
4,096×2,304@26.7 (5)
Philippe Gourgand – Licence CPTIC - 2010 21
2.1.2 Apports et Etude Comparative
Tout d’abord, ce format apporte un gain de place indéniable ; un film encodé en AVC/H.264 « pèse »
beaucoup moins de Megaoctet sur un Disque Dur, en opposition au même film encodé dans un format brut
de production ou un autre format comme le MPEG-2 voire même son prédécesseur le MPEG-4, encore très
utilisé aujourd’hui.
En termes de technique pure, ce format apporte un plus grand respect des chrominances de l’image,
une meilleure précision et compensation du mouvement. C’est principalement pour cela que l’industrie du
cinéma a choisi ce format pour les films Blu-ray ; ce gain de place permet de mettre sur un seul disque le
film en Haute définition, les pistes sons, et différents bonus.
La meilleure manière pour moi de vous démontrer les apports de ce format, est de vous présenter un
comparatif visuel sur une vidéo en Haute Définition, ici le Full HD 1080p.
Nous allons comparer le rendu d’un film (un court extrait) selon différents critères :
- Qualité visuelle psychologique
- Pixellisation
- Poids du fichier
- Charge du processeur lors de la décompression
Nous allons sélectionner un extrait de film, ou plutôt une bande annonce dans laquelle, nous aurons des
séquences ayant des mouvements rapides mais aussi peu de mouvement.
Pour que ce comparatif soit représentatif, toutes les vidéos seront encodées sur le même ordinateur.
(Les temps de travail pouvant varier en fonction de la configuration matériel, d’un ordinateur à un autre.)
La bande annonce retenue est celle du film « Scott Pilgrim VS the world »
L’avantage de cet extrait, est qu’il est assez court (environ 2minutes), qu’il est composé à la fois de scènes
d’action très colorées avec beaucoup de mouvements ainsi que des passages détaillés plus lents.
Les images utilisées, représentent les acteurs Michael Cera, Satya Bhabha et Mary Elizabeth Winstead.
Cette Bande annonce a été récupérée sur un site internet, www.HD-trailers.com.
Elle est au format Full HD soit 1920x1080.
L’avantage d’utiliser une vidéo de cette qualité permet d’avoir beaucoup plus de pixels que sur une Vidéo
qualité DVD en 576p (720x576). Lors d’un comparatif de qualité, cela permet de voir beaucoup plus
facilement à l’œil nu, les défauts et artefacts visuels.
Sa qualité visuelle est la même qu’une version commerciale Blu-ray.
Avant d’effectuer ces tests, nous allons changer le format de cette vidéo, par un format brut, non
compressé.
Le choix a été porté sur le standard de projection du cinéma numérique, le Motion JPEG 2000.
Il s’agit d’un format de vidéo, utilisant le format JPEG, que tout le monde connait, car toutes les images sont
dans ce format. Le MJPEG 2000, encode une vidéo en 25 ou 24, 97 images JPEG par seconde.
Cela a pour avantage de ne perdre aucune information, de créer un fichier totalement parfait
qualitativement, mais extrêmement lourd (700Mo pour environ 2Minutes de films en HD)
Philippe Gourgand – Licence CPTIC - 2010 22
Procédure de test : Le fichier ainsi créé est importé dans différents logiciels d’encodage du marché.
Pour être représentatif, nous allons utiliser des logiciels propriétaires payants et d’autres libres et gratuits.
J’ai gardé les réglages par défaut de ces logiciels. Nous pourrions utiliser des milliers de réglages pour
affiner les fichiers finaux. Mais en utilisant les réglages de base, nous utilisons les paramètres utilisés par
monsieur tout le monde.
Image de référence :
Au format JPEG 2000 1920x1080pixels
Poids 711Mo
Débit 39,4Mbits Constant
Utilisation CPU 10%
Philippe Gourgand – Licence CPTIC - 2010 23
Logiciel : AVS Video Converter
Transcodage MPEG-4 sans utilisation de B-frame :
Transcodage MPEG-4 avec utilisation de B-frame :
Transcodage H.264 :
4 Min de traitement
Poids 67,7Mo
Débit 3,5Mb/s Variable
Utilisation CPU : 5%
7 Min de traitement
Poids 67,6Mo
Débit 3,5Mb/s Variable
Utilisation CPU : 5%
8 Min de traitement
Poids 26,6Mo
Débit 1,29Mb/s Variable
Utilisation CPU : 13%
Philippe Gourgand – Licence CPTIC - 2010 24
Logiciel : Main Concept reference
Transcodage MPEG 4 :
Transcodage MPEG 2 HD :
Transcodage VC-1 :
Transcodage H.264 :
6 Min de traitement
Poids 117Mo
Débit 6,2Mb/s Variable
Utilisation CPU : 6%
4 Min de traitement
Poids 118,7Mo
Débit 6Mb/s Constant
Utilisation CPU : 8%
5 Min de traitement
Poids 113,4Mo
Débit 6Mb/s Variable
Utilisation CPU : 15%
7 Min de traitement
Poids 111Mo
Débit 6mb/s Constant
Utilisation CPU : 10%
Philippe Gourgand – Licence CPTIC - 2010 25
Logiciel : Adobe Media Encoder
Transcodage H.264 :
Transcodage MPEG-2 HD :
Transcodage WMV :
24 Min de traitement
Poids 525,8Mo
Débit 28,5Mo Variable
Utilisation CPU : 20%
6 Min de traitement
Poids 351,7Mo
Débit 18,5 Variable
Utilisation CPU : 7%
25 Min de traitement
Poids 151,5Mo
Débit 8Mo Variable
Utilisation CPU : 10%
Philippe Gourgand – Licence CPTIC - 2010 26
Logiciel : MediaCoder
Transcodage x.264 :
On remarque tout de suite les disparités de poids, de temps de calcul et d’utilisation du processeur de la
machine.
Ceci est principalement causé par la finalité du logiciel (Professionnel ou Grand public). Si le logiciel est de
type professionnel son temps de traitement va souvent être plus long, car les algorithmes de compression
qui le composent sont plus « méthodiques ».
Dans le cas de notre étude ci-dessus, le logiciel Adobe Media Encoder, est un logiciel Professionnel (il fait
partie d’un Workflow complet Adobe Production).
En fonction de la complexité de la vidéo cela va entrainer un temps et un effort de calcul plus soutenus. De
plus, le logiciel va « normer » le fichier final, c’est-à-dire qu’il crée un fichier de type « Broadcast » prêt à être
diffusé, en étant sûr que le fichier soit respectueux de la norme, mais aussi de sa structure interne, ne
causant ainsi pas d’incompatibilités.
Un logiciel n’ayant pas pour vocation d’être « Broadcast » aura une vocation plus grand public :
transcodage de film de vacances, ou de fichiers à destination d’un baladeur par exemple, ou simplement
publication sur Internet.
La liste de ce type de logiciel est longue ; AVS vidéo Converter, MainConcept Reference, SUPER, Xilisoft
vidéo coder, MediaCoder…
Ceux-ci ont un temps de traitement plus court, en moyenne, car les fichiers traités ont comme finalité d’être
publiés ou utilisés par l’utilisateur dans un cadre familial. En effet ce dernier installe un de ces programmes
souvent gratuit ou à un coût dérisoire, et importe dans celui-ci une liste de fichiers qu’il veut transcoder. Ce
logiciel n’ayant pas pour vocation de faire de la qualité « Broadcast » les fichiers finaux ne sont que trop
rarement « normés », impliquant ainsi le plus souvent des incompatibilités avec certains autres logiciels de
visionnage ou plateforme de publication en ligne.
On peut aussi remarquer que la consommation de ressources processeur durant la lecture varie en fonction
du logiciel utilisé pour créer le fichier H.264. La consommation est dépendante de l’algorithme utilisé pour
le transcodage du fichier, mais aussi de divers paramètres comme son profil et son niveau, comme nous
avons pu le voir précédemment.
Vous pouvez aussi noter les différences de rendu chromatique entre les différents formats !
6 Min de traitement
Poids 22,8Mo
Débit 1,1 Mb/s Variable
Utilisation CPU : 13%
Philippe Gourgand – Licence CPTIC - 2010 27
2.1.3 : Technologies Evolutives de ce format
2.1.3.1 : Scalable Video Coding (SVC)
Il s’agit du nom donné à une extension du format H.264 développée conjointement par UIT-T et l'ISO. Les
deux groupes ont créé le Joint Video Team (JVT) pour développer la norme H.264,
ou MPEG-4 AVC (ITU-T Rec. H.264 | ISO/IEC 14496-10 AVC).
En octobre 2003, le groupe Moving Picture Experts Group (MPEG) lance un appel à la communauté
scientifique (« Call for Proposals on SVC Technology »). Quatorze projets, dont douze basés sur
la compression par ondelettes, sont proposés. Les deux propositions restantes étant des extensions de
H.264/MPEG-4 AVC. L'une d'elle, proposée par l'équipe image du Heinrich-Hertz-Institut (HHI) est choisie par
MPEG comme point de départ de son projet de standardisation de SVC.
En janvier 2005, les groupes MPEG et Video Coding Experts Group (VCEG) se sont entendus pour finaliser le
projet SVC comme un amendement de leur standard H.264/MPEG-4 AVC.
L'objectif de SVC est d'offrir un contenu échelonnable, dit Scalable, c'est-à-dire que le contenu peut être
encodé une fois, et offrir ensuite différents paliers de qualité en utilisant différents débits.
En Novembre 2008, Google a lancé son nouveau service "Gmail Video chat" qui utilise un codec H.264/SVC.
C'est probablement le premier service à utiliser cette norme pour des applications "grand public".
Le CODEC SVC nécessite l’utilisation de plusieurs couches « Layers », chaque couche va être encodée à
différents débits, celles-ci sont réunies dans un seul et même fichier. Lors du décodage, le lecteur va en
fonction de plusieurs paramètres déterminants, sélectionner la ou les couches pouvant être lues et surtout
sélectionner en priorité celle qui possède le plus fort ratio Qualité/Poids, pour permettre à l’utilisateur
d’avoir la meilleure expérience possible.
Ces différents paramètres sont :
- La vitesse de Connexion internet pour une lecture en Streaming.
- La puissance de décodage de la machine ou de l’appareil mobile qui effectue la décompression.
- La résolution maximale de l’écran.
Le logiciel chargé de la décompression va automatiquement adapter le décodage en fonction de ces
paramètres, et peut même le faire à la volée. Exemple, vous visionnez un film en streaming, et au même
moment un membre de la famille commence le téléchargement d’un fichier de grande taille.
Automatiquement la qualité de la vidéo va diminuer, pour adapter son Bitrate en fonction de la bande
passante disponible sur votre ligne.
Philippe Gourgand – Licence CPTIC - 2010 28
Autre exemple, vous téléchargez un film encodé en SVC et le donnez à un ami, celui-ci n’a sûrement pas le
même matériel que vous (ordinateur, télévision, lecteur…). Or pendant la lecture le logiciel va adapter le
fichier à son écran plus grand que le vôtre par exemple en utilisant le layer FullHD 1080p alors que vous
utilisiez le layer 720p.
Ceci peut être applicable à toutes les situations, le fichier ne peut plus être pris en défaut.
Plus de cas où votre PC n’est pas assez puissant pour décompresser un flux.
Hypothétiquement, le fichier peut être lu depuis un téléphone mobile avec son petit écran ou depuis un
Home Cinéma FullHD 1080p voire plus !
Cela dépend du nombre de couches de Scalabilité utilisées.
Mais la question du poids du fichier ?
On pourrait penser que de cumuler des couches implique le cumul du poids de toutes celles-ci.
Or ce n’est pas le cas. Grace à des algorithmes, certaines zones de l’image affichée sont partagées à toutes
les couches. Mais certes le poids du fichier est bien sûr supérieur à un fichier « simple », il est estimé
théoriquement a un surpoids de 40% au minimum.
Il y a 3 grands Principes de Scalabilité :
- Scalabilité temporelle :
Chaque vidéo possède un nombre d’image par seconde différent, 24 au cinéma, 25 à la télévision
française, 29,97 aux Etats Unis… Le concept de Scalabilité temporelle permet pour une même vidéo
de changer ce paramètre sans détériorer le rendu visuel final de la vidéo.
Cependant celle-ci pourra se retrouver accélérée, comme passer de 24 images par seconde pour un
film en salle et 25 images pour sa version DVD. Et croyez-moi, il y aura une différence au niveau du
son, souvent plus aigu !
- Scalabilité Spatiale :
Ce concept permet de changer la taille, la résolution d’une vidéo. Lorsque vous agrandissez une
vidéo dans un lecteur, vous ne faites que grossir les pixels de cette vidéo. On appelle ceci une
« interpolation de pixel », la preuve en est que si vous possédez une télévision HD, et que vous
visionnez un film DVD, vous verrez apparaitre des artefacts visuels. Les pixels ont été grossis ainsi
que les défauts. Or la Scalabilité permet grâce à certains algorithmes d’encodage de passer d’une
résolution moyenne à une résolution plus grande sans avoir une pareille détérioration.
- Scalabilité Qualitative :
Cela consiste à rajouter des couches de détails lors de l’encodage du fichier, celle-ci ne seront lues
que si cela est nécessaire, en augmentant le Bitrate de la bande passante dans le cas d’un fichier lu
en streaming. Microsoft a implémenté cette technologie au sein de sa technologie de diffusion
Internet « Silverlight ».
Démonstration accessible à cette adresse :
http://www.iis.net/media/experiencesmoothstreaming
Mais aussi en fonction de la résolution de votre écran !
Philippe Gourgand – Licence CPTIC - 2010 29
(Schéma propriété de l’institut Fraunhofer, montrant visuellement les 3 types de Scalabilité)
Ce schéma montre de façon concrète, les 3 types de Scalabilité existantes. La modification de la cadence
d’image, l’augmentation ou la réduction de la résolution d’une vidéo, ainsi que l’augmentation ou la baisse
de qualité à la volée.
(Schéma représentant le cas où l’on voulait créer différents fichiers pour différents types de bandes
passantes)
En temps normal il est recommandé d’encoder un fichier pour un usage spécifique, une version DVD et une
version HD, ce que font par exemple les services de Video à la demande (VOD) comme il en existe des
dizaines en France. Il est de plus en plus possible de trouver des services proposant différentes versions de
fichiers pour des supports tels que des consoles de jeux PSP de Sony et iPhone/iPod touch d’Apple.
Philippe Gourgand – Licence CPTIC - 2010 30
(Schéma de la technologie SVC et des connexions entre chaque Layer)
Voici la situation qui pourrait se produire dans quelques années, lorsque cette technologie se sera
développée. Un seul fichier lisible partout et surtout différents supports.
Cette technologie permettrait, vous l’avez compris, de se passer du versionnement des fichiers ; un fichier
global pouvant être visionné partout à la fois ! C’est à la fois ce qui fait la force de ce format extrêmement
flexible, mais aussi sa faiblesse, car pour rendre ce fichier accessible au plus grand nombre, il sera surement
nécessaire de tirer la qualité vers le bas.
Cependant, la taille du fichier augmentant de manière significative, la question suivante peut être posée :
vaut-il mieux posséder plusieurs fichiers pour tous les différents moyens de diffusion, ou uniformiser le
tout ?
Philippe Gourgand – Licence CPTIC - 2010 31
2.1.3.2: Multi-View Video Coding (MVC)
Il s’agit de la technologie utilisée pour apporter le cinéma en 3 Dimensions à domicile et au cinéma.
Comme pour la technologie SVC, le MVC est une extension du H.264. Cette technologie a été créée pour le
codage stéréoscopique (l’image en relief) à partir de 2 points de vue. Cette norme a été finalisée en Juin
2009 et est depuis devenue le standard utilisé dans les « Blu-ray 3D » qui commencent à arriver dans le
commerce.
Lors de l’établissement de cette norme, un critère essentiel a été respecté : la rétrocompatibilité avec le
format H.264.
En effet, le MVC est composé de 2 images mises « côte à côte », comme les 2 images que vos yeux
perçoivent, la gauche et la droite, votre cerveau restitue l’image en 3 Dimensions. Dans notre cas, le logiciel
de décompression, va restituer cette « 3D » avec un peu d’aide.
A l’heure où j’écris ce mémoire, il est quasiment impossible de regarder une vidéo en 3D avec nos seuls
yeux !
Si vous êtes allés au cinéma récemment voir un film en Relief stéréoscopiques, il vous a fallu des lunettes.
Ces lunettes sont dites « actives », les 2 verres sont polarisés à la lumière, c’est-à-dire que le verre gauche ne
va laisser filtrer que l’image gauche. Et inversement pour l’image droite.
Mais une vidéo est une succession de 24 images pour le cinéma, 25, 30 voir bien plus pour le reste.
(Informatique, jeux…)
Pour créer cette impression de relief les lunettes vont chacune à leur tour occulter l’image droite puis
l’image gauche…. A très haute vitesse bien entendu ! Au cinéma, cela se produira donc 24 fois par seconde,
et comme chaque image possède 2 points de vue, un film « 3D » au cinéma doit afficher 48 images par
seconde.
La stéréoscopie ne s’attaque pas exclusivement au cinéma mais aussi au domaine du jeu vidéo, dans ce cas
les contraintes techniques sont plus lourdes, un jeu ne se contente pas d’afficher 25 images par seconde, et
comme l’image est générée par un écran il est estimé que pour avoir une image fluide il est nécessaire de
produire au minimum 30 images par secondes dit « FPS » (Frame Per Second) soit au minimum 60 Fps du fait
de la 3D.
Pour en revenir au format MVC, celui-ci est capable d’afficher jusqu’à 3 points de vue de la même image,
En utilisant 2 de ces images nous obtenons un rendu « stéréoscopique » mais si nous utilisons ces 3 images
nous obtenons un rendu dit en 3 dimensions, une réalité virtuelle.
Pour créer un fichier en MVC, il est donc nécessaire d’utiliser une caméra « stéréoscopiques » avec 2 ou 3
objectifs, celles-ci sont pour l’heure utilisées dans l’industrie du cinéma exclusivement. Ensuite, il faut utiliser
un logiciel d’encodage qui va utiliser les algorithmes de ce format pour convertir les 2 images en fichier
pouvant être visionné par l’utilisateur.
Philippe Gourgand – Licence CPTIC - 2010 32
Il existe 2 méthodes de positionnement des images :
- La méthode séquentielle (Sequential)
Les images sont ici présentés une à une, la gauche puis la droite….
Les lunettes vont s’occuper d’occulter les images qui ne correspondent pas.
L’avantage de cette méthode est que chaque image arrive dans sa résolution maximale
- Méthode côte à côte (Side-by-Side)
Les images arrivent ici côte à côte, le logiciel de décompression va se charger de n’afficher qu’une image, en
réunissant les 2 images à l’aide des lunettes. L’inconvénient est que pour une vidéo d’une résolution donnée,
les images sont ici côte à côte, donc lors du visionnage on perd 50% de la taille de l’image.
Cette technologie n’apporte pas vraiment de révolution mais permet cependant d’apporter la 3D
stéréoscopique. Mais pour le moment le port obligatoire de lunettes et l’achat de matériels compatibles en
sont les principaux freins.
Le problème du port de lunettes a de fortes chances d’être corrigé, certains acteurs du marché travaillent
sur des écrans « 3 dimensions » ne nécessitant pas de lunettes, et d’autres comme Disney travaillent sur de
nouveaux algorithmes permettant de réduire l’inconfort que certaines personnes ressentent pendant le
visionnage de film en relief.
Il sera intéressant de suivre les évolutions de cette technologie, car la 3D sera un jour dans nos foyers.
Philippe Gourgand – Licence CPTIC - 2010 33
3- Solutions Alternatives : Formats Propriétaires et Open-source
3.1 – VC-1 (Format Propriétaire)
Ce format a été le premier format utilisé par le défunt HD-DVD et les Blu-ray. Il a été développé par
Microsoft.
Il s’agit de l’évolution du format Windows Media Vidéo 9 (WMV) et Windows Media Audio (WMA).
Ces deux formats sont présents nativement dans les systèmes d’exploitation Windows.
Au départ mis sur un même pied d’égalité avec le codec H.264, et profitant de la renommée de Microsoft.
Il a donc été utilisé dans un premier temps.
Même si le VC-1 est encore utilisé, le H264 a fini par s’imposer, car il est plus performant et dispose d’un
taux de compression plus élevé pour une utilisation moins lourde du CPU.
En effet, le VC-1 est de moins en moins utilisé dans les supports commerciaux, au bénéfice du H.264.
Comme on peut le voir sur ce tableau comparatif, les caractéristiques techniques sont assez semblables,
mais le format de chrominance c’est-à-dire le respect des couleurs d’origine de ce format n’offre pas les
mêmes réglages.
Le VC-1 n’accepte que le 4:2:0 or l’industrie du cinéma utilise au minimum le 4:2:2.
Autre inconvénient, son poids pour un fichier de qualité DVD soit 720x576 le débit moyen est de 4Mb/s.
Philippe Gourgand – Licence CPTIC - 2010 34
Et surtout, il ne dispose pas des technologies de codage entropique.
Ce format n’est pas abandonné mais il n’est pas destiné à évoluer à l’heure actuelle.
Voici un aperçu de ce que donne le VC-1 en terme de rendu d’une image contrastée.
Aperçu VC-1 Profil Main :
Philippe Gourgand – Licence CPTIC - 2010 35
3.2 – X.264 (CODEC Alternatif)
Vous l’aurez noté, le nom de ce CODEC est assez proche du format H.264.
C’est tout à fait normal, il s’agit de son pendant Open-Source, celui-ci est basé sur une bibliothèque libre
sous licence GNU, issu d’un projet du groupement VideoLAN en 2008.
Ce n’est pas à proprement parler un format différent, mais un CODEC différent. Il permet d’encoder des
vidéos dans le format H.264.
Il possède les mêmes spécificités que le codec H.264. Toutefois étant libre, il n’est pas soumis aux coûts de la
licence d’exploitation des brevets H.264, lui permettant ainsi d’être implémenté dans différents logiciels
gratuits, offrant ainsi au grand public de pouvoir réaliser des encodages H.264.
Ce format est très souvent présent dans les fichier Matroska (.MKV)
ce sont des transcodages de film en qualité Blu-ray H.264 ayant des débit de 30Mb/s en moyenne.
Le codec x.264 est utilisé pour transcoder ces fichiers, pour les « alléger », leur permettant d’être plus
facilement diffusables !
Celui-ci étant souvent utilisé pour le piratage de film, il est malheureusement associé à cette pratique.
Mettons ici de côté l’aspect illégal de ce process ; le codec est assez performant puisqu’il permet de créer
des fichiers HD en 720p d’environ 4 à 6Go ou des fichiers 1080p d’environ 7 à 9Go au lieu des 30 à 35Go du
fichier d’origine présent sur le Blu-ray, « autorisant » ainsi un utilisateur à publier et diffuser sur internet ces
fichiers de qualité semblable et à les rendre accessibles au plus grand nombre et gratuitement.
Ce codec est présent dans divers programmes souvent gratuits mais pointus, ceux-ci sont souvent utilisables
en « ligne de commande » c’est-à-dire sans interface graphique, donc il est nécessaire de passer par des
commandes souvent difficiles pour les néophytes !
Cependant, il existe un défaut. Il arrive souvent que certains fichiers .MKV ayant été encodés en x.264 soient
« défectueux » :
en effet il n’est pas rare de récupérer un fichier qui pendant sa décompression va rencontrer quelques
problèmes de décomposition, ou simplement de lourdeur.
Ces fichiers sont toujours soumis au besoin de puissance de certaines machines, et certaines scènes peuvent
être plus complexes à décoder du fait de l’utilisation de débit Variable à fortes amplitudes.
De par mon expérience, je n’ai jamais pu visionner un fichier sans saccade ou sans apparition d’artefacts
visuels, de la même qualité que le fichier d’origine dont il est issu.
Philippe Gourgand – Licence CPTIC - 2010 36
Aperçu fichier encodé avec x264
Philippe Gourgand – Licence CPTIC - 2010 37
Un Contexte économique et technologique:
A l’heure du lancement de la technologie HTML 5, c’est-à-dire la dernière version du langage principal du
Web, une bataille fait rage pour définir de nouveaux standards de vidéo sur internet.
Cette nouvelle version apporte de nombreuses innovations, dont UNE nous intéresse en particulier ;
La Balise Vidéo.
Les balises permettent d’ajouter un élément dans une page internet. Celles-ci permettront d’intégrer
directement une vidéo dans une page. Cette vidéo sera décompressée par les CODEC présents dans la
machine (PC, MAC, téléphone….)
La norme HTML actuelle ne permet l’intégration d’une vidéo qu’en passant par un visualisateur, de type
Flash (Adobe) ou Silverlight (Microsoft) si l’on veut que tout le monde puisse la lire. Chaque personne
voulant lire une vidéo, doit obligatoirement installer le logiciel Flash et/ou Silverlight sur son ordinateur et
sur les lecteurs multimédia.
Cette Balise Vidéo, est une grande révolution dans le monde de l’internet, puisqu’il devient plus simple de
mettre en place des solutions de streaming.
Le problème, est de trouver un format « universel » pour l’internet, qui puisse être visionné par tous les
navigateurs, ce sont eux qui permettent le visionnage, en intégrant les différents CODEC nécessaires dans
leur propre code. Alors, trois solutions se présentent :
- Un format de qualité et déjà répandu, mais propriétaire et dont la licence d’exploitation est
couteuse : le AVC/H.264
- Un format moins répandu, mais qui est libre et donc sans aucune licence d’exploitation : le Ogg
Theora
- Une autre alternative, un format rendu libre par Google, le VP8 devenu : WebM
3.3 – Ogg Theora (format open-source)
Il s’agit d’un format de compression vidéo dit « ouvert » ou open-source sans aucun brevet. Le Theora est
développé par la fondation xiph.org, ayant pour but de créer et promouvoir un ensemble de standards
audiovisuels (son et vidéo) ouverts, dont Theora fournit la vidéo.
Le Theora est développé sous Licence BSD, et est fondé sur le format VP3 développé par la société ON2
technologies.
Cette dernière a cédé ses brevets déposés pendant le développement du VP3, pour une utilisation sans
restriction de ces technologies, permettant à chacun d’utiliser le format Theora pour une utilisation privée et
commerciale sans aucune restriction ! Il ne s’agit pas d’un MPEG Open-source, le format Theora utilise ses
propres algorithmes et méthode d’encodages.
Son développement avait pour but principal de concurrencer les formats MPEG-4 et ses déclinaisons (DivX et
XviD), ainsi que le Windows Media Video et le Real Video. Celui-ci est réputé de moindre qualité à bas débit
comparé au format AVC/H.264. Or, en utilisation Internet, il est recommandé d’utiliser des fichiers à bas
débit pour ne pas saturer la bande passante.
Il est dédié à 100% à un usage Internet, c’est-à-dire au visionnement de vidéo en streaming sur des pages
internet, et non à être exploité commercialement et disposé sur support physique Haute Définition.
Philippe Gourgand – Licence CPTIC - 2010 38
Voici un comparatif visuel du même fichier encodé en H.264 et en Theora
Le même fichier (Scott Pilgrim bande Annonce 1080p en Motion JPEG) a été encodé avec le logiciel Gratuit
Handbrake pour les fichiers H.264 et le programme FFmpeg2theora (en ligne de commande) pour le Theora
Temps de travail :
- H.264 : 5minutes
- Ogg Theora : 15 Minutes
Le débit est identique pour les 2 fichiers, 900Kbits. Un débit volontairement bas pour de la Full HD, car nous
pourrons plus facilement voir les différences à l’ œil nu.
L’image sélectionnée affiche un certain contraste de couleur sur son fond avec plusieurs dégradés, ainsi que
plusieurs niveaux de détails complexes (vêtements, visage et cheveux)
On remarque tout de suite un écart important du temps de travail nécessaire au transcodage, preuve que les
algorithmes du format Theora ne sont pas aussi optimisés que celui du format AVC/H.264, qui lui est
pourtant plus complexe.
On distingue très clairement les différences au niveau de ces 3 images, le fait d’avoir utilisé une vidéo en
FullHD (1920x1080) a vraiment permis de faire ressortir les défauts de l’image. Les images sont ici affichées
en taille réelle, une réduction de ces images aurait induit une différence moins probante.
Ce comparatif permet de différencier AVC/H.264 et Ogg Theora, au niveau qualitatif ; à débit égal le Theora
est moins performant, il est plus long à transcoder et son rendu visuel est bien inférieur à celui du H.264
avec ou sans codage entropique CABAC.
Philippe Gourgand – Licence CPTIC - 2010 39
H.264 Sans Codage CABAC
Philippe Gourgand – Licence CPTIC - 2010 40
H.264 avec Codage Entropique CABAC
Philippe Gourgand – Licence CPTIC - 2010 41
Ogg Theora
Philippe Gourgand – Licence CPTIC - 2010 42
3.4 – WebM (VP-8) (Format open-source)
Le format VP8, développé par la société ON2 Technologies, a été racheté par Google en Février 2010.
La firme a indiqué par la suite sa volonté de vouloir « libérer » ce format, en créant un nouveau format vidéo
libre : le WebM.
Ce dernier se base sur le format VP8 pour la vidéo et sur le format Ogg Vorbis pour la partie audio.
Google a profité du contexte difficile actuel, lié à l’acceptation de nouveaux formats de vidéo en streaming
pour l’internet, comme nous l’avons abordé précédemment entre le AVC/H.164 et le Ogg Theora, et leur
intégration native dans les pages internet développées en HTML5.
La licence de WebM, basée sur la célèbre licence BSD, avait été soigneusement étudiée pour éviter toute
attaque sur le terrain de la propriété intellectuelle. Ainsi, tous ceux qui intenteraient des poursuites
judiciaires ou même un soutien à une procédure judiciaire mettant en cause le VP8, se verraient retirer tous
les droits d'utilisation du format. Il s'agit là d'une stratégie ingénieuse : en effet, dans ces conditions, il parait
improbable qu'une société attaque Google.
YouTube, le célèbre site de partage de vidéos, supporte déjà WebM (ce qui n'est pas très étonnant, YouTube
appartenant à Google). DailyMotion, quant à lui, supporte Theora (OGG) et Vimeo, le H.264, mais ils
passeront sûrement bientôt au WebM.
Pour bénéficier du WebM, il faut disposer d'un navigateur compatible, activer la version HTML5 sur
YouTube, par exemple. Pour Windows, il faut simplement télécharger un plugin pour DirectShow, l'API qui
gère la vidéo dans Windows, notamment utilisée par Windows Media Player, pour pouvoir encoder et lire
des vidéos WebM.
Le lecteur multimédia VLC est lui aussi capable de lire le format WebM depuis sa version 1.1.
Le VP8 est reconnu supérieur au format Theora (qui lui-même est une amélioration du VP3, le prédécesseur
du VP8)
Le principal développeur du CODEC alternatif x264, a émis des critiques à l’encontre du VP8 de Google,
selon-lui le VP8 ne disposerait pas d’algorithmes avancés qui eux, sont présents dans le AVC/H.264, comme
le codage arithmétique adaptatif. Ceci ne permettant pas au VP8 d’obtenir des ratios de compression aussi
fort que le H.264.
Aussi, le VP8 étant jeune il n’est pas encore assez optimisé, les processus d’encodage et de décodage sont
actuellement assez lents. Et surtout, le décodage matériel n’est pas encore disponible. Toutefois, on peut
espérer une résolution de ce problème à moyen terme, au vu des nombreux acteurs du marché soutenant ce
codec libre, et les investissements faits par Google.
Philippe Gourgand – Licence CPTIC - 2010 43
Voici un petit comparatif visuel entre le VP8 et l’AVC/H.264
Ces images sont tirées du site www.streamingmedia.com, et de l’article "First Look: H.264 and VP8
Compared »
Philippe Gourgand – Licence CPTIC - 2010 44
Conclusion et Prospective:
Tout au long de mon développement, j’ai voulu démontrer que le format vidéo AVC/H.264 deviendra le
format universel de captation, de production et de diffusion, et pourra s’adapter à tous les usages présents
et futurs.
Ce format sera-t-il réellement la solution aux attentes des utilisateurs (particuliers et
professionnels), en terme de demandes de Qualité Audiovisuelle et d’Accessibilité Universelle ?
Au travers de ce mémoire, nous avons pu mettre en évidence plusieurs contradictions dans cet univers de
vidéo Professionnel et Grand Public.
En premier lieu, l’opposition flagrante du libre et du propriétaire, l’un gratuit l’autre non. Mais leurs
possibilités ne sont pas les mêmes. Idéologiquement, le choix se fait sur l’un ou l’autre des canaux de
diffusion (Internet ou Commercial)
L’Internet étant un « endroit » n’ayant pas ou peu de contrôle et où certains voudraient l’emploi de
technologie à 100% libre, il devient naturel que le libre soit galvanisé par cette dynamique communautaire
qui va de pair avec le libre. Cependant, nous l’avons démontré, le format libre concurrent n’est pas aussi
efficace que son « équivalent » propriétaire !
Un format libre est développé par une communauté d’utilisateurs souvent experts dans leur domaine ; un
format propriétaire est développé dans un laboratoire d’analyse de grands instituts de recherche. Souvent
l’expertise est bien meilleure et le mode de développement est plus efficace, ainsi que les budgets de
développement.
Je ne peux pas juger de la qualité du travail de ces communautés, cependant au résultat final certaines
technologies développées ne peuvent supplanter un travail propriétaire. Dans le cadre d’un usage Internet,
la différence est peu perceptible car les fichiers étant de taille et de résolution plus réduite qu’un fichier
commercial, les défauts apparaissent peu ou pas.
Enfin, nous allons rentrer dans le sujet qui fait débat à l’heure actuelle, le gratuit et le payant.
Internet est un formidable moyen de visionner des vidéos, le streaming a pu apporter la capacité de
visionner un film à tous ceux qui ne peuvent télécharger un fichier complet avec leur bande passante limitée.
Par conséquent, les fichiers transmis en streaming se veulent légers, et un encodage vidéo léger veut dire
petit Bitrate, donc qualité amoindrie.
On peut opposer à cela l’aspect commercial mais qui n’est pas forcément à diaboliser, car tout le monde
achète des DVD, et se met peu à peu à s’équiper en lecteur Blu-ray, et bien sûr si vous disposez d’une
télévision compatible !
Ici, le fichier est « taillé » pour avoir une qualité prémium, un son et une qualité visuelle proche ou identique
au film sorti en salle.
Le message envoyé aux consommateurs est simple, s’il veut de la qualité il doit acheter un fichier Haute
Définition ; il existe certes une alternative avec les fichiers MKV contenant une vidéo au format H.264, mais
ces fichiers sont trop souvent soumis à des erreurs de décompression, comme l’apparition d’artefacts
visuels. D’après moi, ils ne peuvent avoir une réelle valeur pour le consommateur voulant une vraie
expérience audiovisuelle !
Philippe Gourgand – Licence CPTIC - 2010 45
La planète Internet se partage entre deux géants : Google et le consortium MPEG LA qui souhaitent tous les
deux la plus grande part du marché de la diffusion audiovisuelle dans le monde, tous supports confondus.
MPEG LA est propriétaire du format AVC/H.264 (objet central de cette étude) déjà très répandu dans nos
ordinateurs et sur nos sites Internet.
Google, principal moteur de recherche sur Internet est propriétaire de YouTube, le principal portail de
diffusion vidéo sur Internet avec plus de 2 milliards de clips visionnés quotidiennement.
Google annonce aujourd’hui la libération complète des droits sur la technologie du nouveau codec vidéo
de On2 nommé VP8 en ouvrant son code source pour que n’importe quel programmeur puisse l’utiliser. Ceci
aura pour effet de le rendre gratuit à l’utilisation et on devrait voir apparaitre d’ici quelques mois des
applications permettant d’encoder dans ce nouveau format vidéo à qui on a adjoint le format déjà libre de
droits Ogg Vorbis pour la partie audio. Ainsi est né le conteneur WebM.
En face, le consortium MPEG LA renonce, jusqu’à fin 2015 à faire payer systématiquement des licences pour
l'utilisation du format vidéo H.264 sur Internet. A partir de 2016, la redevance sera exigée y compris pour
l'encodage de vidéos gratuites pour l'utilisateur, comme celles proposées sur YouTube ou DailyMotion.
Toutefois, celui-ci a annoncé la gratuité, pour toute la durée de vie de ce format, des droits pour toutes
vidéos publiées sur internet, pour un usage 100% internet.
Ces annonces sont lourdes de sens. Devant un conflit qui met en opposition des intérêts financiers, technologiques et idéologiques considérables, le W3C (World Wide Web Consortium, organisme de standardisation à but non-lucratif, fondé en octobre 1994, chargé de promouvoir la compatibilité des technologies WWW) a refusé de désigner les codecs vidéo standards à utiliser avec le HTML5, qui facilitent l'incrustation de vidéos dans les pages web. Libre ainsi à chaque éditeur de navigateur de choisir les formats qu'il souhaite prendre en charge, et à chaque éditeur de sites web de choisir le ou les formats qu'il souhaite utiliser.
Cette gratuité consentie par le consortium MPEG LA n'est pas vraiment un cadeau, plutôt un piège qui se refermera sur le web et le logiciel libre en 2016, en favorisant par défaut le conteneur WebM de Google. Les intérêts de ces deux géants sont contradictoires dans le sens où Google vend un service complet à valeur ajoutée, alors que MPEG LA vend l’usage (la licence) d’une technologie d’encodage qui sert de support à des services à valeur ajoutée. Les cinq années qui viennent seront décisives pour le format AVC/H.264, et il y a fort à parier que ce sont les partenaires comme Microsoft, Adobe, Mozilla, et des entreprise et services qui n’existent pas encore, qui feront évoluer les stratégies actuelles.
Même si Google réussit à imposer son standard de diffusion, il est fort probable que le format AVC/H.264 ne disparaitra pas aux oubliettes de l’histoire Internet, mais deviendra le format de référence de la Vidéo à la Demande (VoD), de la Télévision Numérique Terrestre (TNT) et d’autres média comme le téléphone ou les tablettes numériques, puisque le format H.264 est associé à la notion de qualité visuelle et de fichiers respectant les normes de diffusion.
Philippe Gourgand – Licence CPTIC - 2010 46
Table des matières
Remerciements.................................................................................................................................................... 1
Introduction : ....................................................................................................................................................... 3
Historique : ...................................................................................................................................................... 4
1 – Description de la Vidéo Numérique et formats de diffusion : ....................................................................... 5
1.1 Notions de Production et Diffusion ........................................................................................................... 5
1.2 Notion de CODEC ....................................................................................................................................... 6
La fonction Codage (Compression): .................................................................................................... 6
La fonction Décodage (Décompression): ............................................................................................ 6
La fonction Transcodage (changement de CODEC) : ........................................................................... 7
1.3 Notions de structure d’un fichier Vidéo .................................................................................................... 9
1.4 Notion de débit de données (Bitrate) ..................................................................................................... 11
2 - Etude Avancée du Format vidéo AVC/H.264 ................................................................................................ 12
2.1 Présentation Technologique ................................................................................................................... 12
2.1.1 Technologie ...................................................................................................................................... 12
2.1.2 Apports et Etude Comparative ......................................................................................................... 21
2.1.3 : Technologies Evolutives de ce format ............................................................................................ 27
3- Solutions Alternatives : Formats Propriétaires et Open-source .................................................................. 33
3.1 – VC-1 (Format Propriétaire) ................................................................................................................... 33
3.2 – X.264 (CODEC Alternatif) ...................................................................................................................... 35
Un Contexte économique et technologique: ................................................................................................ 37
3.3 – Ogg Theora (format open-source) ........................................................................................................ 37
Voici un comparatif visuel du même fichier encodé en H.264 et en Theora ............................................ 38
3.4 – WebM (VP-8) (Format open-source) .................................................................................................... 42
Voici un petit comparatif visuel entre le VP8 et l’AVC/H.264 ................................................................... 43
Conclusion et Prospective: ................................................................................................................................ 44
Annexes : ........................................................................................................................................................... 47
Lexique :......................................................................................................................................................... 47
Bibliographie : ................................................................................................................................................ 50
Notes : ........................................................................................................................................................... 51
Philippe Gourgand – Licence CPTIC - 2010 47
Annexes :
Lexique :
Artefacts visuels : cette terminologie définit une ou un ensemble d’altérations de
l’aspect visuel d’un élément ou une image. En vidéo cela correspond à l’apparition d’éléments mal décomposés lors de la lecture entrainant l’apparition de ces artefacts.
Bande Passante : débit théorique ou disponible de transmission de données sur un
réseau informatique. Indique la capacité électronique de transmission d'un signal, ou d'affichage d'une image, pour un ordinateur ou un matériel de projection (plus large est sa bande passante, plus l'image est détaillée et sa résolution élevée).
Bitrate : le débit binaire est une mesure de la quantité de données numériques transmises par
unité de temps. Il est généralement exprimé en bits par seconde (bit/s, b/s ou bps). Constant Bitrate (CBR) est un terme anglais que l'on peut traduire en français par : « taux d'échantillonnage fixe », en opposition au variable Bitrate (VBR), qui peut se traduire en français par : « taux d'échantillonnage variable »
Broadcast : pouvant se traduire par « Diffuser », et caractérise, dans le milieu de la
technique vidéo ou radiophonique, un enregistrement audio ou vidéo qui respecte les normes de diffusion
professionnelles, que ce soit au niveau de la qualité, du support, du niveau de contraste, etc ...
Chrominance : cela désigne la partie de l'image vidéo correspondant à l'information de
couleur. Il a été indiqué, pour la luminance, que l'information de couleur est fournie à partir de 3 couleurs
primaires : Red, Green et Blue, pour respectivement, le rouge, le vert et le bleu.
Un signal vidéo étant composé d'une part d'information de luminance, il est nécessaire de disposer de deux informations de chrominance pour que les trois informations de couleur (correspondant aux trois couleurs primaires) puissent être reconstituées. Codage entropique : il s’agit d’une méthode de compression sans perte, ayant
pour but de transformer la représentation d’une source de données pour sa compression et sa transmission sur un canal de diffusion. Ce codage utilise des statistiques sur la source pour construire un code. Le codage entropique est issu de la théorie de l'information, et traite de ces codes et de leurs propriétés. L'information à coder est représentée par une variable aléatoire, à valeur dans un alphabet de taille finie.
CPU (Central Processing Unit): pouvant se traduire par « Unité
centrale de traitement » il s’agit du Processeur, le composant de l'ordinateur qui exécute les programmes informatiques. De finition standard : Pour une vidéo de Qualité DVD, la définition standard
est de 720x576 pixel soit 576p. Pour une vidéo Haute définition, la définition standard est de 1280x720 pixels soit 720p. Pour la « vraie » haute définition dite « FullHD », la définition standard est de 1920x1080 pixels soit 1080p. Les appellations 720 et 1080 font référence au nombre de pixels verticaux, pour la hauteur de l’image.
Alors que le p fait référence au terme « progressive » qui s’oppose au i de « interlace » (entrelacé en
français), il s’agit du mode d’affichage d’une vidéo sur un écran.
Philippe Gourgand – Licence CPTIC - 2010 48
Downloading : pouvant se traduire par « Téléchargement », En informatique, le
téléchargement est l’opération de transmission d’informations (programmes, données, images, sons, vidéos) d’un ordinateur à un autre via un canal de transmission, en général internet ou intranet. De nos jours, la notion de téléchargement est très maladroitement associée par abus de langage, uniquement aux téléchargements de fichiers stockés sur disque dur, après un passage par la mémoire vive des ordinateurs. DRM (Digital Right Management) : pouvant se traduire
par « Gestion des Droits Numériques » ayant pour objectif de contrôler l'utilisation qui est faite des œuvres numériques, par des mesures techniques de protection. Ces dispositifs peuvent s'appliquer à tous types de supports numériques physiques (disques, DVD, Blu-ray, logiciels…) ou de transmission (télédiffusion, services Internet…) grâce à un système d'accès conditionnel.
GPU (Graphic Processing Unit) : pouvant se traduire par
« Processeur Graphique », c’est un microprocesseur présent sur les cartes graphiques au sein d’un ordinateur ou d’une console de jeux vidéo. Le processeur graphique se charge des opérations d’affichage et de manipulation de données graphiques. Les processeurs des cartes graphiques modernes (en 2009) ont une structure hautement parallèle qui les rend efficaces pour une large palette de tâches graphiques comme le rendu 3D, en Direct3D, en OpenGL, la gestion de la mémoire vidéo, le traitement du signal vidéo, la décompression Vidéo.
Luminance : Un signal vidéo est habituellement composé de trois signaux correspondant
aux couleurs fondamentales qui sont notées :
R pour le rouge
G pour le vert (green en anglais)
B pour le bleu
On peut par commodité décomposer ce signal en trois autres composantes. La luminance est alors la partie
du signal vidéo correspondant à l'intensité lumineuse produite, soit le niveau entre le noir et le blanc.
La couleur et l'intensité de cette couleur correspondent à l'autre partie du signal, appelées
respectivement chrominance et saturation.
Scalabilite : anglicisme dont la traduction proposée par l'AFNOR serait "échelonnabilité".
Propriété d'un flux vidéo de permettre une transmission et un décodage partiels à un débit évoluant dans un intervalle donné et permettant la restitution d'une résolution ou d'une qualité variables en fonction de ce débit. Ceci s'effectue sans transcodage, le débit total étant celui nécessaire à la plus haute résolution à la plus haute qualité.
Streaming : pouvant se traduire par « lecture en flux ou lecture en continu », désigne un
principe utilisé principalement pour l'envoi de contenu en « direct » (ou en léger différé). Très utilisée sur
Internet, cette technologie permet la lecture d'un flux audio ou vidéo (cas de la vidéo à la demande) à
mesure qu'il est diffusé. Elle s'oppose ainsi à la diffusion par téléchargement de fichiers qui nécessite de
récupérer l'ensemble des données d'un morceau ou d'un extrait vidéo avant de pouvoir l'écouter ou le
regarder. Néanmoins la lecture en continu est, du point de vue théorique, un téléchargement car il y a un
échange de données brutes entre un client et un serveur, mais le stockage est provisoire et n'apparaît pas
directement sous forme de fichier sur le disque dur du destinataire.
Philippe Gourgand – Licence CPTIC - 2010 49
Vide o a la Demande : est entendue comme la mise à disposition des
programmes au consommateur final, à sa demande et à l’heure de son choix, par tous réseaux de
communications électroniques et notamment, via le réseau Internet, par voie hertzienne terrestre, par
câble, par satellite et par réseaux de télécommunications, par tous procédés de diffusion cryptée, tels que
« streaming » (diffusion linéaire) ou « downloading » (téléchargement), et pour visualisation sur tout
matériel de réception, par tout mode de sécurisation, et ce, après paiement d’un prix, pour une
représentation dans le cadre du « cercle de famille » ainsi que dans les circuits fermés (c’est à dire dans une
unité de lieu spécifique accessible au public, telles que les collectivités dans lesquels les usagers effectuent
des séjours temporaires, hôtels et résidences de tourisme, prisons, établissements de santé, bureaux,
armées, les bars, cafés, restaurants et les lieux accueillant du public de passage, notamment les boutiques,
commerces, salles d’attentes, etc.). Le consommateur final ne peut en aucun cas agir sur les images du
programme, ni visionner ce programme sans s’acquitter au préalable d’un droit correspondant aux
conditions commerciales fixées par l’opérateur en cas d’offre payante, ni retransmettre le programme à
destination de tiers par quelque procédé que ce soit. Définition validée par le Centre National de la
Cinématographie (CNC).
Workflow : pouvant se traduire par « Flux de travaux ». On appelle Workflow la modélisation
et la gestion informatique de l'ensemble des tâches à accomplir et des différents acteurs impliqués dans la
réalisation d'un processus métier (aussi appelé processus opérationnel ou bien procédure d'entreprise)
De façon plus pratique, le Workflow décrit le circuit de validation, les tâches à accomplir entre les différents
acteurs d'un processus, les délais, les modes de validation, et fournit à chacun des acteurs les informations
nécessaires pour la réalisation de sa tâche.
Philippe Gourgand – Licence CPTIC - 2010 50
Bibliographie :
Ouvrages de référence :
The H.264 Advanced Video Compression Standard, Second Edition 2010
De Iain E. Richardson
http://www.vcodex.com/h264mpeg4/index.html
Biographie
http://www4.rgu.ac.uk/eng/aboutus/page.cfm?pge=3284
Sites internet :
H.264 AVC
http://www.vcodex.com/h264.html
http://en.wikipedia.org/wiki/H.264/MPEG-4_AVC
http://www.hdfever.fr/2009/03/22/le-h264-le-codec-le-plus-avance-au-monde/#installation
SVC
Site internet Camera Video - Forum
http://www.cameravideo.net/forum/news-de-video/13724-h-264-svc-un-format-unir.html
Site internet Fraunhofer Institut
http://ip.hhi.de/imagecom_G1/savce/index.htm
Article Wikipédia
http://fr.wikipedia.org/wiki/Codage_vidéo_scalable
Dossier France Telecom datant de 2006
http://www.orange.com/fr_FR/innovation/actus/thematique/tous_les_dossiers/att00006850/ddm_200605f
r.pdf
Application d’une technologie SVC concurrente
http://www.hdfever.fr/2010/03/05/smooth-streaming-silverlight-avc-svc-h264-youtube-sous-titre/
tutoriel
http://www.eetimes.com/design/industrial-control/4017613/Tutorial-The-H-264-Scalable-Video-Codec-SVC-
outils d’analyse des fichier SVC - SVC Analyzer 2.0
http://www.svc-analyzer.com/index.php/svc-analyzer-20.html
Ogg Theora:
Site internet Généraliste Ars Technica
http://arstechnica.com/open-source/news/2010/02/ogg-theora-vs-h264-head-to-head-comparisons.ars
Google WebM :
Site Internet « Le site du Zéro »
http://www.siteduzero.com/news-62-36515-google-libere-le-codec-video-vp8.html
Article Wikipédia
http://fr.wikipedia.org/wiki/WebM
Comparatif WebM & Theora
http://www.fansub-streaming.eu/blog/test-webm-vs-theora.html
Blog
http://blog.nicolargo.com/2010/05/encodage-de-video-webm-en-ligne-de-commande.html
Philippe Gourgand – Licence CPTIC - 2010 51
Notes :
Philippe Gourgand – Licence CPTIC - 2010 52
Philippe Gourgand – Licence CPTIC - 2010 53
Résumé :
Au travers de ce mémoire, je vais vous montrer que le format vidéo Advanced Video Coding/H.264
(AVC/H.264 ou h.264) devient le format universel de captation, de production et de diffusion, et s’adapte à
tous les usages présents et futurs.
Ce format est-il réellement la solution aux attentes des utilisateurs (particuliers et professionnels), en
terme de demandes de Qualité Audiovisuelle et d’Accessibilité Universelle ?
Pour répondre à cette problématique, nous devrons comprendre cette technologie, la resituer dans
l’ensemble des formats vidéo numériques existants et ainsi pouvoir en mesurer l’impact sur le futur.
Mots clés :
Video Compression: Il s’agit de la méthode de compression de données, utilisée pour réduire la quantité de données d’un fichier vidéo
(Video et Son). Le but est de trouver le meilleur rapport Poids/Qualité pour ne pas dénaturer une vidéo. Son principal intérêt est de
réduire le poids des fichiers, améliorant aussi la transmission d’informations.
Encodage/transcodage: Le terme « encodage » signifie toute opération de codage d’un objet en données informatiques.
Le transcodage est l’opération par laquelle on passe pour changer le format de codage d’un media (vidéo et audio). Cela permet
d’adapter le format en fonction du support sur lequel il est, stocké, transporté et diffusé.
MPEG-4: Il s’agit d’une norme d’objets audiovisuels définie par le consortium « Moving Picture Experts Group » (MPEG). Cette norme
définit des fichiers pour différents usages (internet, télévision, jeux vidéo…)
AVC (Advanced Video Coding) - H.264: Il s’agit d’une norme de codage vidéo, ayant pour but d’améliorer l’efficacité du codage vidéo
par rapport à d’autres formats. Elle apporte aussi plusieurs technologies permettant un meilleur respect de la qualité d’origine.
Débit (Bitrate) : Le débit est une mesure quantitative, permettant de mesurer les données numériques transmises en ko/s, Mo/s… On
peut aussi l’appeler la « bande passante ». En vidéo, plus le débit est élevé et plus grande sera la qualité !
Scalabilité temporelle, spatiale, qualitative : Le terme « Scalabilité » est un anglicisme désignant l’extensibilité d’un processus, d’un
réseau, d’un système.
En vidéo, ce terme est utilisé pour désigner une opération permettant de modifier l’aspect visuel, la taille et la qualité.
CODEC : Cette appellation vient de « compression-décompression », il s’agit d’un procédé permettant la compression et la
décompression de données numériques. Il peut s’agir d’un outil matériel ou dans notre cas, d’un logiciel.
Philippe Gourgand
Etudiant en Licence Pro « Conduite de Projet TIC dans les PME »
Salarié chez UbicMedia SAS – Europe
Numériseur
Passionné de vidéo et de cinéma
top related