philippe gourgand - etude comparative des technologies d’encodage audio-visuel pour l’internet...

IUT A, Université Claude Bernard, Lyon 1

UbicMedia Europe

[2010]

[Etude comparative des Technologies d’encodage Audio-Visuel pour l’Internet et le Multimedia]

Etude avancée du format de fichier Vidéo numérique AVC/H.264

Philippe Gourgand

Mémoire de Licence Pro Conduite de Projet TIC dans les PME

Tuteur en entreprise : M. Perrin

Enseignant Suiveur : M. Odin

Enseignant Lecteur: Mme. Bureau

Philippe Gourgand – Licence CPTIC - 2010 1

Remerciements

La rédaction de ce mémoire m’a permis de rencontrer des gens nouveaux, qui m’ont apporté beaucoup

d’aide et de soutien dans mes recherches et que je souhaite aujourd’hui remercier.

Tout d’abord, je tiens à remercier Véronique Cohen et l’équipe pédagogique de l’IUT qui m’ont donné envie

d’approfondir les compétences nécessaires pour conduire un projet dans le secteur du multimédia dans une

entreprise, au point de m’amener aujourd’hui à rédiger un mémoire traitant de ce sujet.

Au cours de cette année, une autre personne a fortement influencé mes choix quant à l’orientation de mon

mémoire et à l’intérêt que je porte à tout ce qui touche aux aspects technologiques du secteur du

multimédia. Je souhaite donc ici saluer Alain Rosset PDG d’UbicMedia SAS qui m’a fait confiance en signant

ce contrat d’apprentissage avec moi et qui m’encourage encore après cette année passée ensemble dans

cette direction. Je tiens également à adresser des remerciements sincères à Bertrand Perrin, directeur

technique et maitre d’apprentissage qui m’a apporté une aide précieuse dans la rédaction de ce mémoire.

Je tiens à remercier aussi Lionel Martin qui m’a apporté un regard éclairé (et toutes les documentations

techniques à lire en anglais).

Enfin, je remercie tous ceux qui m’ont apporté leur soutien et leur aide au cours de cette année, ma famille

et plus spécialement mon père, qui a su me soutenir dans mes périodes de doute et sans qui l’achèvement

de ce travail aurait été beaucoup plus difficile, sans oublier ma mère pour son grand sens de l’orthographe...

Mon entreprise

UbicMedia SAS, société fondée en 2006.

Sa principale activité est de développer une solution de protection de contenus vidéo « PUMit » ainsi que de

promouvoir celle-ci. Cette solution requiert de la part de l’ayant droit, de fournir un fichier MPEG-4 (dont

nous parlerons dans l’introduction de ce mémoire), puis une fois le fichier « Pumé » celui-ci devient illisible

et non visionnable pour une personne qui n’aurait pas les droits de visionnage !

Tout en permettant la libre circulation du fichier sur l’Internet, et aux personnes voulant acquérir légalement

les droits de visionnage, de pouvoir faire cette démarche simplement.

Ces fichiers ainsi protégés ne sont accessibles qu’en téléchargement, et non en streaming.

La démarche de ce mémoire, était de promouvoir au sein de l’entreprise, l’adoption d’un nouveau format, le

H.264, dont le sujet de ce mémoire est dédié, dans une optique de fichier téléchargeable et non en

streaming.

Table des matières

Remerciements.................................................................................................................................................... 1

Introduction : ....................................................................................................................................................... 3

Historique : ...................................................................................................................................................... 4

1 – Description de la Vidéo Numérique et formats de diffusion : ....................................................................... 5

1.1 Notions de Production et Diffusion ........................................................................................................... 5

1.2 Notion de CODEC ....................................................................................................................................... 6

La fonction Codage (Compression): .................................................................................................... 6

La fonction Décodage (Décompression): ............................................................................................ 6

La fonction Transcodage (changement de CODEC) : ........................................................................... 7

1.3 Notions de structure d’un fichier Vidéo .................................................................................................... 9

1.4 Notion de débit de données (Bitrate) ..................................................................................................... 11

2 - Etude Avancée du Format vidéo AVC/H.264 ................................................................................................ 12

2.1 Présentation Technologique ................................................................................................................... 12

2.1.1 Technologie ...................................................................................................................................... 12

2.1.2 Apports et Etude Comparative ......................................................................................................... 21

2.1.3 : Technologies Evolutives de ce format ............................................................................................ 27

3- Solutions Alternatives : Formats Propriétaires et Open-source .................................................................. 33

3.1 – VC-1 (Format Propriétaire) ................................................................................................................... 33

3.2 – X.264 (CODEC Alternatif) ...................................................................................................................... 35

Un Contexte économique et technologique: ................................................................................................ 37

3.3 – Ogg Theora (format open-source) ........................................................................................................ 37

Voici un comparatif visuel du même fichier encodé en H.264 et en Theora ............................................ 38

3.4 – WebM (VP-8) (Format open-source) .................................................................................................... 42

Voici un petit comparatif visuel entre le VP8 et l’AVC/H.264 ................................................................... 43

Conclusion et Prospective: ................................................................................................................................ 44

Annexes : ........................................................................................................................................................... 47

Lexique :......................................................................................................................................................... 47

Bibliographie : ................................................................................................................................................ 50

Notes : ........................................................................................................................................................... 51

Introduction :

Chaque jour, lorsque vous allumez votre téléviseur, votre ordinateur, votre téléphone portable, vous

visionnez des clips vidéo, des extraits de films, des émissions de télévision, avec votre Smartphone, votre

caméscope, vous saisissez en vidéo des scènes entre amis.

Chacune de ces vidéos est numérique et diffusée comme tel par l’Internet, les chaines de télévision TNT, les

opérateurs téléphoniques, les sites de diffusion comme YouTube ou DailyMotion et autres supports DVD ou

clés USB.

Pour l’utilisateur final que nous sommes, ces images sont seulement différenciées par le format (hauteur par

largeur) et l’écran de diffusion (petit ou grand) : la notion de « format » importe peu à l’utilisateur puisque

la technologie est là pour afficher presque n’importe quelle image sur n’importe quel écran.

Pourtant, l’utilisateur lambda est familiarisé avec les « formats » du cinéma : Super8mm, 16mm, 35mm,

cinémascope, Panavision, … et les « formats » de la télévision : SECAM en France, PAL en Allemagne, NTSC

aux Etats Unis. Chacun de ces formats évoque des notions de qualité d’image (familiale pour le super8 ou

professionnelle pour le cinémascope), des spécificités géographiques et donc difficilement compatibles entre

les pays : une cassette VHS achetée aux USA ne pouvait être lue sur un magnétoscope français.

Dans le monde du numérique d’aujourd’hui, il en va de même. De multiples « formats » sont apparus pour

fabriquer des photos et des vidéos, l’utilisateur se perd entre les « formats » de prise de vues, de retouche,

de diffusion ou de stockage, et leurs incompatibilités.

Pourtant, une homogénéisation des technologies du numérique est en train de voir le jour :

Quel est le point commun entre les vidéos diffusées par le célèbre site YOUTUBE, le « flash » incontournable

sur Internet, la TNT haute définition et le Blu-ray ?

Le format vidéo Advanced Video Coding/H.264 (AVC/H.264 ou h.264).

Au gré de mes premières expériences professionnelles, j’ai utilisé diverses technologies dans le domaine de

la vidéo et de l’Internet, et dernièrement, au cours de la mission que m’a confiée mon maitre

d’apprentissage, j’ai été amené à étudier ce format dans toutes ces composantes.

L’étude menée depuis un an m’a permis d’appréhender cette technologie dans sa globalité, grâce à tous les

usages que j’ai pu observer et réaliser.

Au travers de ce mémoire, je vais vous montrer que le format vidéo Advanced Video Coding/H.264

(AVC/H.264 ou h.264) devient le format universel de captation, de production et de diffusion, et s’adapte à

tous les usages présents et futurs.

Ce format est-il réellement la solution aux attentes des utilisateurs (particuliers et professionnels), en

terme de demandes de Qualité Audiovisuelle et d’Accessibilité Universelle ?

Pour répondre à cette problématique, nous devrons comprendre cette technologie, la resituer dans

l’ensemble des formats vidéo numériques et ainsi pouvoir en mesurer l’impact sur le futur.

Historique :

En janvier 1988, le Motion Picture Expert Group (MPEG) réunit les experts de l’Organisation Internationale

de Normalisation et la Commission Electrotechnique Internationale (ISO/CEI) pour définir un système

normalisé de codage de contenus cinématographiques, le MPEG-1.

Le MPEG-1 est ainsi la première norme présentée pour les applications multimédia. Elle sera ensuite

complétée par la norme MPEG-2 pour les applications du domaine de la radiodiffusion.

La norme MPEG-2 est structurée en profils et niveaux et, pour chacun d'eux, le débit binaire maximum que

le décodeur doit pouvoir traiter est clairement défini.

Une fois normalisée, MPEG-2 a été très largement utilisée (DVB Norme TV européenne, ATSC Norme TV USA,

DVD, etc.). A l'instar de la plupart des autres méthodes de codage, MPEG-2 définit uniquement la syntaxe du

flux binaire et les caractéristiques du décodeur, laissant aux fabricants le loisir d'appliquer l'algorithme côté

codeur. Pour ces raisons, les codeurs MPEG-2 affichent des performances différentes selon le type

d'algorithme affecté à la compensation de mouvement, les valeurs de la matrice de quantification et le

dispositif de contrôle du débit.

En 1999, apparait le premier successeur de la norme MPEG-2, le MPEG-4, partie 2 publiée par l'ISO.

Comme dans le cas de MPEG-2, l'efficacité du codage est étroitement liée à la complexité du matériel de

source et à la mise en œuvre du codeur. MPEG-4 a été définie pour des applications multimédia à faibles

débits binaires, puis étendue aux applications du domaine de la radiodiffusion. Une évaluation officielle

subjective indique que le codage MPEG-4, partie 2, offre un gain d'efficacité de 200 à 400 % par rapport à

MPEG-2. Ainsi, pour les applications DVB (télévision numérique européenne), ce gain n'est pas suffisant pour

justifier une migration du MPEG-2 vers le MPEG-4, partie 2.

En 2001, soucieuses de mettre au point un système de compression plus efficace, les instances de

normalisation ISO/CIE (MPEG) et l’Union internationale des Télécommunications (UIT) conjuguent leurs

efforts au sein du groupe de travail Joint Video Team (JVT) chargé de développer le système de codage

Advanced Video Coding ou AVC.

En 2003, le système AVC est intégré en tant que partie 10, à la norme MPEG-4 (ISO/ IEC 14496-10) et repris

sous l’appellation H.264 (H.264/AVC (MPEG-4, Part 10)).

En septembre 2004, le consortium DVB modifie la norme TS 101 1542 (Implémentation Guidelines for the

Use of Vidéo and Audio Coding in Broadcasting Applications based on the MPEG-2 Transport Stream) afin d'y

inclure également AVC/H.264.

1 – Description de la Vidéo Numérique et formats de diffusion :

1.1 Notions de Production et Diffusion

Avant de commencer à parler du format H.264 (H.264/AVC (MPEG-4, Part 10), il est primordial d’expliquer

tout d’abord certaines notions, ceci dans le but d’appréhender cette étude de la meilleure manière possible.

On parle de format numérique à partir du moment où un film vidéo est réalisé, en comparaison d’un film

cinéma tourné et monté en Super8, 16mm, 35mm, cinémascope, ou Panavision.

Un film vidéo est tourné avec une caméra numérique et enregistré, soit sur bande magnétique, soit

directement sur disque dur ou carte mémoire. Il est ensuite monté à l’aide de logiciels, appelés éditeurs de

montage vidéo, plus ou moins spécialisés et professionnels, en fonction du niveau d’expertise des personnes

et surtout en fonction de l’objectif de diffusion de l’œuvre : cinéma, télévision, DVD, internet, film de

vacances…

Pour tourner et monter un film vidéo, les constructeurs de matériels et leurs technologies nous obligent à

utiliser différents formats : la caméra enregistre dans un format propre à la captation d’images, à sa

définition standard ou haute, et au support d’enregistrement utilisé par la caméra. Le logiciel de montage,

lui, est capable de monter les images dans différents formats, en fonction de l’usage final qui sera fait du film

vidéo.

Ces différents formats de fichiers vidéo numériques, se classent en deux catégories : les propriétaires,

développés par les constructeurs de caméras, les éditeurs de logiciels de montage et d’effets spéciaux et les

Institutions internationales et Joint-Ventures, comme le Motion Picture Expert Group (MPEG), et les libres

provenant d’Organisations non lucratives de développeurs d’applications et de formats libres de droits.

Il va de soi que les formats dits propriétaires permettent à leurs auteurs de percevoir des royalties à chaque

intégration dans un système d’encodage.

Exemples de formats :

Propriétaires :

- Les différentes normes MPEG : .MPG / .mp4

- Microsoft Windows Media Video : .WMV

- Apple QuickTime : .mov

- Real Video : .rm / .rmvb

Libres :

- Ogg Theora : .ogg

- Dirac Video

Parmi ces formats de fichier, il convient de différencier :

Les formats de captation (production)

utilisés par les caméras Grand Public (DV, HDV, AVCHD), et Professionnel : AVCHD, P2, ProHD,

DVCam, XDCam, HDCam, Digital Betacam.

Format de diffusion

Ce sont les formats de fichier qui sont utilisés le plus souvent en lecture, c’est-à-dire à partir d’un

ordinateur avec un logiciel « Player » particulier, ou sur un téléphone par exemple.

1.2 Notion de CODEC

CODEC est l’abréviation de COmpresseur-DECompresseur. Un codec est une application capable de

compresser et/ou décompresser un signal numérique audio/vidéo en l’encodant et/ou le décodant. Il existe

deux types de CODEC : les CODEC logiciels et les CODEC matériels

On peut comparer le codage d’un film vidéo aux perforations sur le bord d’un film cinéma. Dans les deux cas,

ce processus correspond à la nécessité de « normer » avec précision un format (16/35mm ou MPG1/MPG2,

par exemple) dans le contexte d’un usage précis : projection sur grand écran, sur téléviseur, sur téléphone, …

Il existe de très nombreux codec, dont la plupart sont déjà installés dans les systèmes d’exploitation

(Windows, Mac, Linux, …) des ordinateurs, lecteurs multimédia, téléphones, …

Les Codecs encodent des flux pour la transmission ou le stockage, et d’un autre côté, décodent ces flux

pour l’édition ou la restitution du flux.

La fonction Codage (Compression):

La fonction de codage (ou d’encodage) est la compression de données, ou codage, qui consiste à

transformer une suite de bits A en une suite de bits B plus courte, contenant les mêmes informations, en

utilisant un algorithme particulier. Cette opération de codage, consiste à changer la représentation de

l'information, dans le but de rendre la représentation compressée plus courte que la représentation

originale. La décompression est l'opération inverse de la compression.

La fonction Décodage (Décompression):

La fonction de décodage, ou décompression, est la lecture du fichier numérique audio/vidéo. Pour qu’une

vidéo soit lisible sur un ordinateur ou tout autre lecteur multimédia, il faut donc que le CODEC approprié y

soit installé (et dans le cas d’un CODEC matériel, que soit présente une carte de décompression). On dit

qu’un CODEC est performant en lecture si l’image qu’il affiche est nette, sans saccade et ne consomme pas

abusivement la puissance du processeur. La lecture du fichier numérique audio/vidéo se fait grâce à un

logiciel intégrant le CODEC approprié. Ces applications de lecture sont des logiciels de lecture simple et des

logiciels d'édition : logiciel de montage vidéo, audio, logiciel d'animation, logiciel d’effets, logiciel 3D.

Certains sont de vrais gestionnaires de données multimédia permettant d'acheter des fichiers en ligne et de

gérer les DRM. D'autres sont capables grâce à un moteur de recherche local de cataloguer et organiser ces

données, ils offrent aussi des fonctions plus avancées comme des

réglages de colorimétrie. Ces logiciels utilisent des « players »

pour visualiser le contenu multimédia et permettent la lecture de

métadonnées.

La plupart des formats audio/vidéo numérique se reconnaissent

par la forme de leur enveloppe de transport (on dit que les

formats sont encapsulés), comme le MPG, l’AVI de Microsoft

(Audio Video Interleave) ou le Quicktime (.MOV) d’Apple. Mais

ces enveloppes ne permettent pas d’identifier le CODEC utilisé.

On constate, à l’instar de Google, que Microsoft et Apple

développent en interne leurs propres CODEC et les implantent

dans leurs systèmes d’exploitation.

Au travers de cette étude, nous allons

observer des tests exécutés avec

différents logiciels de transcodage.

Cela ayant pour but de confronter

leurs performances,

aussi bien lors de transcodages que

lors de décodages.

La fonction Transcodage (changement de CODEC) :

Le transcodage, en vidéo et/ou en audio, est le fait de changer le format de codage d’un média en le

comprimant ou l’encapsulant. Le transcodage permet d'adapter le format du média au support sur lequel il

est transporté, stocké ou diffusé. Il est aussi utilisé pour adapter le média aux matériels, aux normes

différentes en vue de son traitement (interopérabilité). On notera qu'il ne s'agit pas d'un codage au sens

strict du terme car le plus souvent la transformation comporte des pertes. Ainsi, le format SVCD par

exemple, permet de faire contenir un film de plus d'une heure sur un support de 650 Mo (CD), au prix d'une

qualité d'image moins bonne qu'un DVD (4,7Go) en raison du codec utilisé pour parvenir à cela : on parle

alors d’un codec destructif. On adaptera donc, soit la qualité du média à une quantité de données

d'information (résolution, finesse des détails) compatible avec le support envisagé au transport, au stockage

ou à la diffusion du média, soit sa quantité d'information véhiculée en modifiant par exemple le nombre

d'images par seconde d'une vidéo, ou en changeant sa définition.

(Schéma de transcodage vers différents supports)

1.3 Notions de structure d’un fichier Vidéo

Un fichier vidéo est composé de plusieurs parties ;

- Le Flux vidéo, cet élément ne contient que les informations nécessaires pour afficher la vidéo.

Le type de flux est déterminé par le CODEC utilisé (COdage /DECodage) Il est aussi défini par le

nombre d’images par secondes (Frame Per Second-FPS). En fonction de l’utilisation voulue, cette

donnée est différente. Le nombre d’images par seconde est défini ainsi :

25 images/sec (Europe) 30 images/sec (USA/ Japon) et 24 images/sec (Cinéma)

- Le Flux audio, cet élément contient la ou les pistes audio incluses dans le fichier vidéo à lire, il

est possible en fonction des spécifications du fichier de contenir plusieurs pistes, comme sur un

DVD par exemple.

- Les fichiers de sous-titres, il s’agit en général de fichiers texte contenant les données spatio-

temporelles permettant de synchroniser les textes avec le film.

- Le conteneur, ou « container » il s’agit d’une « capsule » qui va contenir en son sein le flux vidéo

et le flux audio ainsi que les fichiers de sous-titres ; ainsi que d’autres données comme une

description des flux que contient le conteneur, des métadonnées (auteur, date, etc.), des

chapitrages. Ce conteneur a pour principale utilité de faciliter le transport et la lecture d’un

fichier. Le lecteur va ensuite se charger de séparer les deux flux pour les lire.

Les principaux conteneurs vidéo sont :

- Advanced Streaming Format (extension : .asf) : développé par Microsoft,

- Ogg Media (extension : .ogm) : développé par Xiph.org,

- Windows Media Video (extension : .wmv) : développé par Microsoft,

- Material eXchange Format (extension : .mxf) : standard de la SMPTE,

- Audio Video Interleave (extension : .avi) : développé par Microsoft,

- Matroska (extension : .mkv) : développé par CoreCodec, Inc.,

- NUT Container (extension : .nut) : développé par des développeurs de MPlayer et FFmpeg,

- QuickTime (extension : .mov) : développé par Apple,

- 3gp (extension .3gp ou .3g2) : défini par le 3GPP,

- MPEG 1/2/4 (extension : .mpg ou .mpeg) : codec et conteneur défini par le Moving Picture

Experts Group,

- RealMedia (extension : .rm) : développé par RealNetworks.

Il ne faut pas confondre format et conteneur !

Un conteneur .AVI peut contenir différents formats de fichiers

Chaque fichier vidéo possède un PROFIL, celui-ci correspond à des caractéristiques le destinant à des

applications différentes. Chaque profil a son utilisation finale.

Ce profil est défini lors du processus de transcodage par le logiciel, il est possible d’influer manuellement sur

ces réglages mais cela reste réservé aux utilisateurs expérimentés.

Chaque fichier vidéo possède aussi un NIVEAU (Level), qui lui est propre.

Ce niveau, est une valeur comprise entre 1 (le plus bas) à 5.1 (le plus élevé) correspond à des limitations sur

un certain nombre de paramètres. Cela indique au logiciel de décompression les ressources machine

nécessaires pour décompresser la vidéo. Plus son profil est élevé, et plus sa décompression va requérir de

ressources.

Ces deux notions seront détaillées plus tard, dans la 2ème partie de ce mémoire.

1.4 Notion de débit de données (Bitrate)

Un critère essentiel pour juger de la qualité d’un fichier, est la valeur de son débit de données, appelé le

Bitrate.

Le Flux audio et le flux vidéo ont chacun un débit propre.

Cette donnée est exprimée le plus souvent sous forme de valeur en Kilobit par seconde (Kb/s). Pour les

fichiers de plus grande taille comme des vidéos en Haute Définition (HD) celui-ci peut être exprimé en

Mégabit par seconde (Mb/s)

Il convient généralement de dire, que plus le débit est élevé et plus la qualité du flux est excellente.

Il convient de différencier 2 types de Bitrate en vidéo :

Le Débit Constant (CBR)

Le débit du fichier est fixé à une valeur donnée pour toute la durée de la vidéo et/ou de l’audio. Lors

du processus d’encodage, on attribue une valeur de Bitrate, celle-ci correspond à la qualité que l’on

veut donner au fichier encodé.

En fonction de la définition de la vidéo, c’est-à-dire sa taille, celle-ci est exprimée en pixel, comme la

taille d’un écran d’ordinateur. Plus la définition est importante, plus le Bitrate doit être important, à

l’inverse si celle-ci est réduite, le débit peut être diminué.

Le Débit Variable (VBR)

Le débit fixé n’est qu’une moyenne. Lors de séquences ne nécessitant que peu d’informations la

valeur va être réduite automatiquement en fonction de la charge nécessaire, à l’inverse pour les

séquences complexes, le débit est augmenté.

Ce type de débit a l’avantage certain de rendre un fichier de qualité supérieure. Puisque celui-ci va

s’adapter automatiquement à la complexité de la vidéo.

De plus, les fichiers encodés ont un poids sensiblement inférieur à ceux encodés avec un débit de

type constant. L’amplitude, l’écart entre le début minimum et le débit maximum varie selon les

choix de l’utilisateur ou des paramètres prédéfinis du logiciel. Cet écart peut être extrême sans pour

autant augmenter significativement le poids du fichier.

Exemple : une vidéo Haute Définition aura un Bitrate de 6Mb/s (voir 15Mb/s pour un film commercial)

alors qu’une vidéo pour l’Internet dans une définition plus standard pourra avoir une qualité correcte avec

un débit de 1Mb/S voire 1,5Mb/s si la vidéo est complexe.

2 - Etude Avancée du Format vidéo AVC/H.264

Au travers de ce mémoire, nous allons définir ce qu’est le format Vidéo AVC/H.264, ses utilisations

et ses évolutions.

Comme nous l’avons vu précédemment, le format AVC/H.264 a été conçu pour remplacer les normes

vieillissantes de vidéo aussi bien télévisuelles que cinématographiques.

Dans cet objectif, le consortium chargé de sa normalisation a défini des critères à respecter pour que ce

format soit « viable » et surtout performant pour être en mesure de remplacer la précédente norme MPEG-

Au travers de différents tests et exemple concrets, nous allons observer comment se comporte le format

AVC/H.264 dans ses utilisations, et en quoi ce format répond aux attentes des consommateurs.

Mais tout d’abord, un peu de technique,

Il serait difficile de dire qu’il s’agit d’une étude avancée si nous n’évoquions pas les aspects techniques qui

sont l’essence même du format AVC/H.264.

2.1 Présentation Technologique

2.1.1 Technologie

Au travers de cette partie, nous allons présenter et observer les technologies présentes au sein de ce format,

et pourquoi celui-ci est à même de répondre aux besoins technologiques actuels.

Le Format AVC/H.264 à proprement parler est une norme. Celle-ci comprend différentes technologies qui

doivent être implémentées au sein des différents CODEC AVC/H.264 présents sur le marché.

Avant tout, il faut savoir que lors de l’élaboration de ce format, le consortium MPEG avait inscrit au cahier

des charges que ce nouveau format devrait apporter un gain de qualité théorique de 40% en terme de

rapport « Poids/qualité visuelle » en opposition au format MPEG-4.

Ce format possède différentes technologies lui permettant de compresser plus efficacement les vidéos que

les normes précédentes (ex : MPEG-2 et MPEG-4 part 2 ASP)

Une meilleure compensation des mouvements dans l’utilisation des images déjà encodées comme

références. Le choix de l'image de référence intervient au niveau MacroBloc et sous-MacroBloc. Ceci

permet d'utiliser dans certains cas jusqu'à 32 images de référence. Les précédentes normes étaient

limitées à 2 images de références.

Une précision au quart de pixel pour la compensation de mouvement, ceci permet d’avoir un rendu

plus précis des déplacements des zones mobiles. (Pour la chrominance, la précision de la

compensation de mouvement se fait même au huitième de pixel.)

Un filtrage anti-blocs, ce filtre est appliqué pendant l’opération de transcodage, et a pour but de

réduire les artefacts caractéristiques d’un codage par bloc. (pixellisation)

Un codage Arithmétique (CABAC : Context-Adaptive Binary Arithmétiques Coding) qui est une

technique sophistiquée de codage entropique qui produit d'excellents résultats en terme de

compression mais possède une grande complexité demandant une machine puissante pour être

décodé, (n’est pas disponible dans tous les profils H.264)

Un codage adaptatif de type Huffman à longueur variable (CAVLC : Context-Adaptive Huffman

Variable-Length Coding)

La numérotation des images permet la création de sous-séquences (ceci permet une « Scalabilité

temporelle » que nous étudierons plus tard dans ce mémoire)

Ces technologies, ainsi que plusieurs autres permettent au format AVC/H.264 de « dépasser » les standards

précédents en termes de qualité dans une grande variété de circonstances et dans une grande variété

d'environnements d'application. Cela apporte un nouveau standard en termes de qualité de diffusion.

On remarque que le format AVC/H.264 produit des fichiers dont le « poids » est inférieur à une vidéo

MPEG-2, en obtenant la même qualité avec un Bitrate diminué de moitié, voire plus.

Comparons 2 formats utilisés en utilisation commerciale ;

Prenons un DVD par exemple, celui-ci contient plusieurs fichiers Vidéo encodés en MPEG-2 en 720x576

pixels (576p)

La particularité du DVD est de concaténer la totalité du film en plusieurs fichiers de 1 Go, et ces fichiers sont

dénommés en .VOB. Cela explique pourquoi lorsque l’on visionne un DVD, il peut y avoir une légère coupure

de l’image pendant un bref instant. Cela est dû au changement de « VOB » pendant la lecture.

Le DVD « existant » depuis 1995, et les ordinateurs étant limités à l’époque, il a fallu trouver une astuce pour

réduire la charge du processeur lors de la décompression des films. Depuis, le processeur ne décompresse

plus le MPEG-2, la carte graphique s’occupe de cette tâche.

Un VOB correspond à environ 30 minutes de vidéo, cela est approximatif car dépendant de la qualité visée

par le studio responsable de la production du DVD. De plus, la durée maximale va dépendre de la

technologie de compression utilisée (Compression à débit constant ou variable)

Ce principe est applicable à tous les formats de vidéo et à tous leurs supports.

Donc en MPEG-2 ,576p : 1Go ≈ 30minutes

(MPEG-2 : entre 1 Mbit/s et 15 Mbit/s en définition standard (SD : 720 x 576 pixels en PAL))

Sur un Blu-ray où le format AVC/H.264 est utilisé, il n’y a qu’un seul fichier pour la globalité du film.

Cela ne produit pas de coupure pendant la lecture, mais nécessite un PC relativement puissant ou un

matériel de décompression dédié (lecteur Blu-ray de salon, carte de décompression HD…), aussi du fait de sa

plus grande compression, donc complexité.

Par contre, en AVC/H.264 576p 3Mb/s est recommandé

AVCHD : entre 5 et 24 Mbit/s en 720p et 1080p

Un film H.264 qualité Blu-ray en 1080p peut « peser » jusqu’à 35Go !

Il est difficile pour ce format de donner une valeur de référence pour 30minutes, cela varie en fonction du

matériel de captation ou du logiciel utilisé.

Toutefois, il faut nuancer ces valeurs, car le H.264 utilise la plupart du temps un encodage de type Variable.

Les chiffres donnés ne sont que des moyennes permettant d’afficher une marge suffisante pour permettre

aux CODEC de travailler sur le flux vidéo de manière optimale. Les images ne nécessitant pas du débit

maximum seront bien sûr encodées à un débit moindre, permettant ainsi d’avoir un fichier HD avec un poids

inférieur au 5,2Go nécessaire à un fichier d’1h en 6Mb/s

Concrètement, lors d’un encodage d’une vidéo d’un format vers celui-ci, le CODEC va analyser la vidéo

source. Lors de cette opération le logiciel va analyser image par image les éléments (objets) apparents ainsi

que leurs trajectoires, mais aussi les couleurs des images ainsi que l’aspect de l’image s’il s’agit d’un film en

16/9 ou 4/3, ou encore au format cinéma « anamorphosé » (cinémascope, Panavision,…)

Ensuite, l’opération de transcodage débute, le CODEC va, en fonction de l’analyse, compresser ces images à

l’aide de « MacroBloc » ceux-ci sont des blocs de Pixel de différentes tailles,

Ceux-ci étant généralement désignés ainsi : (16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4)

Plus leur taille sera petite, plus leur précision sera proche de l’originale. La taille de ces blocs est définie à

l’avance par l’analyse de leurs emplacements sur l’image. En effet, une zone contenant du mouvement sera

définie par des MacroBloc de plus petite taille pouvant ainsi reproduire ce mouvement de manière plus

précise. Par différence, une zone ayant peu, ou pas du tout de mouvement sera définie par des MacroBloc

plus « gros » donc moins précis.

Une fois cette opération de transcodage terminée le logiciel va « recoller » les flux Vidéo et Audio dans le

fichier conteneur, on dit qu’il effectue un multiplexage. Lors du transcodage, le logiciel a, nous l’avons dit, ré-

encodé la vidéo, et fait de même avec la ou les différentes pistes son. Car un format comme l’AVC/H.264

peut, au sein du conteneur supporter différents format audio. Exemple : un Blu-ray contient au minimum 2

pistes, la VO et la VF.

(Schéma simplifié du processus d’encodage et de décodage)

Comme nous l’avons vu précédemment, un transcodage peut induire une perte de données, mais certains

formats audio dit « lossless » (sans perte) permettent de bénéficier d’un son de grande qualité.

Une fois multiplexé, le fichier peut être lu à condition de posséder un logiciel pouvant décompresser la vidéo

ou tout autre appareil comme un téléphone compatible ou un lecteur de salon.

A noter, qu’il existe aussi des formats vidéo sans perte, dont principalement le Motion JPEG 2000, qui sera

utilisé plus loin dans ce mémoire.

La contrepartie, est que le format AVC/H.264 peut, dans certaines conditions nécessitant une qualité

maximale, être assez complexe à décompresser et donc à visualiser. Ceci interdit la lecture de film sur des

ordinateurs peu puissants comme les Netbook.

La notion de complexité, veut dire que pour décoder le ou les flux, le traitement nécessitera de la part du

processeur un apport de puissance bien supérieur. Toutefois, il existe une « parade » : les Cartes Graphiques

ou GPU (Graphic Processor Unit). Celles-ci deviennent suffisamment puissantes pour décoder en partie ou

totalement les flux vidéos. Cela permet de laisser le processeur libre pour d’autres opérations. On appelle

cela le DXVA (DirectX Video Acceleration)

Certains Codec (propriétaires) AVC/H.264 ont comme avantage d’être pleinement compatibles avec cette

technologie.

Certains Netbook plus « avancés » possèdent un GPU plus puissant, pouvant décompresser des flux HD. Mais

cela est souvent un argument marketing.

Toutefois, pour une utilisation Internet, les fichiers sont « taillés » pour le streaming, donc de qualité visuelle

inférieure. Le « problème » de complexité ne s’applique pas.

La problématique principale devient alors la « Bande Passante »

Il devient nécessaire d’avoir accès à une connexion Internet à haut débit pour bénéficier de l’affichage de

film en streaming.

(Nous parlons ici de streaming, nous n’aborderons pas l’épineux problème du streaming illégal.)

Le streaming a l’avantage de diffuser des fichiers de qualité inférieure, leur poids est plus faible donc plus

facile à transporter, à télécharger. Un avantage certain pour les personnes qui ne veulent pas télécharger un

fichier complet DVD ou HD. L’ordinateur a toujours le rôle de la décompression, mais la complexité étant

moindre, son travail est facilité. Il est possible à l’heure actuelle de visionner certaines vidéos encodées dans

ce format à l’aide d’un Smartphone, par exemple.

Toutefois, vous êtes tributaire de la technologie Flash de l’éditeur Adobe, car celle-ci a pour rôle

d’acheminer le flux vidéo jusqu’à votre ordinateur.

2.1.1.1 Profils

On appelle « Profils » un ensemble d’outils, principalement des algorithmes et des process liés au codage et

au décodage de vidéo.

Ces outils sont autant d’implémentations qu’il existe de technologies d’optimisation dans le h.264, chaque

profil est défini en fonction des technologies supportées ou non.

Un logiciel d’encodage, a la capacité d’être flexible sur ce point, puisqu’il va en fonction des réglages définis

par l’utilisateur, sélectionner le bon profil, permettant ainsi au décodeur d’adapter son processus de

décodage par rapport au mode de codage préalablement défini.

Il est donc défini lors du processus de transcodage par le logiciel, toutefois il est possible d’influer

manuellement sur ces réglages mais cela reste réservé aux utilisateurs expérimentés.

C’est aussi un moyen de normer les différents fichiers, ceci permettant d’avoir une uniformisation des

fichiers malgré leurs nombreux profils.

Tout fichier possèdera un Profil, le plus généralement le profil « Main » le plus standard

Le profil « Baseline » et « extended » sont utilisés pour le streaming

Le Profil « High » est utilisé pour les fichiers HD et nécessitant une haute qualité.

Le Profil « Intra » est utilisé pour les fichiers produits par les caméras de type professionnel, il permet

l’édition des fichiers HD ou SD dans les logiciels de montage vidéo professionnel.

(Schéma des 3 Profils les plus utilisés et les plus courants)

Ce schéma présente les principales différences entre les profils, présentant leurs technologies et possibilités

Certains Profils ont plusieurs déclinaisons particulièrement le « High » et le « Intra »

Les différences sont souvent minimes mais apportent une ou deux améliorations et optimisations, qui seront

bienvenues pour un usage professionnel et commercial.

(Schéma des profils utilisés par la plupart des logiciels d’encodage professionnels et amateur)

Ce schéma apporte un complément d’information quant à la différenciation des sous profils « Main » et

« High »

(Schéma des Profils utilisés par les studios de Production pour le montage (Intra) et pour une utilisation

commerciale (High))

Ce schéma présente les différenciations entre le profil « Main » et les profils « Intra » utilisé en Production !

2.1.1.2 Levels (Niveaux)

Nous l’avons déjà abordé dans les notions, mais le niveau d’un fichier est un élément très important à

prendre en compte.

Cette Valeur, est déterminée lors de l’encodage du fichier vidéo, et est en rapport avec les différents

éléments qui composent le fichier, plus particulièrement son flux vidéo : sa résolution, son débit (Bitrate) et

surtout son profil.

Cette valeur va de 1 à 5.1 voire dans certains cas, une valeur plus importante allant jusqu’à 5.4.

Celle-ci se trouve dans de rares logiciels spécialisés permettant l’édition de Master 2 K ou 4 K pour le Cinéma

et l’édition de DVD et Blu-ray.

Elle indique au logiciel de décompression les ressources machine nécessaires pour décompresser la vidéo.

Plus son profil est élevé, et plus sa décompression va requérir de ressources.

(Schéma présentant des exemples de profils et niveaux en fonction de la résolution de l’image)

Un profil de niveau 1 par exemple ne pourra s’appliquer qu’à une vidéo de 128×96 pixels a 30images/s

Alors qu’un niveau 3 ne s’applique que pour les vidéos de 720×576 pixels à 25images/s (Qualité DVD)

Vous l’aurez compris pour de la Haute définition, un Blu-ray par exemple doit avoir un niveau plus élevé ; un

niveau 4 est nécessaire, car c’est à partir de ce niveau qu’un fichier est capable de posséder une résolution

aussi importante.

Max macroblocks Max video bit rate (VCL)

Examples for high resolution

frame rate

per second per

BP, XP,

MP HiP Hi10P

Hi422P,

Hi444PP (max stored frames)

(kbit/s) (kbit/s) (kbit/s) (kbit/s)

1 1,485 99 64 80 192 256 128×96@30.9 (8)

176×144@15.0 (4)

1b 1,485 99 128 160 384 512 128×96@30.9 (8)

176×144@15.0 (4)

1.1 3 396 192 240 576 768

176×144@30.3 (9)

320×240@10.0 (3)

352×288@7.5 (2)

1.2 6 396 384 480 1,152 1,536 320×240@20.0 (7)

352×288@15.2 (6)

1.3 11,88 396 768 960 2,304 3,072 320×240@36.0 (7)

352×288@30.0 (6)

2 11,88 396 2 2,5 6 8 320×240@36.0 (7)

352×288@30.0 (6)

2.1 19,8 792 4 5 12 16 352×480@30.0 (7)

352×576@25.0 (6)

2.2 20,25 1,62 4 5 12 16

352×480@30.7(10)

352×576@25.6 (7)

720×480@15.0 (6)

720×576@12.5 (5)

3 40,5 1,62 10 12,5 30 40

352×480@61.4 (12)

352×576@51.1 (10)

720×480@30.0 (6)

720×576@25.0 (5)

3.1 108 3,6 14 17,5 42 56

720×480@80.0 (13)

720×576@66.7 (11)

1280×720@30.0 (5)

3.2 216 5,12 20 25 60 80 1,280×720@60.0 (5)

1,280×1,024@42.2 (4)

4 245,76 8,192 20 25 60 80

1,280×720@68.3 (9)

1,920×1,080@30.1 (4)

2,048×1,024@30.0 (4)

4.1 245,76 8,192 50 62,5 150 200

1,280×720@68.3 (9)

1,920×1,080@30.1 (4)

2,048×1,024@30.0 (4)

4.2 522,24 8,704 50 62,5 150 200 1,920×1,080@64.0 (4)

2,048×1,080@60.0 (4)

5 589,824 22,08 135 168,75 405 540

1,920×1,080@72.3 (13)

2,048×1,024@72.0 (13)

2,048×1,080@67.8 (12)

2,560×1,920@30.7 (5)

3,680×1,536@26.7 (5)

5.1 983,04 36,864 240 300 720 960

1,920×1,080@120.5 (16)

4,096×2,048@30.0 (5)

4,096×2,304@26.7 (5)

2.1.2 Apports et Etude Comparative

Tout d’abord, ce format apporte un gain de place indéniable ; un film encodé en AVC/H.264 « pèse »

beaucoup moins de Megaoctet sur un Disque Dur, en opposition au même film encodé dans un format brut

de production ou un autre format comme le MPEG-2 voire même son prédécesseur le MPEG-4, encore très

utilisé aujourd’hui.

En termes de technique pure, ce format apporte un plus grand respect des chrominances de l’image,

une meilleure précision et compensation du mouvement. C’est principalement pour cela que l’industrie du

cinéma a choisi ce format pour les films Blu-ray ; ce gain de place permet de mettre sur un seul disque le

film en Haute définition, les pistes sons, et différents bonus.

La meilleure manière pour moi de vous démontrer les apports de ce format, est de vous présenter un

comparatif visuel sur une vidéo en Haute Définition, ici le Full HD 1080p.

Nous allons comparer le rendu d’un film (un court extrait) selon différents critères :

- Qualité visuelle psychologique

- Pixellisation

- Poids du fichier

- Charge du processeur lors de la décompression

Nous allons sélectionner un extrait de film, ou plutôt une bande annonce dans laquelle, nous aurons des

séquences ayant des mouvements rapides mais aussi peu de mouvement.

Pour que ce comparatif soit représentatif, toutes les vidéos seront encodées sur le même ordinateur.

(Les temps de travail pouvant varier en fonction de la configuration matériel, d’un ordinateur à un autre.)

La bande annonce retenue est celle du film « Scott Pilgrim VS the world »

L’avantage de cet extrait, est qu’il est assez court (environ 2minutes), qu’il est composé à la fois de scènes

d’action très colorées avec beaucoup de mouvements ainsi que des passages détaillés plus lents.

Les images utilisées, représentent les acteurs Michael Cera, Satya Bhabha et Mary Elizabeth Winstead.

Cette Bande annonce a été récupérée sur un site internet, www.HD-trailers.com.

Elle est au format Full HD soit 1920x1080.

L’avantage d’utiliser une vidéo de cette qualité permet d’avoir beaucoup plus de pixels que sur une Vidéo

qualité DVD en 576p (720x576). Lors d’un comparatif de qualité, cela permet de voir beaucoup plus

facilement à l’œil nu, les défauts et artefacts visuels.

Sa qualité visuelle est la même qu’une version commerciale Blu-ray.

Avant d’effectuer ces tests, nous allons changer le format de cette vidéo, par un format brut, non

compressé.

Le choix a été porté sur le standard de projection du cinéma numérique, le Motion JPEG 2000.

Il s’agit d’un format de vidéo, utilisant le format JPEG, que tout le monde connait, car toutes les images sont

dans ce format. Le MJPEG 2000, encode une vidéo en 25 ou 24, 97 images JPEG par seconde.

Cela a pour avantage de ne perdre aucune information, de créer un fichier totalement parfait

qualitativement, mais extrêmement lourd (700Mo pour environ 2Minutes de films en HD)

Procédure de test : Le fichier ainsi créé est importé dans différents logiciels d’encodage du marché.

Pour être représentatif, nous allons utiliser des logiciels propriétaires payants et d’autres libres et gratuits.

J’ai gardé les réglages par défaut de ces logiciels. Nous pourrions utiliser des milliers de réglages pour

affiner les fichiers finaux. Mais en utilisant les réglages de base, nous utilisons les paramètres utilisés par

monsieur tout le monde.

Image de référence :

Au format JPEG 2000 1920x1080pixels

Poids 711Mo

Débit 39,4Mbits Constant

Utilisation CPU 10%

Logiciel : AVS Video Converter

Transcodage MPEG-4 sans utilisation de B-frame :

Transcodage MPEG-4 avec utilisation de B-frame :

Transcodage H.264 :

4 Min de traitement

Poids 67,7Mo

Débit 3,5Mb/s Variable

Utilisation CPU : 5%

7 Min de traitement

Poids 67,6Mo

8 Min de traitement

Poids 26,6Mo

Logiciel : Main Concept reference

Transcodage MPEG 4 :

Transcodage MPEG 2 HD :

Transcodage VC-1 :

Transcodage H.264 :

6 Min de traitement

Poids 117Mo

4 Min de traitement

Poids 118,7Mo

Débit 6Mb/s Constant

5 Min de traitement

Poids 113,4Mo

Débit 6Mb/s Variable

7 Min de traitement

Poids 111Mo

Débit 6mb/s Constant

Logiciel : Adobe Media Encoder

Transcodage H.264 :

Transcodage MPEG-2 HD :

Transcodage WMV :

24 Min de traitement

Poids 525,8Mo

Débit 28,5Mo Variable

6 Min de traitement

Poids 351,7Mo

Débit 18,5 Variable

25 Min de traitement

Poids 151,5Mo

Débit 8Mo Variable

Logiciel : MediaCoder

Transcodage x.264 :

On remarque tout de suite les disparités de poids, de temps de calcul et d’utilisation du processeur de la

machine.

Ceci est principalement causé par la finalité du logiciel (Professionnel ou Grand public). Si le logiciel est de

type professionnel son temps de traitement va souvent être plus long, car les algorithmes de compression

qui le composent sont plus « méthodiques ».

Dans le cas de notre étude ci-dessus, le logiciel Adobe Media Encoder, est un logiciel Professionnel (il fait

partie d’un Workflow complet Adobe Production).

En fonction de la complexité de la vidéo cela va entrainer un temps et un effort de calcul plus soutenus. De

plus, le logiciel va « normer » le fichier final, c’est-à-dire qu’il crée un fichier de type « Broadcast » prêt à être

diffusé, en étant sûr que le fichier soit respectueux de la norme, mais aussi de sa structure interne, ne

causant ainsi pas d’incompatibilités.

Un logiciel n’ayant pas pour vocation d’être « Broadcast » aura une vocation plus grand public :

transcodage de film de vacances, ou de fichiers à destination d’un baladeur par exemple, ou simplement

publication sur Internet.

La liste de ce type de logiciel est longue ; AVS vidéo Converter, MainConcept Reference, SUPER, Xilisoft

vidéo coder, MediaCoder…

Ceux-ci ont un temps de traitement plus court, en moyenne, car les fichiers traités ont comme finalité d’être

publiés ou utilisés par l’utilisateur dans un cadre familial. En effet ce dernier installe un de ces programmes

souvent gratuit ou à un coût dérisoire, et importe dans celui-ci une liste de fichiers qu’il veut transcoder. Ce

logiciel n’ayant pas pour vocation de faire de la qualité « Broadcast » les fichiers finaux ne sont que trop

rarement « normés », impliquant ainsi le plus souvent des incompatibilités avec certains autres logiciels de

visionnage ou plateforme de publication en ligne.

On peut aussi remarquer que la consommation de ressources processeur durant la lecture varie en fonction

du logiciel utilisé pour créer le fichier H.264. La consommation est dépendante de l’algorithme utilisé pour

le transcodage du fichier, mais aussi de divers paramètres comme son profil et son niveau, comme nous

avons pu le voir précédemment.

Vous pouvez aussi noter les différences de rendu chromatique entre les différents formats !

6 Min de traitement

Poids 22,8Mo

Débit 1,1 Mb/s Variable

2.1.3 : Technologies Evolutives de ce format

2.1.3.1 : Scalable Video Coding (SVC)

Il s’agit du nom donné à une extension du format H.264 développée conjointement par UIT-T et l'ISO. Les

deux groupes ont créé le Joint Video Team (JVT) pour développer la norme H.264,

ou MPEG-4 AVC (ITU-T Rec. H.264 | ISO/IEC 14496-10 AVC).

En octobre 2003, le groupe Moving Picture Experts Group (MPEG) lance un appel à la communauté

scientifique (« Call for Proposals on SVC Technology »). Quatorze projets, dont douze basés sur

la compression par ondelettes, sont proposés. Les deux propositions restantes étant des extensions de

H.264/MPEG-4 AVC. L'une d'elle, proposée par l'équipe image du Heinrich-Hertz-Institut (HHI) est choisie par

MPEG comme point de départ de son projet de standardisation de SVC.

En janvier 2005, les groupes MPEG et Video Coding Experts Group (VCEG) se sont entendus pour finaliser le

projet SVC comme un amendement de leur standard H.264/MPEG-4 AVC.

L'objectif de SVC est d'offrir un contenu échelonnable, dit Scalable, c'est-à-dire que le contenu peut être

encodé une fois, et offrir ensuite différents paliers de qualité en utilisant différents débits.

En Novembre 2008, Google a lancé son nouveau service "Gmail Video chat" qui utilise un codec H.264/SVC.

C'est probablement le premier service à utiliser cette norme pour des applications "grand public".

Le CODEC SVC nécessite l’utilisation de plusieurs couches « Layers », chaque couche va être encodée à

différents débits, celles-ci sont réunies dans un seul et même fichier. Lors du décodage, le lecteur va en

fonction de plusieurs paramètres déterminants, sélectionner la ou les couches pouvant être lues et surtout

sélectionner en priorité celle qui possède le plus fort ratio Qualité/Poids, pour permettre à l’utilisateur

d’avoir la meilleure expérience possible.

Ces différents paramètres sont :

- La vitesse de Connexion internet pour une lecture en Streaming.

- La puissance de décodage de la machine ou de l’appareil mobile qui effectue la décompression.

- La résolution maximale de l’écran.

Le logiciel chargé de la décompression va automatiquement adapter le décodage en fonction de ces

paramètres, et peut même le faire à la volée. Exemple, vous visionnez un film en streaming, et au même

moment un membre de la famille commence le téléchargement d’un fichier de grande taille.

Automatiquement la qualité de la vidéo va diminuer, pour adapter son Bitrate en fonction de la bande

passante disponible sur votre ligne.

Autre exemple, vous téléchargez un film encodé en SVC et le donnez à un ami, celui-ci n’a sûrement pas le

même matériel que vous (ordinateur, télévision, lecteur…). Or pendant la lecture le logiciel va adapter le

fichier à son écran plus grand que le vôtre par exemple en utilisant le layer FullHD 1080p alors que vous

utilisiez le layer 720p.

Ceci peut être applicable à toutes les situations, le fichier ne peut plus être pris en défaut.

Plus de cas où votre PC n’est pas assez puissant pour décompresser un flux.

Hypothétiquement, le fichier peut être lu depuis un téléphone mobile avec son petit écran ou depuis un

Home Cinéma FullHD 1080p voire plus !

Cela dépend du nombre de couches de Scalabilité utilisées.

Mais la question du poids du fichier ?

On pourrait penser que de cumuler des couches implique le cumul du poids de toutes celles-ci.

Or ce n’est pas le cas. Grace à des algorithmes, certaines zones de l’image affichée sont partagées à toutes

les couches. Mais certes le poids du fichier est bien sûr supérieur à un fichier « simple », il est estimé

théoriquement a un surpoids de 40% au minimum.

Il y a 3 grands Principes de Scalabilité :

- Scalabilité temporelle :

Chaque vidéo possède un nombre d’image par seconde différent, 24 au cinéma, 25 à la télévision

française, 29,97 aux Etats Unis… Le concept de Scalabilité temporelle permet pour une même vidéo

de changer ce paramètre sans détériorer le rendu visuel final de la vidéo.

Cependant celle-ci pourra se retrouver accélérée, comme passer de 24 images par seconde pour un

film en salle et 25 images pour sa version DVD. Et croyez-moi, il y aura une différence au niveau du

son, souvent plus aigu !

- Scalabilité Spatiale :

Ce concept permet de changer la taille, la résolution d’une vidéo. Lorsque vous agrandissez une

vidéo dans un lecteur, vous ne faites que grossir les pixels de cette vidéo. On appelle ceci une

« interpolation de pixel », la preuve en est que si vous possédez une télévision HD, et que vous

visionnez un film DVD, vous verrez apparaitre des artefacts visuels. Les pixels ont été grossis ainsi

que les défauts. Or la Scalabilité permet grâce à certains algorithmes d’encodage de passer d’une

résolution moyenne à une résolution plus grande sans avoir une pareille détérioration.

- Scalabilité Qualitative :

Cela consiste à rajouter des couches de détails lors de l’encodage du fichier, celle-ci ne seront lues

que si cela est nécessaire, en augmentant le Bitrate de la bande passante dans le cas d’un fichier lu

en streaming. Microsoft a implémenté cette technologie au sein de sa technologie de diffusion

Internet « Silverlight ».

Démonstration accessible à cette adresse :

http://www.iis.net/media/experiencesmoothstreaming

Mais aussi en fonction de la résolution de votre écran !

(Schéma propriété de l’institut Fraunhofer, montrant visuellement les 3 types de Scalabilité)

Ce schéma montre de façon concrète, les 3 types de Scalabilité existantes. La modification de la cadence

d’image, l’augmentation ou la réduction de la résolution d’une vidéo, ainsi que l’augmentation ou la baisse

de qualité à la volée.

(Schéma représentant le cas où l’on voulait créer différents fichiers pour différents types de bandes

passantes)

En temps normal il est recommandé d’encoder un fichier pour un usage spécifique, une version DVD et une

version HD, ce que font par exemple les services de Video à la demande (VOD) comme il en existe des

dizaines en France. Il est de plus en plus possible de trouver des services proposant différentes versions de

fichiers pour des supports tels que des consoles de jeux PSP de Sony et iPhone/iPod touch d’Apple.

(Schéma de la technologie SVC et des connexions entre chaque Layer)

Voici la situation qui pourrait se produire dans quelques années, lorsque cette technologie se sera

développée. Un seul fichier lisible partout et surtout différents supports.

Cette technologie permettrait, vous l’avez compris, de se passer du versionnement des fichiers ; un fichier

global pouvant être visionné partout à la fois ! C’est à la fois ce qui fait la force de ce format extrêmement

flexible, mais aussi sa faiblesse, car pour rendre ce fichier accessible au plus grand nombre, il sera surement

nécessaire de tirer la qualité vers le bas.

Cependant, la taille du fichier augmentant de manière significative, la question suivante peut être posée :

vaut-il mieux posséder plusieurs fichiers pour tous les différents moyens de diffusion, ou uniformiser le

tout ?

2.1.3.2: Multi-View Video Coding (MVC)

Il s’agit de la technologie utilisée pour apporter le cinéma en 3 Dimensions à domicile et au cinéma.

Comme pour la technologie SVC, le MVC est une extension du H.264. Cette technologie a été créée pour le

codage stéréoscopique (l’image en relief) à partir de 2 points de vue. Cette norme a été finalisée en Juin

2009 et est depuis devenue le standard utilisé dans les « Blu-ray 3D » qui commencent à arriver dans le

commerce.

Lors de l’établissement de cette norme, un critère essentiel a été respecté : la rétrocompatibilité avec le

format H.264.

En effet, le MVC est composé de 2 images mises « côte à côte », comme les 2 images que vos yeux

perçoivent, la gauche et la droite, votre cerveau restitue l’image en 3 Dimensions. Dans notre cas, le logiciel

de décompression, va restituer cette « 3D » avec un peu d’aide.

A l’heure où j’écris ce mémoire, il est quasiment impossible de regarder une vidéo en 3D avec nos seuls

yeux !

Si vous êtes allés au cinéma récemment voir un film en Relief stéréoscopiques, il vous a fallu des lunettes.

Ces lunettes sont dites « actives », les 2 verres sont polarisés à la lumière, c’est-à-dire que le verre gauche ne

va laisser filtrer que l’image gauche. Et inversement pour l’image droite.

Mais une vidéo est une succession de 24 images pour le cinéma, 25, 30 voir bien plus pour le reste.

(Informatique, jeux…)

Pour créer cette impression de relief les lunettes vont chacune à leur tour occulter l’image droite puis

l’image gauche…. A très haute vitesse bien entendu ! Au cinéma, cela se produira donc 24 fois par seconde,

et comme chaque image possède 2 points de vue, un film « 3D » au cinéma doit afficher 48 images par

seconde.

La stéréoscopie ne s’attaque pas exclusivement au cinéma mais aussi au domaine du jeu vidéo, dans ce cas

les contraintes techniques sont plus lourdes, un jeu ne se contente pas d’afficher 25 images par seconde, et

comme l’image est générée par un écran il est estimé que pour avoir une image fluide il est nécessaire de

produire au minimum 30 images par secondes dit « FPS » (Frame Per Second) soit au minimum 60 Fps du fait

de la 3D.

Pour en revenir au format MVC, celui-ci est capable d’afficher jusqu’à 3 points de vue de la même image,

En utilisant 2 de ces images nous obtenons un rendu « stéréoscopique » mais si nous utilisons ces 3 images

nous obtenons un rendu dit en 3 dimensions, une réalité virtuelle.

Pour créer un fichier en MVC, il est donc nécessaire d’utiliser une caméra « stéréoscopiques » avec 2 ou 3

objectifs, celles-ci sont pour l’heure utilisées dans l’industrie du cinéma exclusivement. Ensuite, il faut utiliser

un logiciel d’encodage qui va utiliser les algorithmes de ce format pour convertir les 2 images en fichier

pouvant être visionné par l’utilisateur.

Il existe 2 méthodes de positionnement des images :

- La méthode séquentielle (Sequential)

Les images sont ici présentés une à une, la gauche puis la droite….

Les lunettes vont s’occuper d’occulter les images qui ne correspondent pas.

L’avantage de cette méthode est que chaque image arrive dans sa résolution maximale

- Méthode côte à côte (Side-by-Side)

Les images arrivent ici côte à côte, le logiciel de décompression va se charger de n’afficher qu’une image, en

réunissant les 2 images à l’aide des lunettes. L’inconvénient est que pour une vidéo d’une résolution donnée,

les images sont ici côte à côte, donc lors du visionnage on perd 50% de la taille de l’image.

Cette technologie n’apporte pas vraiment de révolution mais permet cependant d’apporter la 3D

stéréoscopique. Mais pour le moment le port obligatoire de lunettes et l’achat de matériels compatibles en

sont les principaux freins.

Le problème du port de lunettes a de fortes chances d’être corrigé, certains acteurs du marché travaillent

sur des écrans « 3 dimensions » ne nécessitant pas de lunettes, et d’autres comme Disney travaillent sur de

nouveaux algorithmes permettant de réduire l’inconfort que certaines personnes ressentent pendant le

visionnage de film en relief.

Il sera intéressant de suivre les évolutions de cette technologie, car la 3D sera un jour dans nos foyers.

3- Solutions Alternatives : Formats Propriétaires et Open-source

3.1 – VC-1 (Format Propriétaire)

Ce format a été le premier format utilisé par le défunt HD-DVD et les Blu-ray. Il a été développé par

Microsoft.

Il s’agit de l’évolution du format Windows Media Vidéo 9 (WMV) et Windows Media Audio (WMA).

Ces deux formats sont présents nativement dans les systèmes d’exploitation Windows.

Au départ mis sur un même pied d’égalité avec le codec H.264, et profitant de la renommée de Microsoft.

Il a donc été utilisé dans un premier temps.

Même si le VC-1 est encore utilisé, le H264 a fini par s’imposer, car il est plus performant et dispose d’un

taux de compression plus élevé pour une utilisation moins lourde du CPU.

En effet, le VC-1 est de moins en moins utilisé dans les supports commerciaux, au bénéfice du H.264.

Comme on peut le voir sur ce tableau comparatif, les caractéristiques techniques sont assez semblables,

mais le format de chrominance c’est-à-dire le respect des couleurs d’origine de ce format n’offre pas les

mêmes réglages.

Le VC-1 n’accepte que le 4:2:0 or l’industrie du cinéma utilise au minimum le 4:2:2.

Autre inconvénient, son poids pour un fichier de qualité DVD soit 720x576 le débit moyen est de 4Mb/s.

Et surtout, il ne dispose pas des technologies de codage entropique.

Ce format n’est pas abandonné mais il n’est pas destiné à évoluer à l’heure actuelle.

Voici un aperçu de ce que donne le VC-1 en terme de rendu d’une image contrastée.

Aperçu VC-1 Profil Main :

3.2 – X.264 (CODEC Alternatif)

Vous l’aurez noté, le nom de ce CODEC est assez proche du format H.264.

C’est tout à fait normal, il s’agit de son pendant Open-Source, celui-ci est basé sur une bibliothèque libre

sous licence GNU, issu d’un projet du groupement VideoLAN en 2008.

Ce n’est pas à proprement parler un format différent, mais un CODEC différent. Il permet d’encoder des

vidéos dans le format H.264.

Il possède les mêmes spécificités que le codec H.264. Toutefois étant libre, il n’est pas soumis aux coûts de la

licence d’exploitation des brevets H.264, lui permettant ainsi d’être implémenté dans différents logiciels

gratuits, offrant ainsi au grand public de pouvoir réaliser des encodages H.264.

Ce format est très souvent présent dans les fichier Matroska (.MKV)

ce sont des transcodages de film en qualité Blu-ray H.264 ayant des débit de 30Mb/s en moyenne.

Le codec x.264 est utilisé pour transcoder ces fichiers, pour les « alléger », leur permettant d’être plus

facilement diffusables !

Celui-ci étant souvent utilisé pour le piratage de film, il est malheureusement associé à cette pratique.

Mettons ici de côté l’aspect illégal de ce process ; le codec est assez performant puisqu’il permet de créer

des fichiers HD en 720p d’environ 4 à 6Go ou des fichiers 1080p d’environ 7 à 9Go au lieu des 30 à 35Go du

fichier d’origine présent sur le Blu-ray, « autorisant » ainsi un utilisateur à publier et diffuser sur internet ces

fichiers de qualité semblable et à les rendre accessibles au plus grand nombre et gratuitement.

Ce codec est présent dans divers programmes souvent gratuits mais pointus, ceux-ci sont souvent utilisables

en « ligne de commande » c’est-à-dire sans interface graphique, donc il est nécessaire de passer par des

commandes souvent difficiles pour les néophytes !

Cependant, il existe un défaut. Il arrive souvent que certains fichiers .MKV ayant été encodés en x.264 soient

« défectueux » :

en effet il n’est pas rare de récupérer un fichier qui pendant sa décompression va rencontrer quelques

problèmes de décomposition, ou simplement de lourdeur.

Ces fichiers sont toujours soumis au besoin de puissance de certaines machines, et certaines scènes peuvent

être plus complexes à décoder du fait de l’utilisation de débit Variable à fortes amplitudes.

De par mon expérience, je n’ai jamais pu visionner un fichier sans saccade ou sans apparition d’artefacts

visuels, de la même qualité que le fichier d’origine dont il est issu.

Aperçu fichier encodé avec x264

Un Contexte économique et technologique:

A l’heure du lancement de la technologie HTML 5, c’est-à-dire la dernière version du langage principal du

Web, une bataille fait rage pour définir de nouveaux standards de vidéo sur internet.

Cette nouvelle version apporte de nombreuses innovations, dont UNE nous intéresse en particulier ;

La Balise Vidéo.

Les balises permettent d’ajouter un élément dans une page internet. Celles-ci permettront d’intégrer

directement une vidéo dans une page. Cette vidéo sera décompressée par les CODEC présents dans la

machine (PC, MAC, téléphone….)

La norme HTML actuelle ne permet l’intégration d’une vidéo qu’en passant par un visualisateur, de type

Flash (Adobe) ou Silverlight (Microsoft) si l’on veut que tout le monde puisse la lire. Chaque personne

voulant lire une vidéo, doit obligatoirement installer le logiciel Flash et/ou Silverlight sur son ordinateur et

sur les lecteurs multimédia.

Cette Balise Vidéo, est une grande révolution dans le monde de l’internet, puisqu’il devient plus simple de

mettre en place des solutions de streaming.

Le problème, est de trouver un format « universel » pour l’internet, qui puisse être visionné par tous les

navigateurs, ce sont eux qui permettent le visionnage, en intégrant les différents CODEC nécessaires dans

leur propre code. Alors, trois solutions se présentent :

- Un format de qualité et déjà répandu, mais propriétaire et dont la licence d’exploitation est

couteuse : le AVC/H.264

- Un format moins répandu, mais qui est libre et donc sans aucune licence d’exploitation : le Ogg

Theora

- Une autre alternative, un format rendu libre par Google, le VP8 devenu : WebM

3.3 – Ogg Theora (format open-source)

Il s’agit d’un format de compression vidéo dit « ouvert » ou open-source sans aucun brevet. Le Theora est

développé par la fondation xiph.org, ayant pour but de créer et promouvoir un ensemble de standards

audiovisuels (son et vidéo) ouverts, dont Theora fournit la vidéo.

Le Theora est développé sous Licence BSD, et est fondé sur le format VP3 développé par la société ON2

technologies.

Cette dernière a cédé ses brevets déposés pendant le développement du VP3, pour une utilisation sans

restriction de ces technologies, permettant à chacun d’utiliser le format Theora pour une utilisation privée et

commerciale sans aucune restriction ! Il ne s’agit pas d’un MPEG Open-source, le format Theora utilise ses

propres algorithmes et méthode d’encodages.

Son développement avait pour but principal de concurrencer les formats MPEG-4 et ses déclinaisons (DivX et

XviD), ainsi que le Windows Media Video et le Real Video. Celui-ci est réputé de moindre qualité à bas débit

comparé au format AVC/H.264. Or, en utilisation Internet, il est recommandé d’utiliser des fichiers à bas

débit pour ne pas saturer la bande passante.

Il est dédié à 100% à un usage Internet, c’est-à-dire au visionnement de vidéo en streaming sur des pages

internet, et non à être exploité commercialement et disposé sur support physique Haute Définition.

Voici un comparatif visuel du même fichier encodé en H.264 et en Theora

Le même fichier (Scott Pilgrim bande Annonce 1080p en Motion JPEG) a été encodé avec le logiciel Gratuit

Handbrake pour les fichiers H.264 et le programme FFmpeg2theora (en ligne de commande) pour le Theora

Temps de travail :

- H.264 : 5minutes

- Ogg Theora : 15 Minutes

Le débit est identique pour les 2 fichiers, 900Kbits. Un débit volontairement bas pour de la Full HD, car nous

pourrons plus facilement voir les différences à l’ œil nu.

L’image sélectionnée affiche un certain contraste de couleur sur son fond avec plusieurs dégradés, ainsi que

plusieurs niveaux de détails complexes (vêtements, visage et cheveux)

On remarque tout de suite un écart important du temps de travail nécessaire au transcodage, preuve que les

algorithmes du format Theora ne sont pas aussi optimisés que celui du format AVC/H.264, qui lui est

pourtant plus complexe.

On distingue très clairement les différences au niveau de ces 3 images, le fait d’avoir utilisé une vidéo en

FullHD (1920x1080) a vraiment permis de faire ressortir les défauts de l’image. Les images sont ici affichées

en taille réelle, une réduction de ces images aurait induit une différence moins probante.

Ce comparatif permet de différencier AVC/H.264 et Ogg Theora, au niveau qualitatif ; à débit égal le Theora

est moins performant, il est plus long à transcoder et son rendu visuel est bien inférieur à celui du H.264

avec ou sans codage entropique CABAC.

H.264 Sans Codage CABAC

H.264 avec Codage Entropique CABAC

Ogg Theora

3.4 – WebM (VP-8) (Format open-source)

Le format VP8, développé par la société ON2 Technologies, a été racheté par Google en Février 2010.

La firme a indiqué par la suite sa volonté de vouloir « libérer » ce format, en créant un nouveau format vidéo

libre : le WebM.

Ce dernier se base sur le format VP8 pour la vidéo et sur le format Ogg Vorbis pour la partie audio.

Google a profité du contexte difficile actuel, lié à l’acceptation de nouveaux formats de vidéo en streaming

pour l’internet, comme nous l’avons abordé précédemment entre le AVC/H.164 et le Ogg Theora, et leur

intégration native dans les pages internet développées en HTML5.

La licence de WebM, basée sur la célèbre licence BSD, avait été soigneusement étudiée pour éviter toute

attaque sur le terrain de la propriété intellectuelle. Ainsi, tous ceux qui intenteraient des poursuites

judiciaires ou même un soutien à une procédure judiciaire mettant en cause le VP8, se verraient retirer tous

les droits d'utilisation du format. Il s'agit là d'une stratégie ingénieuse : en effet, dans ces conditions, il parait

improbable qu'une société attaque Google.

YouTube, le célèbre site de partage de vidéos, supporte déjà WebM (ce qui n'est pas très étonnant, YouTube

appartenant à Google). DailyMotion, quant à lui, supporte Theora (OGG) et Vimeo, le H.264, mais ils

passeront sûrement bientôt au WebM.

Pour bénéficier du WebM, il faut disposer d'un navigateur compatible, activer la version HTML5 sur

YouTube, par exemple. Pour Windows, il faut simplement télécharger un plugin pour DirectShow, l'API qui

gère la vidéo dans Windows, notamment utilisée par Windows Media Player, pour pouvoir encoder et lire

des vidéos WebM.

Le lecteur multimédia VLC est lui aussi capable de lire le format WebM depuis sa version 1.1.

Le VP8 est reconnu supérieur au format Theora (qui lui-même est une amélioration du VP3, le prédécesseur

du VP8)

Le principal développeur du CODEC alternatif x264, a émis des critiques à l’encontre du VP8 de Google,

selon-lui le VP8 ne disposerait pas d’algorithmes avancés qui eux, sont présents dans le AVC/H.264, comme

le codage arithmétique adaptatif. Ceci ne permettant pas au VP8 d’obtenir des ratios de compression aussi

fort que le H.264.

Aussi, le VP8 étant jeune il n’est pas encore assez optimisé, les processus d’encodage et de décodage sont

actuellement assez lents. Et surtout, le décodage matériel n’est pas encore disponible. Toutefois, on peut

espérer une résolution de ce problème à moyen terme, au vu des nombreux acteurs du marché soutenant ce

codec libre, et les investissements faits par Google.

Voici un petit comparatif visuel entre le VP8 et l’AVC/H.264

Ces images sont tirées du site www.streamingmedia.com, et de l’article "First Look: H.264 and VP8

Compared »

Conclusion et Prospective:

Tout au long de mon développement, j’ai voulu démontrer que le format vidéo AVC/H.264 deviendra le

format universel de captation, de production et de diffusion, et pourra s’adapter à tous les usages présents

et futurs.

Ce format sera-t-il réellement la solution aux attentes des utilisateurs (particuliers et

professionnels), en terme de demandes de Qualité Audiovisuelle et d’Accessibilité Universelle ?

Au travers de ce mémoire, nous avons pu mettre en évidence plusieurs contradictions dans cet univers de

vidéo Professionnel et Grand Public.

En premier lieu, l’opposition flagrante du libre et du propriétaire, l’un gratuit l’autre non. Mais leurs

possibilités ne sont pas les mêmes. Idéologiquement, le choix se fait sur l’un ou l’autre des canaux de

diffusion (Internet ou Commercial)

L’Internet étant un « endroit » n’ayant pas ou peu de contrôle et où certains voudraient l’emploi de

technologie à 100% libre, il devient naturel que le libre soit galvanisé par cette dynamique communautaire

qui va de pair avec le libre. Cependant, nous l’avons démontré, le format libre concurrent n’est pas aussi

efficace que son « équivalent » propriétaire !

Un format libre est développé par une communauté d’utilisateurs souvent experts dans leur domaine ; un

format propriétaire est développé dans un laboratoire d’analyse de grands instituts de recherche. Souvent

l’expertise est bien meilleure et le mode de développement est plus efficace, ainsi que les budgets de

développement.

Je ne peux pas juger de la qualité du travail de ces communautés, cependant au résultat final certaines

technologies développées ne peuvent supplanter un travail propriétaire. Dans le cadre d’un usage Internet,

la différence est peu perceptible car les fichiers étant de taille et de résolution plus réduite qu’un fichier

commercial, les défauts apparaissent peu ou pas.

Enfin, nous allons rentrer dans le sujet qui fait débat à l’heure actuelle, le gratuit et le payant.

Internet est un formidable moyen de visionner des vidéos, le streaming a pu apporter la capacité de

visionner un film à tous ceux qui ne peuvent télécharger un fichier complet avec leur bande passante limitée.

Par conséquent, les fichiers transmis en streaming se veulent légers, et un encodage vidéo léger veut dire

petit Bitrate, donc qualité amoindrie.

On peut opposer à cela l’aspect commercial mais qui n’est pas forcément à diaboliser, car tout le monde

achète des DVD, et se met peu à peu à s’équiper en lecteur Blu-ray, et bien sûr si vous disposez d’une

télévision compatible !

Ici, le fichier est « taillé » pour avoir une qualité prémium, un son et une qualité visuelle proche ou identique

au film sorti en salle.

Le message envoyé aux consommateurs est simple, s’il veut de la qualité il doit acheter un fichier Haute

Définition ; il existe certes une alternative avec les fichiers MKV contenant une vidéo au format H.264, mais

ces fichiers sont trop souvent soumis à des erreurs de décompression, comme l’apparition d’artefacts

visuels. D’après moi, ils ne peuvent avoir une réelle valeur pour le consommateur voulant une vraie

expérience audiovisuelle !

La planète Internet se partage entre deux géants : Google et le consortium MPEG LA qui souhaitent tous les

deux la plus grande part du marché de la diffusion audiovisuelle dans le monde, tous supports confondus.

MPEG LA est propriétaire du format AVC/H.264 (objet central de cette étude) déjà très répandu dans nos

ordinateurs et sur nos sites Internet.

Google, principal moteur de recherche sur Internet est propriétaire de YouTube, le principal portail de

diffusion vidéo sur Internet avec plus de 2 milliards de clips visionnés quotidiennement.

Google annonce aujourd’hui la libération complète des droits sur la technologie du nouveau codec vidéo

de On2 nommé VP8 en ouvrant son code source pour que n’importe quel programmeur puisse l’utiliser. Ceci

aura pour effet de le rendre gratuit à l’utilisation et on devrait voir apparaitre d’ici quelques mois des

applications permettant d’encoder dans ce nouveau format vidéo à qui on a adjoint le format déjà libre de

droits Ogg Vorbis pour la partie audio. Ainsi est né le conteneur WebM.

En face, le consortium MPEG LA renonce, jusqu’à fin 2015 à faire payer systématiquement des licences pour

l'utilisation du format vidéo H.264 sur Internet. A partir de 2016, la redevance sera exigée y compris pour

l'encodage de vidéos gratuites pour l'utilisateur, comme celles proposées sur YouTube ou DailyMotion.

Toutefois, celui-ci a annoncé la gratuité, pour toute la durée de vie de ce format, des droits pour toutes

vidéos publiées sur internet, pour un usage 100% internet.

Ces annonces sont lourdes de sens. Devant un conflit qui met en opposition des intérêts financiers, technologiques et idéologiques considérables, le W3C (World Wide Web Consortium, organisme de standardisation à but non-lucratif, fondé en octobre 1994, chargé de promouvoir la compatibilité des technologies WWW) a refusé de désigner les codecs vidéo standards à utiliser avec le HTML5, qui facilitent l'incrustation de vidéos dans les pages web. Libre ainsi à chaque éditeur de navigateur de choisir les formats qu'il souhaite prendre en charge, et à chaque éditeur de sites web de choisir le ou les formats qu'il souhaite utiliser.

Cette gratuité consentie par le consortium MPEG LA n'est pas vraiment un cadeau, plutôt un piège qui se refermera sur le web et le logiciel libre en 2016, en favorisant par défaut le conteneur WebM de Google. Les intérêts de ces deux géants sont contradictoires dans le sens où Google vend un service complet à valeur ajoutée, alors que MPEG LA vend l’usage (la licence) d’une technologie d’encodage qui sert de support à des services à valeur ajoutée. Les cinq années qui viennent seront décisives pour le format AVC/H.264, et il y a fort à parier que ce sont les partenaires comme Microsoft, Adobe, Mozilla, et des entreprise et services qui n’existent pas encore, qui feront évoluer les stratégies actuelles.

Même si Google réussit à imposer son standard de diffusion, il est fort probable que le format AVC/H.264 ne disparaitra pas aux oubliettes de l’histoire Internet, mais deviendra le format de référence de la Vidéo à la Demande (VoD), de la Télévision Numérique Terrestre (TNT) et d’autres média comme le téléphone ou les tablettes numériques, puisque le format H.264 est associé à la notion de qualité visuelle et de fichiers respectant les normes de diffusion.