[HOME PAGE] [STORES] [CLASSICISTRANIERI.COM] [FOTO] [YOUTUBE CHANNEL]

Compensació de moviment - Viquipèdia

Compensació de moviment

De Viquipèdia

Icona de copyedit
Nota: L'article necessita algunes millores en el seu format:
(Cal retirar la plantilla un cop millorat l'article)
Pot necessitar retocs en; negretes, enllaços, capçaleres, imatges, categories, interwikis, ...
tipografia i codificació


La compensació de moviment és una tècnica utilitzada en la codificació de vídeo, el principal objectiu de la qual consisteix en eliminar la redundància temporal existent entre les imatges que componen una seqüència, amb la finalitat d'augmentar la compressió.

El procés es basa en un algoritme que examina la successió de fotogrames consecutius, generalment molt similars entre sí, per analitzar i estimar el moviment entre els dos. Si el sistema detecta que una regió de la imatge ja ha aparegut anteriorment, codifica la posició que ocupa en el fotograma actual enlloc de tornar a codificar tota la regió.

D'aquesta manera, la predicció de la imatge actual vindrà donada per la compensació de moviment basant-se en les imatges anteriors.

Taula de continguts

[edita] Codificador basat en detecció de moviment

Hi ha diverses tècniques per eliminar la redundància temporal en una seqüència d'imatges, però la majoria actuen seguint el següent esquema:

  1. Cada imatge es divideix en blocs, generalment de 8 x 8 o de 16 x 16 píxels.
  2. Per cada bloc de la imatge, es genera una predicció, buscant on es trobaven aquests blocs en la imatge anterior (compensació de moviment).
  3. Es resta la predicció al bloc de la imatge actual.
  4. S'aplica una DCT a la diferència entre la predicció i el bloc actual.
  5. Es quantifiquen els coeficients DCT, eliminant les components d'altes freqüències i es codifiquen mitjançant un codi, generalment no-uniforme.
  6. En cas que no hi hagués fotograma previ o hi hagués molta diferència, es codifica el bloc de nou enlloc de la diferència de la predicció.

Normalment els blocs s'agrupen en macroblocs per reduir el cost computacional: blocs més grans significa que hi ha menys blocs a preveure.
Realment la predicció (compensació de moviment) es realitza sobre els macroblocs: es calcula el vector de moviment de cada element dins el macrobloc

Així, per cada fotograma es guarden:

  • El resultat d'aplicar la DCT i la quantificació a cada bloc diferència.
  • Els vectors de moviment dels elements de dins els macroblocs.
  • S'aplica un filtre a la DCT per eliminar les components d'alta freqüència i augmentar la compressió.

[edita] Tractament dels fotogrames

La compressió anterior es pot aplicar als fotogrames de dues maneres:

  • Compressió intrafotograma

La DCT s'aplica a blocs de la imatge original però no es fa cap predicció sobre el moviment (la compressió és similar a les imatges JPEG). S'anomenen fotogrames I.
Aquesta compressió és útil si la compensació de moviment no proporciona una bona predicció.

  • Compressió no-intrafotograma

La DCT s'aplica als blocs de la imatge diferència i es calcula la predicció de moviment.
Es generaran dos tipus de fotogrames: els P i els B

[edita] Accés a una seqüència d'imatges:

Si només es codifiquessin les prediccions, no es podria tenir un accés aleatori ja que per accedir a una determinada imatge caldria calcular les prediccions de totes les anteriors. D'altra banda un error en un fotograma es propagaria a tots els posteriors. És per això que es combinen tres tipus de fotogrames en la seqüència:

  • Fotogrames I (intra)

Es codifiquen aïlladament, sense referència a altres fotogrames, com si fossin imatges estàtiques. Serveixen per permetre un accés aleatori i impedir la propagació d'errors.

  • Fotogrames P (predictius)

Es codifiquen aplicant compensació de moviment a l'últim fotograma I o P (el que sigui més recent). Els fotogrames I i P s'anomenen fotogrames d'ancoratge.

  • Fotogrames B (bidireccionalment predictius)

Es codifiquen aplicant compensació de moviment als dos fotogrames d'ancoratge més recents en el passat i en el futur.
Amb la predicció bidireccional es sol aconseguir una millor relació de compressió que amb prediccions basades només en el passat: és possible que un bloc del fotograma actual no aparegui en un fotograma passat però sí en un de futur.
Només es poden crear després que s'hagin creat els fotogrames I i P. També toleren més error perquè no es fan servir per fer prediccions.

[edita] Agrupació de fotogrames: GOP

Generalment els fotogrames s'agrupen en un Grup de Fotogrames, un GOP (Group of Pictures). Es tracta de la unitat d'accés aleatori més petita. En el seu interior hi trobem:

  • Un fotograma I (el primer).
  • Un o varis fotogrames P.
  • Varis fotogrames B intercalats.

El més típic és trobar 12 fotogrames en un GOP, però el codificador pot canviar-ho dinàmicament. En el cas de detectar un canvi d’escena, forçaria un fotograma I que donaria inici a un nou GOP.

Així podríem ordenar la seqüència de fotogrames des de dos punts de vista diferents:

  • Ordre de visualització, com ho veu l'usuari.
  • Ordre de bitstream, com es generen els fotogrames.

S'explica en la següent taula:

Ordre de visualització
I B B P B B P B B P B B I
1 2 3 4 5 6 7 8 9 10 11 12 13
Ordre de bitstream
I P B B P B B P B B I B B
1 4 2 3 7 5 6 10 8 9 13 11 12

[edita] Característiques particulars dels formats que utilitzen compensació de moviment:

MPEG1

Data del 1993, amb una taxa d’entre 1 i 2 Mbps. Utilitza blocs de 8x8 píxels.
Estava pensat específicament per emmagatzematge digital en CD (VCD), amb una qualitat similar al VHS de l’època. Només permet codificació progressiva.

MPEG2

Data del 1995, amb un taxa d’entre 4 i 20 Mbps.
Aporta una millora de qualitat i és genèric, independent de l’aplicació. Permet codificació entrellaçada i diferents modes de macroblocs. S’utilitza en DVD, cable digital, TDT ...

MPEG4

Tracta les escenes com una col·lecció d’objectes (fons estàtic, rostres, ...) on cada un es codifica independentment generant bitstreams.

MPEG7

Inclou descripció de continguts multimèdia per paraules clau i per significats semàntic (qui, que, quan, on) i/o estructural (formes, colors, textures, moviment, sons). Aquest material audiovisual és indexat i ens permet executar recerques amb facilitat.