Característiques i formats de vídeo

El vídeo digital té diversos atributs, alguns propis de les imatges en moviment, com el tamany del fotograma, o la cadència de fotogrames; d’altres són propis dels arxius informàtics, com la compressió de dades digitals o el bit rate. D’aquesta “unió”, sorgeixen els arxius de vídeo; cada format de vídeo presenta una configuració concreta de valors de cadascuna d’aquestes característiques.

Edició lineal i no lineal

Quan encara es treballava el vídeo amb tecnologia analògica i en suport de cinta magnètica, l’edició es feia amb dos magnetoscopis: un, anomenat reproductor o player, reproduïa la cinta amb les imatges que havia enregistrat la càmera, i l’altre anomenat gravador o recorder, gravava el senyal que sortia del primer. El muntatge es construïa a la cinta del gravador gravant-hi ordenadament i linealment els fragments exactes que es reproduïen en el player. Si, per exemple, un cop acabada l’edició es volia afegir un pla a la meitat de la peça, s’havia de refer el muntatge des d’aquell punt fins al final. Aquest procediment es coneix com a edició lineal.

En canvi, l’edició per ordinador, independentment del programari que es faci servir, permet inserir o eliminar plans en qualsevol punt del projecte sense que s’hagi de refer la resta; i encara més: es pot començar editant les escenes finals d’una pel·lícula, per més endavant muntar el segon acte i després el primer. Al final del procés d’aquest exemple, s’arranjarien les diferents peces en l’ordre en què les hauria de veure l’espectador. Això és el que es coneix com a edició no-lineal, però més sovint és anomenada per les seves sigles en anglès: NLE (Non-Linear Editing).

A diferència d’altres característiques i processos de vídeo, que el món digital ha heretat de l’época analògica, l’edició lineal ha quedat totalment en desús, però és interessant conèixer el concepte per entendre perquè a l’edició per ordinador també se la coneix com a edició no-lineal.

Característiques del vídeo digital

És necessari comprendre les característiques pròpies del vídeo digital per assegurar la millor qualitat durant el procés de postproducció; aquestes són: la resolució o tamany de quadre, la relació d’aspecte, la cadència de fotogrames i les que tenen a veure amb els mètodes d’escaneig o exploració.

Resolució o tamany de quadre

En imatge de vídeo, la resolució fa referència al tamany de quadre, és a dir, les dimensions horitzontal i vertical del fotograma.

Inicialment, el vídeo digital es va basar en els sistemes de transmissió de senyal de televisió analògica. Els dos formats principals són:

El sistema PAL, utilitzat a la majoria d’Europa. Té una resolució de 720 píxels d’amplada per 576 píxels d’alçada.
El sistema NTSC, utilitzat a Estats Units i Japó, entre d’altres. Té una resolució de 720 píxels d’amplada per 480 píxels d’alçada.

Amb l’aparició de l’alta definició (HD, de l’anglès High Definition), aquests dos estàndards de vídeo es van passar a conèixer com a definició estàndard (SD, de l’anglès Standard Definition).

De formats HD n’hi ha de diversos tipus, però els més comuns són:

720p, amb una resolució de 1280 píxels d’amplada per 720 píxels d’alçada.
1080p, també anomenat Full HD, amb una resolució de 1920 píxels d’amplada per 1080 píxels d’alçada.
2K, amb una resolució de 2048 píxels d’amplada per 1080 píxels d’alçada.
4K, també anomenat Ultra HD o UHD, amb una resolució de 3840 píxels d’amplada per 2160 píxels d’alçada.

Relació d’aspecte

La relació d’aspecte és la proporció entre l’amplada i l’alçada del quadre.

El vídeo SD té una proporció de 4:3, és a dir, lleugerament rectangular però gairebé quadrada. En canvi, en tamanys HD i superiors les proporcions de les imatges i, per extensió, de la pantalla són 16:9, que és una proporció rectangular (vegeu la figura).

Figura Relació d’aspecte de diversos formats de vídeo

Cadència de fotogrames

Ja es tracti d’una pel·lícula projectada al cinema, d’un vídeo de YouTube o d’un GIF compartit a les xarxes socials, les imatges en moviment estan compostes de moltes imatges estàtiques que passen tan ràpidament davant dels nostres ulls que creen la il·lusió de moviment (vegeu la figura).

Figura “Cavall en moviment” d’Eadweard Muybridge (1878)

Font: Wikipedia.

Cadascuna d’aquestes imatges també rep el nom de quadre, fotograma o frame. En l’àmbit cinematogràfic s’acostuma a fer servir el terme fotograma, mentre que al món del vídeo s’ha adoptat la paraula anglesa frame, però en tot moment s’està parlant del mateix concepte.

La cadència de fotogrames indica quantes imatges es projecten a cada segon, i s’expresa amb la abreviatura fps (fotogrames per segon, de l’anglès frames per second). A la cadència de fotogrames també se l’anomena taxa, freqüència o velocitat de fotogrames, frame rate, o directament fotogrames per segon.

El cervell humà pot processar de 10 a 12 imatges separades per segon i percebre-les com imatges individuals. Una quantitat superior a 12 imatges per segon es percep com moviment. El cinema va començar a velocitats de 16 i 18 fps, però amb la irrupció del so va augmentar fins a 24 fps, que continua sent la velocitat actual a la que es filmen i es projecten les pel·lícules.

Pel que respecta al vídeo, en tractar-se de tecnologia totalment electrònica, es va adaptar la velocitat de fotogrames a la freqüència de la xarxa elèctrica:

A Europa la freqüència de la xarxa elèctrica és de 50 Hz (50 cicles per segon) i per això la velocitat del vídeo en el sistema PAL, el sistema analògic d’emissió de vídeo a Europa, és de 25 fps; és a dir, cada 2 cicles del corrent elèctric hi ha un fotograma.
En el cas d’Estats Units i Japó, el vídeo analògic es distribuïa en el sistema NTSC i la freqüència de la xarxa elèctrica és de 60 Hz, però per un reajustament tècnic la cadència de fotogrames no és exactament de 30 fps sinó de 29,97 fps.

Quan el vídeo només funcionaba en sistema PAL o NTSC, tot el procés, des de la gravació fins a la recepció al televisor, havia de ser en un dels dos sistemes: una càmera domèstica només podia gravar a 25 fps, però és que el televisor només podia mostrar imatges a 25 fps.

La tecnologia digital ha heretat les tres velocitats estandaritzades: la del cinema, 24, i les dues de vídeo, 25 i 29,97. Així que a les càmeres es pot escollir entre diferents velocitats a l’hora de gravar. Els televisors per la seva banda, s’adapten a la velocitat que tingui la peça que emeten. A més, les càmeres afegeixen la possibilitat de gravar a 48, 50 o 59,94 fps per poder realitzar càmeres lentes de millor qualitat en postproducció.

No obstant, s’ha de tenir en compte que, quan es realitza un projecte, tot ha d’estar gravat o generat a la mateixa velocitat, perquè quan s’edita la peça, tot i que inclogui fragments de múltiples vídeos de diversa procedència i característiques, el resultat final només pot tenir un tamany de quadre i una velocitat de fotogrames; de manera que si, per exemple, s’escull gravar a 25 fps, tot ha d’estar a 25 fps i així s’eviten que en determinats moments els fotogrames saltin o es congelin a l’hora d’ajustar una velocitat a una altra; i en el cas de voler fer càmeres lentes, la velocitat haurà de ser de 50 fps i no cap altra.

Mètodes d’escaneig o exploració

Una altra característica dels sistemes analògics de vídeo és l’exploració de la pantalla en línies horitzontals (de dreta a esquerra i de dalt a baix) que feien les antigues pantalles de tub per reconstruir la imatge.

Aquesta exploració consistia en un feix d’electrons impactant a la cara interior de la pantalla, amb diferent intensitat al llarg del recorregut de la línia. Aquesta intensitat es traduïa en zones més lluminoses o més fosques. El problema estava en que s’havia de mantenir la llum que havia impactat (fos molta o poca) fins que s’arribés a construir la imatge sencera, és a dir, el fotograma. El recubriment fosforescent que tenia la pantalla per dintre permetia retenir la llum impactada fins a mitja imatge, però desprès es perdia; i això provocava unes imatges parpallejants.

Per solucionar això, en lloc de fer l’escaneig de les línies consecutiu i en ordre (després de fer la primera fer la segona, i després la tercera, i la quarta …); es va optar per dividir el fotograma en dos blocs de línies anomenats camps: camp senar (amb les línies 1, 3, 5…) i camp parell (amb les línies 2, 4, 6…). És el que es coneix com a escaneig entrellaçat (vegeu la figura).

Font: PeloWisky. Foto: Sergi Verdeguer. (Wikipedia)

Amb tecnologia digital i pantalles planes això ja no és un problema, i es pot fer l’escaneig progressiu (és a dir, fer totes les línies ordenadament des de la primera fins a la última). La tendència actual és la de treballar en progressiu, tot i que alguns formats digitals han adoptat l’escaneig entrellaçat.

La referència als dos mètodes d’escaneig, s’expressa per escrit; mitjançant una “i” minúscula per a l’entrellaçat (de l’anglès Interlaced) i una “p”, també en minúscula, per al progressiu (de l’anglès Progressive).

Codi de temps

Durant el rodatge, sigui en cinta analògica, digital o en càmera tapeless (sense cinta), juntament amb el vídeo, s’enregistra una senyal que identifica de manera única cada fotograma amb un codi temporal, anomenat codi de temps.

Durant l’edició, el codi de temps permet identificar múltiples aspectes del vídeo, com ara la seva duració o quin fragment s’ha fet servir en el muntatge. El codi de temps té un format d’hores, minuts, segons i fotogrames, llegits d’esquerra a dreta. Per exemple “01:21:47:04”, correspon a: 1 hora, 21 minuts, 47 segons i 4 fotogrames.

De la mateixa manera que un minut té 60 segons, i quan s’està en 1 minut amb segon 59, al segon següent passem a estar a 2 minuts 0 segons (perque es compta desde 0 fins a 59, que en total són 60), amb els frames passa el mateix (Vegeu la figura), si el vídeo es reprodueix a 25 fps, quan estem al codi de temps “00:02:00:24” (2 minuts amb 24 frames), al avançar un frame, es passa a estar al codi “00:02:01:00” (2 minuts i 1 segon exactes).

'Drop frame' i 'Non-drop frame'

Comptar 24 o 25 frames exactes cada segon és molt fàcil, el problema ve quan el codi de temps ens ha de mostrar que a cada segon hi ha 29,97 frames. Per comoditat, es compten fotogrames sencers a cada segon, així que quan un vídeo va a 29,97 s’arrodoneix a 30 fps i així es compta, però realment va a 29,97 (perquè aquesta velocitat es va sincronitzar amb la freqüencia de la xarxa elèctrica). I és aquí on entren els dos tipus de formats de codi de temps:

El drop frame o ‘fotograma eliminat’
El non-drop frame o ‘sense fotograma eliminat’

Per comptar frames “a mitges” el format preferible i més emprat és el drop-frame (amb “pèrdua” de fotograma). Sabem que estem fent servir aquest format quan la separació entre els segons i els frames és mitjançant punt i coma (;) en lloc dels dos punts; tot i que hi ha programes, com ara Premiere Pro, que per a codis de temps drop-frame separen totes les parelles de xifres amb el punt i coma.

Comptant amb aquest arrodoniment, es dona un decalatge de 0,03 fotogrames que s’acumula de segon en segon. Per compensar-ho i que sigui correcta la lectura del temps que ha transcorregut, el fotograma incial de cada minut no s’indica amb el fotograma 00, sinó que es numera com a fotograma 02. És a dir: quan el codi de temps és “00;00;59;29” i s’avança al fotograma següent, el codi de temps passarà a ser “00;01;00;02” (vegeu la figura). Ha de quedar molt clar que el salt d’aquests dos frames és a l’hora de comptar-los i numerar-los al codi de temps, però que en cap moment es perd cap imatge.

Figura ‘Drop frame’: pèrdua de fotograma cada segon

Però aquesta compensació tampoc és perfecta i a la llarga el codi informaria que ha passat més temps del que realment ha transcorregut. És per això que hi ha una segona compensació, on cada 10 minuts sí que es llegueixen els frames 00 i 01; és a dir, que si el codi de temps és “00;09;59;29”, quan s’avança un fotograma es passa al codi “00;10;00;00” (vegeu la figura).

Figura ‘Drop frame’: compensació cada 10 minuts

Per la seva banda, el codi de temps en format non-drop frame, es mostra amb dos punts entre les parelles de xifres i mostra la lectura de temps com si el vídeo realment fos a 30 fps, i a l’hora de comptar els frames no se’n salta cap. És a dir, que després del 29 sempre vindrà el 00, incrementant-se el temps en un segon.

Això implica que cada 10 minuts de vídeo, la lectura del codi de temps está endarrerida 18 frames respecte a la realitat, de manera que cada 50 minuts s’endarrereix 3 segons, és a dir, quan el codi de temps marca “00:50:00:00”, en realitat es tracta de “00;50;03;00” (vegeu la figura).

Compressió

Per poder editar vídeo en un ordinador, les imatges que capta l’òptica de la càmera han de convertir-se en un arxiu informàtic. Aquesta digitalització de les imatges consisteix en “extreure” el valor numéric de la intensitat lumínica de cada píxel.

Donat que les imatges són en color, per cada píxel no s’ha de comptar un únic canal de llum sinó tres, corresponents als tres colors bàsics: vermell, verd i blau, més coneguts per les seves sigles en anglés: RGB. Els tres canals al màxim de llum alhora, donen com a resultat el color blanc, l’absència de llum als tres dona com a resultat el negre, i les múltiples combinacions dels canals a diferents intensitat cadascún permet aconseguir un rang molt ampli de colors (vegeu la figura).

Font: László Németh (Wikipedia)

Perquè a cada canal hi hagi molts passos intermitjos entre l’absència de llum i el màxim de llum, i fer així que l’increment de llum sigui el més progressiu possible, s’asignen com a mínim 8 bits a cada canal (les càmeres d’alta gama assignen 10 i fins i tot 12 bits per canal). Amb 8 bits s’obté un ventall de 256 nivells, on 0 és la foscor i 255 és la luminositat màxima per aquell canal (vegeu la figura).

Figura Passos intermitjos del nivell d’intensitat dels canals RGB

Fent comptes, per cada píxel hi hauria 24 bits (8 bits x 3 canals = 24 bits) i, per tant, un sol fotograma de vídeo a Full HD tindria un pes de 49.766.400 bits (24 bits/píxel x 1920 píxels d’amplada x 1080 píxels d’alçada = 49.766.400 bits), que equivalen a 6,22 Megabytes (MB). Si el vídeo s’hagués gravat a 25 fps, cada segon ocuparia al disc 155,52 MB (25 fotogrames x 6,22 MB = 155,52 MB) i, per tant, un minut pesaria 9331,2 MB (60 segons x 155,52 MB = 9331,2 MB), o el que és el mateix: 9,3312 Gigabytes (GB).

Això és inviable, tant per emmagatzemar la informació com perquè l’ordinador pugui llegir totes aquestes dades per segon (més l’audio, més els efectes aplicats, i el propi programari d’edició i el sisema operatiu de l’ordinador). Així doncs, la informació s’ha de comprimir per reduir la seva mida.

Un còdec (terme format per la contracció de les paraules en anglès Compression and Decompression) és un conjunt d’instruccions que estableixen el mode en què un element s’ha de comprimir i descomprimir. Es tracta d’un algoritme que evalua les dades de l’element (com ara una imatge o un vídeo), descartant les dades redundants i mantenint només els valors imprescindibles; després, aquest mateix algoritme permet reconstruir la informació original amb les dades clau prèviament conservades.

Exemple de com funciona un còdec

En una imatge d’una posta de sol amb un cel vermellós on hi ha cent píxels del mateix color vermell, només emmagatzema aquest valor una vegada i no cent vegades (compressió); a l’hora de mostrar-ho en pantalla, reconstrueix els noranta-nou píxels a partir del valor que sí ha emmagatzemat (descompressió).

Hi ha dues tècniques de compressió bàsiques (vegeu la figura):

La compressió sense pèrdua. Es parla de compressió sense pèrdua quan en descomprimir la imatge aquesta és igual a la imatge sense comprimir. Els nivells de compressió són reduïts, però no es produeix pèrdua de qualitat.
La compressió amb pèrdua descarta informació i utilitza aproximacions inexactes. Els nivells de compressió són alts, però degrada la qualitat.

Foto: Mike Aunzo (Unsplash)

Compressió de vídeo digital

Es parla de compressió espacial o intraframe quan la compressió (i posterior descompressió) de les dades es fa individualment per cada fotograma, sense que hi hagi relació dels uns amb els altres.

A la naturalesa del vídeo, però, està la successió constant d’imatges. La compressió temporal o interframe no comprimeix els fotogrames de forma aïllada, sinó en grups d’imatges, anomenats GOPs (de l’anglès Group Of Pictures). El número de fotogrames arranjats per GOP depèn del còdec. El GOP de la figura, per exemple, és de 9 fotogrames.

Cada GOP conté tres tipus de fotogrames:

I-Frame. És la primera imatge d’un GOP i és l’única que està completa, comprimida espacialment. És l’imatge de referència per a la compressió dels P-Frames i B-Frames.
P-Frame. Registra les diferències de l’I-Frame o P-Frames que el precedeixen.
B-Frame. Reconstrueix la imatge en base a la informació que hi ha als fotogrames anteriors i posteriors a ells, ja siguin I-Frames o P-Frames.

Aquest tipus de fotogrames es poden combinar de diferents maneres dins del GOP segons el còdec. A la figura podeu veure l’estructura més habitual: I-B-B-P.

Wikipedia

La compressió interframe (temporal) acosegueix pesos d’arxiu molt més petits que la compressió intraframe (espacial), ja que tècnicament no guarda fotogrames, sinó les diferències entre els fotogrames (vegeu la figura). Per aquest motiu la gran majoria de les càmeres domèstiques i semi-professionals utilitzen còdecs amb aquest tipus de compressió, ja que permeten gravar molts més minuts a les targetes SD o Compact Flash.

Un còdec interframe d’ús molt extès és l’MPEG-2, propi dels DVDs. El còdec H.264, propi de formats de distribució com Blu-ray i plataformes de serveis d’allotjament de vídeo (com YouTube o Vimeo), és una evolució de l’MPEG-2.

Petteri Aimonen (Wikipedia)

La compressió interframe presenta un gran desavantatge a l’hora d’editar, ja que quan la barra de reproducció està parada a sobre un fotograma, la informació per poder llegir aquell fotograma no és tota allà: a excepció del primer fotograma de cada GOP, la resta necessiten d’un o més frames del GOP per poder “reconstruir-se” i mostrar la seva imatge.

La cosa es complica més quan es passa, per tall, d’un clip a un altre, i el nou comença, per exemple, al cinquè frame del GOP. Per això, alguns programaris d’edició indiquen que es necessita renderitzar el vídeo quan encara no se li ha aplicat cap efecte o modificació. I tot i que actualment els ordinadors són prou potents com per processar vídeo interframe durant l’edició, és preferible convertir-lo a un format intraframe per treballar.

Alguns exemples de còdecs més coneguts són: Apple ProRes, DNxHD (per intraframe; compressió individual de cada fotograma) i MPEG-2, H.264 (per interframe; compressió per grups d’imatges o GOPs).

Format i còdec

El format i el còdec d’un vídeo són dos conceptes diferents que cal saber distingir.

El còdec és l’algoritme que comprimeix i descomprimeix les dades de l’element, ja sigui àudio, vídeo, una imatge fixa, etc. Exemples de còdecs són:

vídeo: Apple ProRes, DNxHD, Cineform, MPEG-2, H.264
àudio: MP3, AAC
imatge fixa: JPEG, TIFF, PNG

El format és un contenidor o wrapper que descriu com s’hi emmagatzemen els continguts multimèdia. Hi ha contenidors que són exclusius d’àudio, com AIFF o WAV; d’altres poden contenir vídeo, àudio, subtítols, capítols i altres metadades (vegeu la taula).

Taula Exemples de contenidors amb la seva extensió d’arxiu

Contenidor	Extensió de l’arxiu
QuickTime	.mov
AVI	.avi
MP4	.mp4
MXF	.mxf
Matroska	.mkv

'Bit rate' o taxa de bits

En compressió de vídeo el bit rate és la taxa o flux de dades per segon, és a dir, la quantitat d’informació emmagatzemada per unitat de temps. S’expressa en bits per segon (bit/s, també abreujat com a bps), o amb els prefixs corresponents: kilobits per segon, kbit/s o Kbps; megabits per segon, Mbit/s o Mbps; gigabits per segon, Gbit/s o Gbps…

El bit rate determina la qualitat de la imatge: com més alt sigui el bit rate més qualitat té el vídeo. Per exemple, el còdec Apple ProRes 422 té un bit rate entorn els 120 Mbps, mentre que un còdec H.264 pot tenir un bit rate entorn els 10-20 Mbps. Això vol dir que un minut de vídeo Full HD a 25 fps pesarà uns 900 MB en Apple ProRes 422 però només 75MB en H.264 (calculat amb un bit rate de 10 Mbps).

El bit rate pot ser constant o variable:

Bit rate constant o CBR (de l’anglès Constant Bit Rate). No varia al llarg del vídeo: assigna el mateix número de dades als segments més senzills que als segments més complexes, resultant en una pèrdua de qualitat i el malbaratament d’espai d’emmagatzematge.
Bit rate variable o VBR (de l’anglès Variable Bit Rate). Assigna un menor número de dades als segments més senzills (com ara un títol estàtic) per poder-los destinar als segments més complexes (com ara l’escena d’una persecució en cotxe en una pel·lícua d’acció). És un mètode de codificació més lent però optimitza l’espai d’emmagatzematge i millora la qualitat respecte el CBR.