Instal·lació i administració del servei d’àudio

La manera com escoltem música o mirem la televisió ha canviat molt en els darrers anys. De fet, fins i tot s’ha canviat el verb: ara tot aquest tipus de continguts multimèdia es consumeix.

En el cas del món de la música (i de l’àudio en general) la transformació ha estat enorme. De fet, ha patit diverses transformacions. Una va ser la transformació de tota una era analògica cap a un món digital amb la irrupció de les primeres tecnologies digitals (el compact disc o disc compacte) que aporten una millora en la qualitat del so.

Una altra transformació va ser la creació del format MP3, juntament amb el creixement d’internet, pel que fa a l’àmbit domèstic. Va revolucionar la manera de distribuir la música, amb la qual cosa el model anterior va quedar totalment obsolet.

Una darrera transformació ha estat l’aparició d’una nova tecnologia anomenada streaming, la reproducció en temps real, que fa que l’usuari ja ni disposi de fitxers MP3 per tal d’escoltar la seva música preferida, sinó que la consumeixi directament des d’internet, sense passar per un emmagatzematge previ.

Totes aquestes transformacions han anat impactant per generacions i han fet que les darreres generacions ja no estiguin tan familiaritzats amb conceptes com àudio analògic, disc, etc.

Servidors de reproducció en temps real

La reproducció en temps real s’acostuma també a anomenar amb el terme anglosaxó streaming, que vol dir ‘corrent’ o ‘flux’. Al cap i a la fi, és una metàfora per indicar com flueixen les dades que s’estan transmetent.

La reproducció en temps real o streaming s’associa normalment amb continguts multimèdia, és a dir, a la transmissió i la distribució principalment d’àudio i vídeo. No obstant això, l’streaming també es pot utilitzar per a la transferència en temps real d’altres tipus de dades, com per exemple monitoratges o simulacions. De totes maneres, en la distribució d’àudio i vídeo és on ha agafat més rellevància.

La reproducció en temps real o streaming consisteix a anar consumint (reproduint, en el cas dels continguts multimèdia) les dades que es transmeten sense emmagatzemar-les.

És a dir, es tracta de consumir dades mentre es van descarregant, tal com es pot veure en la figura. La tècnica consisteix a tenir un buffer, que és una memòria intermèdia, que permeti emmagatzemar temporalment el que es reproduirà. D’aquesta manera sempre es tenen les dades amb anterioritat a la reproducció en condicions de transmissió constants (ample de banda).

Figura Procés de reproducció en temps real

Els protocols principals per a la transmissió de dades en temps real són el protocol de transport en temps real (RTP) i el protocol de control RTP (RTCP). Aquest serveixen com a base per a altres protocols, com el protocol Real Time Streaming Protocol (RTSP). Aquests solen usar el protocol de transport User Datagram Protocol (UDP), ja que és un protocol no orientat a connexió i no fiable que fa augmentar la velocitat de transmissió en no demanar reconeixement (acknowledge) que les dades han arribat al receptor. No obstant això, també pot treballar amb el protocol de transport (TCP, Transmission Control Protocol).

Protocol no fiable

Un protocol és no fiable quan no comprova si les dades han arribat al destí. A vegades la fiabilitat la dona un protocol d’una capa superior, o a vegades no cal.

Darrerament, algunes empreses especialitzades en la distribució de continguts multimèdia han desenvolupat altres protocols per a la distribució de dades en temps real que tenen en compte altres característiques. Una d’aquestes consisteix a detectar la disponibilitat d’ample de banda per part del servidor i el client per tal d’ajustar el flux (stream) i la seva qualitat. Aquests protocols s’anomenen protocols d’streaming de bitrate adaptatiu, i els més coneguts són HLS, HDS, Smooth Streaming i MPEG-DASH.

Àudio digital

L’àudio digital és aquell que utilitza senyals binaris per a l’emmagatzematge i la reproducció del so. La transformació d’un senyal sonor (ona mecànica) a un senyal elèctric (ona electromagnètica) se sol fer a través d’un transductor (micròfon). Per tant, aquest senyal sonor es convertirà en un senyal elèctric binari, és a dir, en tot un seguit de 0 i 1, que quedaran ben definits per dos voltatges principals (per exemple, 0 volts per al valor 0 i 5 volts per al valor 1).

El senyal elèctric (analògic) pot patir un processat abans de la conversió analogicodigital que pot incloure reducció del soroll, l’amplificació, l’eliminació de freqüències i l’equalització, entre altres processos.

La conversió d’un senyal analògic a digital (en aquest cas, un senyal d’àudio) es fa mitjançant un procediment anomenat modulació per impulsos codificats (PCM, Pulse Code Modulation) a través d’un conversor analogicodigital (ADC, A/D o analog-to-digital converter). Consta de tres etapes principals: mostreig, quantificació i codificació, tal com es pot veure en la figura:

Figura Conversió d’un senyal analògic a digital

El mostreig és l’etapa que consisteix a agafar mostres (valors del senyal) depenent d’una freqüència prefixada, anomenada freqüència de mostreig. Com més alta sigui aquesta freqüència, més qualitat tindrà l’àudio digital. No obstant això, l’oïda humana no percep freqüències superiors als 20 KHz aproximadament.

El teorema de Nyquist (teorema de mostreig de Nyquist-Shannon) indica que per obtenir un senyal digital que contingui components fins a una certa freqüència cal mostrejar com a mínim al doble d’aquesta freqüència.

Per tant, mostrejar per sobre d’aquest valor no aportarà més informació per a les freqüències més baixes (demostració matemàtica fora de l’abast), és a dir, el senyal digital contindrà la mateixa informació que el senyal analògic per a aquestes freqüències.

Altres freqüències de mostreig

  • 8 KHz per a telefonia digital
  • 22,05KHz per a ràdio digital

Per exemple, la freqüència de mostreig en un CD de música (Compact Disc Digital Audio o CDDA) és de 44.100 Hz, és a dir, es prenen 44.100 mostres per segon.

Valor analògic: valor que pot prendre un nombre infinit de valors.

Valor discret: valor que pot prendre un nombre finit de valors.

La quantificació és l’etapa que assigna valors discrets a les mostres (valors analògics). En aquest pas es produeix una pèrdua de qualitat del senyal respecte a l’original que és inherent a l’àudio digital. Aquesta discretització es fa dins una escala determinada que determinarà la precisió de la mostra discreta.

La codificació és l’última etapa que assigna una seqüència de bits al valor quantificat. La longitud d’aquesta seqüència dependrà de l’escala que s’hagi fet servir en la quantització, i s’anomena resolució (nombre de bits per mostra). Per exemple, si el rang de l’escala en què s’ha quantificat el senyal digital té 7 valors, llavors es necessitaran 3 bits per codificar-la, ja que Per exemple, en un CD de música la codificació és de 16 bits, és a dir, el rang és de 65.536 valors discrets diferents.

A més a més, un àudio digital pot tenir diversos canals. Per exemple, el so estereofònic té dos canals (dret i esquerre), la qual cosa fa que en escoltar el so l’experiència sigui més natural en provocar que l’àudio provingui de diferents fonts. Altres exemples són el sistema 5.1, que disposa de 6 canals. Tot el procés de conversió d’un senyal analògic a digital es realitza per a cada canal.

Per tant, els principals paràmetres que s’han de tenir en compte en la conversió d’un senyal analògic a digital són:

  • Freqüència de mostratge
  • Resolució (nombre de bits per mostra)
  • Nombre de canals

Formats d'àudio digital

Els formats d’àudio digital es poden classificar en 3 grans grups:

  • Formats d’àudio no comprimits
  • Formats d’àudio comprimits sense pèrdua (lossless compression)
  • Formats d’àudio comprimits amb pèrdua (lossy compression)

MIDI

Els arxius MIDI no contenen àudio en si. Realment contenen una seqüència de música enregistrada amb un conjunt de números que indiquen com s’ha de reproduir.

Hi ha algun altre format d’àudio que no prové d’un senyal digital d’àudio. És el cas del format MIDI (Musical Instrument Digital Interface, interfície digital d’instruments musicals), que és un estàndard de comunicació entre components musicals electrònics tals com instruments electrònics o ordinadors.

Els formats d’àudio no comprimits no s’usen per a la distribució d’àudio a causa de la seva mida, sinó per a l’edició d’àudio digital (per la rapidesa a l’hora de processar el senyal). Posteriorment, si s’ha de distribuir per algun mitjà que requereixi alguna limitació, com per exemple un ample de banda concret, es codifiquen en un format comprimit.

Els formats d’àudio comprimits basen la reducció de la seva mida en algorismes que tenen en compte les característiques de l’oïda humana.

Una altra cosa que cal tenir en compte quan es parla de formats, i sovint s’usa indistintament o de forma genèrica, és la distinció entre còdecs d’àudio i formats contenidors (en el cas d’àudio, però també és vàlid per a vídeo).

Un còdec és un codificador que permet la compressió del senyal digital per al seu emmagatzematge o transmissió i també el descodificador per a la seva reproducció.

De fet, còdec és l’abreviació de codificador-descodificador. Alguns còdecs tenen el mateix nom que el fitxer contenidor que els conté (per exemple, MP3) i d’altres no (AAC/MP4). Fins i tot hi ha variants en les extensions dels fitxers contenidors (MP4, M4A, etc.).

Formats d’àudio no comprimits:

  • WAV (Waveform Audio File Format): format desenvolupat per Microsoft i IBM.
  • AIFF (Audio Interchange File Format): format desenvolupat per Apple.
  • AU: format desenvolupat per la desapareguda Sun Microsystems (absorbida per Oracle el 2010).

Formats d’àudio comprimits sense pèrdua:

  • FLAC (Free Lossless Audio Codec): format obert i lliure de royalties mantingut per la fundació Xiph.Org.
  • ALAC (Apple Lossless Audio Codec): format desenvolupat per Apple. El còdec que dona nom al format, tot i que inicialment era propietari, actualment està publicat sota una llicència de codi obert i lliure de royalties.
  • WMA lossless (Windows Media Audio): format propietari desenvolupat per Microsoft.

Formats d’àudio comprimits amb pèrdua:

  • MP3 (MPEG Audio layer III): format molt popular desenvolupat pel Moving Picture Experts Group.
  • WMA lossy (Windows Media Audio): format propietari desenvolupat per Microsoft.
  • OGG/Opus: Opus és un còdec obert i lliure de royalties desenvolupat per la fundació Xiph.Org i estandarditzat per Internet Engineering Task Force (IETF) com a RFC6716. Aquest còdec sol anar dins del format contenidor obert OGG (Ogg Vorbis).
  • AAC (Advanced Audio Coding): dissenyat per ser el successor de l’MP3, aconsegueix taxes de compressió superiors a aquest tot mantenint la mateixa qualitat. Com a contenidor usa el format MP4 (a vegades l’extensió és M4A per identificar clarament que és un fitxer d’àudio). És el còdec/format usat per iTunes i YouTube, entre altres grans distribuïdors.
  • AC3 (Audio Codec 3): també és conegut com a Dolby Digital. És un format molt estès en el cinema i en els DVD, entre d’altres.
  • RA (Real Audio): format molt utilitzat per a la reproducció d’àudio en temps real (es va reproduint mentre es realitza la descàrrega). Avui en dia ha perdut força popularitat.

El format més popular: l’MP3

L’MP3 (també conegut de manera formal com a MPEG-1 Audio Layer III i MPEG-2 Audio Layer III) és un format de codificació d’àudio digital. Aquest és un format de compressió d’àudio amb pèrdua, fet que permet una reducció considerable de la mida d’un fitxer al mateix temps que garanteix una alta qualitat sonora.

El format MP3 es basa en la reducció o eliminació de certs components del so que no són percebuts per la majoria dels humans. El mètode es basa en dos algorismes matemàtics: la transformada discreta del cosinus modificada (MDCT, Modified Discrete Cosine Transform), que és el nucli de l’MP3, i la transformada ràpida de Fourier (FFT, Fast Fourier Transform). Aquestes permeten fer l’anàlisi espectral del so i filtrar-lo de forma digital. Amb aquestes tècniques es redueix de mitjana entre un 75 i un 95% la mida d’un fitxer.

MP3 forma part dels estàndards MPEG, tant dels estàndards MPEG-1 com del MPEG-2. L’estàndard MPEG-1 part 3 (que inclou l’MP3) va ser publicat el 1993, i l’estàndard MPEG-2 part 3, el 1995.

Fraunhofer-Gesellschaft

Organisme que agrupa tots els centres (instituts) de recerca d’Alemanya especialitzats en diversos camps de la ciència aplicada. El seu nom ve del físic alemany Joseph von Fraunhofer.

Els inventors que apareixen a la patent americana són Bernhard Grill, Karlheinz Brandenburg, Thomas Sporer, Bernd Kurten i Ernst Eberlein. No obstant això, el que ha passat a la història per ser el pare de l’MP3 és Karlheinz Brandenburg, que va liderar la recerca al Fraunhofer Institute d’Alemanya.

A l’inici, el format MP3 estava patentat, i permetia la reproducció (descodificació). Aquest fet va facilitar la distribució d’àudios en format MP3, concretament de música. Un dels reproductors més conegut d’aquella època (mitjan anys noranta) va ser el WinAmp, de la companyia NullSoft, que juntament amb l’expansió d’internet va fer que el format MP3 esdevingués un dels formats més populars.

No obstant això, per a la creació (codificació) dels MP3 s’havia de pagar la patent, fins que un estudiant australià, utilitzant tècniques d’enginyeria inversa, va crear un codificador i el va publicar. Aquest fet, i l’aparició de xarxes d’igual a igual (peer-to-peer), va significar l’inici d’una una nova era en la indústria de la música (infraccions dels drets d’autor, demandes, pirateria, etc.) que sempre quedarà associat al format MP3 i que va abocar el sector a un nou model radicalment diferent.

Actualment, la tecnologia MP3 és lliure de patents a Europa des de 2012 i als Estats Units des de 2017. Tot i que encara continua gaudint de certa popularitat, està sent desplaçada pel nou format MP4.

Un CD té 44.100 mostres per segon, codificat amb 16 bits i 2 canals; això dona 1411200 bit/s, és a dir 1.411 kbit/s

Pel que fa a la compressió, el format és capaç de codificar un disc digital compacte, passant d’un bitrate de 1.411 kbit/s a bitrates de 320 kbit/s o inferiors. Els bitrates més típics són 192 i 128, tot i que n’hi ha d’altres (160, 144, etc.).

Les característiques més rellevants del format MP3 són:

  • Compressió elevada
  • Qualitat acceptable
  • Facilitat en la distribució

Llistes de reproducció

La reproducció en temps real permet la reproducció contínua d’elements multimèdia. Per exemple, en el cas de la reproducció de cançons per a un fil musical es pot enllaçar la finalització d’una cançó amb l’inici de la següent. Això es fa gràcies a l’ús de llistes de reproducció.

Les llistes de reproducció (playlists, en anglès) són unes llistes de fitxers d’àudio (també poden ser de vídeo) preparades per ser reproduïdes en algun mitjà tant de forma seqüencial com aleatòria. Les entrades de fitxer d’àudio poden estar referenciades de forma externa, és a dir, fer referència a una cançó en un altre servidor.

A més, les playlists poden contenir informació addicional, com ara títol, autor, disc, etc. Hi ha diferents formats per a les llistes de reproducció, i la seva interpretació depèn del programari on es reprodueixin.

Els programaris més coneguts són:

  • m3u (MP3 URL): format desenvolupat originalment pel Fraunhofer Institute, és un dels formats més populars i més suportats. Té una sintaxi senzilla en forma de text pla.
  • m3u8: versió unicode de m3u. Unicode és un estàndard per a la codificació de caràcters que permet codificar la totalitat d’alfabets actuals, entre altres característiques.
  • pls: un altre format de playlist una mica més complet que m3u.
  • smil (Synchronized Multimedia Integration Language): format desenvolupat pel W3C (World Wide Web Consortium) per a la presentació de continguts multimèdia.
  • asx (Advanced Stream Redirector): format desenvolupat per Microsoft que emmagatzema les llistes de reproducció en XML.
  • xspf: format XML desenvolupat per la fundació Xiph.org encarregada de crear i promocionar formats multimèdia lliures (còdecs, playlists, etc.)
  • wpl (Windows Media Player Playlist): format propietari desenvolupat per Microsoft basat en smil.

Alguns exemples són:

  • M3u:
#EXTM3U

#EXTINF:123,Artista - Títol
C:\Documents and Settings\usuari\My Music\Exemple.mp3

#EXTINF:321,Artista - Títol
http://www.web.com/~usuari/Exemple.mp3
  • Pls:
[playlist]
File1=http://www.web.com:8020/
Title1=Estacio de ràdio
File2=Exemple.mp3
Title2=Artista - Títol
Length2=120
NumberOfEntries=2
  • Xspf:
<?xml version="1.0" encoding="UTF-8"?>
<playlist version="1" xmlns="http://xspf.org/ns/0/">
  <trackList>
    <track>
      <title>Windows Path</title>
      <location>file:///C:/music/Exemple.mp3</location>
    </track>
    <track>
      <title>Linux Path</title>
      <location>file:///media/music/Exemple.mp3</location>
    </track>
    <track>
      <title>Relative Path</title>
      <location>music/Exemple.mp3</location>
    </track>
    <track>
      <title>External Example</title>
      <location>http://www.web.com/music/Exemple.ogg</location>
    </track>
  </trackList>
</playlist>

Cal tenir en compte que no tots els reproductors i servidors admeten totes les llistes de reproducció. Per exemple, el servidor Ampache suporta els següents formats: m3u, m3u8, asx, pls i xspf.

Subscripció d’àudio

En els últims anys, la ràdio i la televisió s’han transformat a causa d’internet i les noves tecnologies. La digitalització d’ambdues tecnologies ha estat constant, si bé ha estat la darrera la que ha patit la transformació més gran, ja que no transmet de forma analògica. La ràdio, en canvi continua emetent-se en analògic a través de les modulacions AM i FM, i la digitalització en aquest cas ha estat menor. L’RDS (Radio Data System) és un estàndard que permet enviar informació digital sobre ones analògiques. D’aquesta manera, cada emissora pot enviar informació com el nom de la cançó o la freqüència alternativa per quan el senyal perdi potència , entre altres característiques.

No obstant això, la part de la ràdio que més s’ha transformat és la d’internet. Han aparegut una multiplicitat de ràdios en línia per la facilitat de muntar servidors i la no-necessitat d’una estructura com la de la ràdio convencional (llicència per emetre, antenes, etc.). També ha canviat la manera com s’escolta la ràdio: en viu (en temps real) o en forma de podcast, que permet descarregar l’arxiu per escoltar-lo més tard.

'Podcast'

El terme podcast va ser usat primer cop pel periodista Ben Hammersley en un article al diari britànic The Guardian per intentar descriure el fenomen de les descàrregues automàtiques de programes d’àudio el 2004. No obstant això, Adam Curry, juntament amb Dave Winer, passa per ser el gestador de la idea i de la creació del primer programari per a la descàrrega automàtica d’arxius, anomenat iPodder. Per fer-ho possible van utilitzar les especificacions RSS, en el desenvolupament de les quals havia participat Dave Winer.

La paraula podcast és la combinació d’iPod, conegut reproductor portable, i broadcast, que en anglès significa ‘difusió’.

Un podcast és un programa (de veu o musical) o conjunt de programes preparats per ser descarregats de forma automàtica a través d’internet mitjançant una subscripció, tot i que també es poden descarregar de forma individual i poden ser reproduïts posteriorment en qualsevol altre moment.

La subscripció es fa de diverses maneres:

  • A través d’una extensió del navegador.
  • A través d’un lector de RSS web. Google Reader va ser un lector molt popular, tot i que ja està obsolet. Actualment hi ha alternatives com Feedly.
  • Per a ordinadors, a través d’un programari de podcasts, com per exemple VLC o gPodder.
  • Per a mòbils i tauletes, a través d’alguna aplicació de podcasts. En el cas de dispositius Apple, iTunes ja fa aquesta tasca.

Òbviament, també existeix l’opció cancel·lar la subscripció en el cas que no es desitgi rebre més actualitzacions automàtiques dels programes.

Els clients que són capaços de descarregar podcasts se’ls anomena podcatchers. Tot i que generalment descarreguen àudio, també són capaços de descarregar vídeo, notícies, text i imatges.

En la figura podeu observar un esquema del recorregut que fa un podcast des de la seva creació fins que arriba a l’oient:

Figura Creació d’un podcast

Diferències entre 'podcasting' i reproducció en temps real

Tot i les similituds entre podcasting i reproducció en temps real, aquests difereixen en la seva concepció. La principal diferència és que la reproducció en temps real està pensada per al consum multimèdia de forma immediata, mentre que el podcasting està pensat per a un consum posterior.

La sindicació és una de les principals característiques del podcasting, i permet la descàrrega automàtica d’arxius, principalment d’àudio, però també poden ser de vídeo, notícies, text o imatges.

Atom

Estàndard de sindicació que intenta resoldre alguns dels problemes de RSS, augmentar-ne les capacitats i comportar-se com un estàndard tradicional (RFC 4287 i 5023).

El sistema de sindicació utilitzat és l’RSS (Really Simple Syndication), tot i que alguns també permeten l’ús d’Atom.

En la figura podeu veure la pàgina de sindicació d’una coneguda ràdio que no tan sols ofereix sindicació per als àudios, sinó també per a les notícies.

Figura RSS d’una ràdio comercial

Vegeu un exemple de fitxer RSS (retallat). Dins de les especificacions RSS només hi pot haver un únic canal (channel), i a través dels elements item es van publicant els nous continguts:

<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" version="2.0">
  <channel>
    <title>La competència - Programa sencer</title>
    <link>http://www.rac1.org/lacompetencia/</link>
    <description>Podcasts del programa La competència - Programa sencer</description>
    <item>
      <title>La competència Divendres 2019-08-09 12:00</title>
      <link>https://audioserver.rac1.cat/get/be39fc26-0f7f-46e0-ae82-3444ec2977d0/1/2019-08-09-la-competencia-12h.mp3?source=RSS</link>
      <pubDate>Fri, 09 Aug 2019 10:00:00 GMT</pubDate>
    </item>
    <item>
      <title>La competència Dijous 2019-08-08 12:00</title>
      <link>https://audioserver.rac1.cat/get/2d21c240-9a1e-422e-a0e8-963774f1728f/1/2019-08-08-la-competencia-12h.mp3?source=RSS</link>
      <pubDate>Thu, 08 Aug 2019 10:00:00 GMT</pubDate>
    </item>
    <item>
      <title>La competència Dimecres 2019-08-07 12:00</title>
      <link>https://audioserver.rac1.cat/get/da49f168-4cf1-41e6-af4b-d2615a3fbde2/1/2019-08-07-la-competencia-12h.mp3?source=RSS</link>
      <pubDate>Wed, 07 Aug 2019 10:00:00 GMT</pubDate>
    </item>
    ...
  </channel>
</rss>

Les principals diferències que hi ha entre la reproducció en temps real (streaming) i el podcasting són:

  • En la reproducció en temps real no es descarrega inicialment un fitxer per ser seguidament reproduït, sinó que l’arxiu d’àudio es va reproduint (es pot anar escoltant) mentre aquest es descarrega. Un cop consumit l’arxiu (finalitzada la reproducció), si es vol tornar a escoltar cal tornar a realitzar l’streaming, és a dir, es torna a descarregar l’arxiu. En canvi, en el podcasting l’arxiu es descarrega un sol cop i es pot reproduir tantes vegades com es vulgui.
  • El podcasting és passiu. La distribució de programes és automàtica i gràcies a la sindicació es descarreguen els nous arxius quan estan disponibles. Posteriorment es pot reproduir quan es desitgi. La reproducció en temps real és activa. Cal que l’usuari faci alguna acció per tal de reproduir un àudio.
  • La reproducció en temps real és dependent de la connexió a internet. Si aquesta és deficient o hi ha problemes puntuals, es veuran afectats en la qualitat de la transmissió. En el podcasting, com que l’arxiu està descarregat localment, no es produeixen aquests incidents.
  • La reproducció en temps real és més simple per a l’usuari, ja que no ha de pensar a subscriure’s a cap canal ni ha de saber on estan emmagatzemats els fitxers. Fent una analogia, es podria comparar amb la ràdio tradicional (streaming) i els CD de música (arxius descarregats).

En la figura podeu veure les opcions en una ràdio comercial. A baix de tot es pot escoltar la ràdio en directe, i a la columna de la dreta es pot escoltar la ràdio a la carta o baixar el programa per escoltar-lo més endavant.

Figura Opcions de servei per internet

Reproducció en temps real

La reproducció en temps real consisteix a anar mostrant el contingut mentre es va descarregant, normalment contingut multimèdia. Això sol ser degut a la grandària dels arxius que es volen mostrar. Si s’haguessin de descarregar completament abans, aquest tipus de continguts no haurien estat tan populars (per exemple, si cada vegada que es visualitza un vídeo de Youtube el consumidor s’hagués d’esperar perquè es descarregués completament, segurament aquesta plataforma no hauria tingut tanta repercussió).

Bits/bytes

Cal anar alerta per no confondre bits (símbol b) amb bytes (símbol B), ja que bytes és una magnitud 8 vegades superior. És un error típic confondre l’ample de banda de les línies de telefonia.

Per tal de poder mostrar aquests continguts s’ha de transmetre aquest flux de manera constant, és a dir, a la mateixa velocitat. Això es coneix com a taxa de bits.

La taxa de bits (en anglès, bitrate) es defineix com la freqüència amb què es transmeten les dades per un canal, o el nombre de bits que es transmeten per segon i que defineixen l’ample de banda. Les unitats en el sistema internacional són els bits/segon (a vegades escrit bps, bits per segon), tot i que depenent de la magnitud s’usen múltiples unitats (Kb/s, Mb/s).

Cal tenir en compte que aquests són múltiples de 1.000 i no de 1.024 (com passa amb els bytes).

Aquest terme s’usa també per a la codificació i la compressió d’àudio i vídeo. Hi ha dos tipus principals de tècniques a l’hora de codificar o comprimir un arxiu multimèdia: CBR i VBR.

La taxa de bits constant (CBR, Constant Bit Rate) estableix el bitrate de forma numèrica (amb mètodes estadístics) i es manté constant per a tota la duració de l’arxiu. Aquest mètode fa que l’arxiu resultant sigui bastant extens, però és molt útil a l’hora de transmetre continguts multimèdia per determinats canals on l’ample de banda té poca capacitat.

La taxa de bits variable (VBR, Variable Bit Rate) estableix un bitrate de mitjana, però que va variant en funció de les característiques del senyal, és a dir, hi ha parts d’un arxiu multimèdia que necessiten una taxa de bits més alta per representar aquella porció d’informació perquè té un nivell més alt de detall. Per exemple, en una cançó, un tall que tingui molts instruments i presenti una multiplicitat de freqüències diferents amb molts harmònics necessitarà molts més bits per unitat de temps per codificar aquesta informació que un altre tall més simple. Aquest mètode aconsegueix una qualitat més alta, i la mida de l’arxiu pot variar considerablement.

Per tant, a l’hora de codificar arxius multimèdia s’ha d’escollir entre un mètode i l’altre. Aquesta elecció dependrà de les característiques que es vulguin tenir per a l’arxiu resultant en funció de la qualitat, l’emmagatzematge i la distribució.

Protocols bàsics

Per poder realitzar aquest tipus de transmissió s’usen uns protocols especials que fan que no calgui usar tot l’ample de banda disponible. Una característica comuna a tots aquests protocols és la de descarregar inicialment un buffer (memòria intermèdia temporal) per tal de corregir possibles fluctuacions en el senyal (jitter). D’aquesta manera, la part descarregada sempre va per davant de la part que s’està reproduint.

Els protocols més coneguts per a la transmissió de dades en temps real són l’RTP, juntament amb l’RTCP.

El protocol de transport en temps real (RTP) proporciona serveis de transport per a aplicacions que transmetin en temps real, com poden ser d’àudio, vídeo o dades per a simulacions. L’adreçament d’aquests serveis pot ser tant unicast com multicast. Normalment, RTP usa UDP, però també està preparat per treballar amb altres protocols de transports o de xarxa. No proporciona mecanismes per assegurar el lliurament en un temps concret ni proveeix cap garantia de qualitat del servei, sinó que confia en les capes subjacents. Aquest protocol està molt relacionat amb l’TCP (protocol de control RTP) i treballen estretament. La versió segura d’aquest protocol és l’SRTP (Secure Real-time Transport Protocol), que ofereix confidencialitat i autenticació de missatges, entre altres característiques.

El protocol de control RTP (RTCP) es basa en la transmissió periòdica de paquets de control a tots els participants. Una de les funcions principals és proporcionar dades sobre la qualitat de la transmissió (distribució de dades).

En la figura podeu veure un esquema del funcionament dels protocols RTP/RTCP.

Figura Esquema del funcionament dels protocols RTP/RTCP

Reproducció en temps real d’informació multimèdia

Per a la reproducció en temps real de continguts d’àudio i vídeo es pot utilitzar el protocol RTSP (Real Time Streaming Protocol), que estableix i controla un o diversos fluxos sincronitzats tals com àudio o vídeo. Aquests fluxos poden incloure fonts de dades en viu o clips emmagatzemats. Pot treballar per sobre de RTP (no és obligatori), però també per sobre d’UDP o de TCP directament.

Les URL RSTP tenen la següent forma:

rtsp://media.exemple.com:554/disc/pista
rtsp://media.exemple.com:554/disc

En el primer cas fa referència a un arxiu (àudio o vídeo), mentre que en el segon identifica una presentació composta de fluxos d’àudio o vídeo.

Un altre protocol utilitzat és l’RTMP (Real-Time Messaging Protocol). Aquest és un protocol propietari desenvolupat inicialment per Macromedia (actualment, Adobe) per a l’streaming d’àudio i vídeo entre les diferents plataformes Flash. Tot i ser un protocol privat, les especificacions són públiques amb una llicència específica (RTMP Specification License). El port usat per defecte per a aquest protocol és el 1935.

Aquest protocol disposa de diverses versions segures:

  • RTMPE: les dades són encriptades amb un algorisme d’encriptació conegut i se centra en la velocitat de l’encriptació (segons Adobe, requereix un 15% de procés que RTMP).
  • RTMPS: RTMP sobre TLS/SSL.
  • RTMFP: les dades són encriptades amb un algorisme de xifratge per blocs.

L’streaming de bitrate adaptatiu (adaptive bitrate streaming) és una tècnica actual usada en la reproducció de continguts multimèdia. Consisteix a detectar la disponibilitat d’ample de banda per part del servidor i el client per tal d’ajustar el flux (stream) i la seva qualitat. Treballen gairebé exclusivament sobre HTTP i estan dissenyats per treballar de forma eficient.

Entre les característiques es destaca un temps d’inici de reproducció ràpid, el poc buffering i una bona experiència per a diferents amples de banda. Els protocols d’streaming de bitrate adaptatiu més coneguts són:

  • HLS (HTTP Live Streaming): protocol desenvolupat per Apple que inicialment permet l’streaming des d’un servidor web qualsevol a dispositius basats en iOS (iPhone, iPad, iPod touch, macOS i Apple TV). No obstant això, Apple ha fet públic el protocol en format de RFC (RFC 8216).
  • HDS (HTTP Dynamic Streaming): protocol desenvolupat per Adobe que permet l’streaming des d’un servidor web qualsevol a clients que suportin la reproducció de contingut Flash. Les especificacions d’aquest protocol estan publicades en la pàgina web d’Adobe.
  • Smooth Streaming: protocol propietari de Microsoft per a l’streaming de contingut multimèdia. Aquest protocol s’instal·la com a extensió al servidor web de Microsoft, l’Internet Information Services (IIS). Els clients han de suportar Silverlight, plugin per als navegadors web que permet la visualització d’aquests continguts.
  • MPEG-DASH (Motion Pictures Expert Group Dynamic Adaptive Streaming over HTTP): protocol de codi obert que intenta solucionar els inconvenients dels anteriors protocols (llicències, clients específics, etc.).

D’altra banda, es pot classificar la manera com es reprodueixen els continguts multimèdia en funció del seu origen:

  • Reproducció en temps real en directe: permet veure esdeveniment que estan succeint en el mateix moment en què s’estan reproduint els continguts. Tots els clients veuen i escolten el mateix.
  • Reproducció en temps real a la carta (VoD, Video On Demand): permet a l’usuari seleccionar els continguts que han estat prèviament gravats i emmagatzemats en un servidor. El que veu i escolta cada usuari és independent dels altres.

Difusió en temps real a adreces de multidestinació

Unicast (unidifusió): enviament d’informació a un únic destinatari.

Multicast (multidifusió selectiva): enviament d’informació a múltiples destinataris.

Broadcast (multidifusió general): enviament d’informació a tots els destinataris (d’una xarxa).

En el cas de la reproducció en temps real en directe, si cada client estableix la seva pròpia connexió amb el servei i inicia el seu propi flux (comunicació unicast) hi ha un ús considerable de l’ample de banda.

Una solució és la transmissió d’aquests continguts amb una comunicació multicast, en la qual aquest flux és únic i compartit per tots els participants. No obstant això, no sempre és possible aplicar aquesta tècnica.

Difusió en temps real de ràdio

Un dels sectors que s’ha vist revolucionat i que ha experimentat bastants canvis ha estat el món de la ràdio. La mateixa forma de consumir els continguts ha variat (ara es pot escoltar per internet), i també es disposa de serveis a la carta d’àudio, bàsicament musicals, que competeixen directament amb les emissores de ràdio musicals tradicionals. Les facilitats per muntar les pròpies emissores, en les quals els costos es veuen absolutament reduïts a la infraestructura de servidor i domini (n’hi ha de gratuïts), així com les facilitats per a l’oient d’escoltar emissores de tot el món, han fet canviar el paradigma de la radiodifusió tal com era conegut.

Per escoltar la ràdio per internet es pot fer de diverses maneres. Normalment les emissores es poden escoltar des de la mateixa pàgina web. No obstant això, a vegades es pot aconseguir la referència de la font d’àudio i reproduir-la amb algun programari amb l’ajuda de la URL.

Per exemple amb el programari VLC. Se selecciona l’opció Obre un flux de xarxa de l’apartat Fitxer multimèdia, i s’introdueix la URL (vegeu la figura). Es clica a Reprodueix i seguidament es començarà a escoltar l’emissora.

Figura URL

Programari de servidors de difusió en temps real d’àudio

Com que l’streaming és una tecnologia relativament nova, actualment hi ha una gran diversitat de servidors d’streaming, alguns d’especialitzats i d’altres de propòsit general. Algunes solucions són propietàries i ofereixen continguts conjuntament. També hi ha solucions de programari lliure que tot i que a vegades no ofereixen les mateixes característiques, la majoria de vegades són suficients.

Servidor Darwin

QuickTime és una plataforma multimèdia d’Apple. Aquest sistema comprèn tant la part de servidor com la part de client, a més d’un format propi. Algunes vegades s’ofereix una versió de part del programari en codi obert (s’allibera) que disposa generalment de les mateixes característiques que la versió tancada, excepte aquelles que tenen patents o llicències restrictives. És el cas de la part servidor de QuickTime, que s’anomena Darwin.

Com que el codi és obert, el servidor d’streaming Darwin (DSS, Darwin Streaming Server) disposa de versions per a Windows, Mac i Linux. Usa el protocol RTSP per a l’streaming multimèdia i és compatible amb els formats més actuals, com MP4 i 3GP.

'Streaming' d’àudio des de la consola: IceCast

IceCast és un servidor d’streaming multimèdia patrocinat per la fundació Xiph.Org que es pot utilitzar per crear estacions de ràdio. Està disponible per a Linux i Windows. El servidor funciona des de la línia de comandes (això facilita l’emissió de ràdio de forma desatesa), tot i que permet el monitoratge via web. Aquest programari està distribuït sota la llicència GNU GPL, versió 2.

Vegeu el funcionament en la figura.

Figura Arquitectura de l’IceCast

IceCast consta dels diferents components:

  • IceCast és el servidor. Bàsicament distribueix els fluxos d’àudio de les diferents fonts cap als diferents clients. Els fluxos d’entrada els rep a través dels punts de muntatge que s’han definit en el servidor. Els fluxos de sortida s’emeten a través d’un port especial, especificant el punt de muntatge (estació de ràdio).
  • Client font. A través de diferents programaris (IceS, Ezstream, etc.) s’envia l’stream d’àudio cap al servidor per tal que sigui reemès posteriorment per la xarxa a través d’IceCast.
  • Els clients d’streaming d’àudio són els clients que reproduiran l’streaming. Poden ser aplicacions específiques o el mateix navegador (si suporta la reproducció d’àudio).

Servidor Ampache

Ampache és una aplicació web dissenyada inicialment per a streaming de música, però que també incorpora streaming de vídeo. Està disponible en format de codi obert sota una llicència AGPLv3 (GNU Affero General Public License v3).

Entre les característiques cal destacar que disposa d’un organitzador per a la col·lecció de música a través d’una senzilla interfície web i que es pot escoltar l’streaming a través de la majoria de reproductors i en diferents dispositius: ordinador, telèfon i TV.

Subsonic/LibreSonic/Airsonic

Fork

Creació d’un projecte paral·lel i que evoluciona de forma deslligada a partir d’aquest punt. És comú en projectes de programari lliure a causa de desavinences en els objectius, el lideratge, etc.

Subsonic és un servidor web d’streaming multimèdia força popular desenvolupat en Java. Inicialment de codi obert, el codi va ser tancat a partir de la versió 6. A partir de la darrera versió del codi obert es va crear un fork anomenat LibreSonic, però per posteriors discussions entre els col·laboradors van acabar creant un segon fork anomenat AirSonic.

Com que està basat en Java, es pot executar en una multitud de plataformes. Libresonic i Airsonic són programari lliure i es distribueixen sota la llicència GPLv3 (GNU General Public License v3).

GNUMP3d

GNUMP3d és un altre servidor d’streaming per a àudio i vídeo. El seu codi és obert i forma part del programari GNU mantingut per la Free Software Foundation (FSF).

Free Software Foundation

La Free Software Foundation (FSF) és una organització sense ànim de lucre a nivell mundial que promou l’ús de programari lliure per tal de defensar el dret dels usuaris a l’ús de programari de qualitat i lliure de patents.

Podeu consultar les opcions de configuració del servidor consultant la secció “Annexos” del web d’aquest mòdul.

Segons la web oficial, les característiques principals són:

  • És reduït, estable i segur.
  • És senzill d’instal·lar, configurar i utilitzar.
  • És portable a diferents varietats de Unix/Linux i plataformes Windows.
Anar a la pàgina anterior:
Referències
Anar a la pàgina següent:
Activitats