Standards de numérisation
du Son

Contenu de cette page :


Rappels - c.f. "Numérisation"

La numérisation d'un signal requiert trois opérations combinées :


Son téléphonique - boucle terminale d'abonné classique POTS -

Bande passante théorique : 0 à 4 kHz - qualité très moyenne -
Bande passante pratique : 300 Hz à 3,5 kHz, soit BP = 3,2 kHz

Le théorème de Shanon implique une rapidité de 6 400 échantillons par seconde..
On a retenu 8 000 échantillons par seconde.

La loi de quantification est semi-logarithmique : "loi A" (A-Law) aux EUA, "loi mu" (u-Law) en Europe.

Le codage est fait sur 7 bits aux EUA : standard PCM (Pulse Coded Modulation)
et sur 8 bits en Europe : standard MIC (Modulation par Impulsions Codées).
Le débit est donc (Shanon) de 56 k bit/s aux EUA - Il est de 64 k bit/s en Europe.


Contraintes de temps réel pour la voix interactive

Dans une application interactive, les interlocuteurs éprouvent une gêne lorsque le temps de transmission dépasse 300 ms, soit 600 ms aller-retour.
La valeur de 800 ms aller-retour a été adoptée par l'UIT-T.

Les échos sont une autre cause de gêne s'ils sont espacés de plus de 56 ms, ce qui représente un aller simple à 28 ms.
Ou la traversée du réseau se fait en moins de 28 ms, ou il faut prévoir des dispositifs annulateurs d'écho ou une adaptation des lignes.

Remarquons que dans le temps de traversée du réseau il faut compter le remplisage est de vidage des trames, plus la traversée des commutateurs des réseaux haut débit.
L'échantillonnage à 64 k bit/s implique qu'un octet doit partir, et arriver, toutes les 125 microsecondes.

Exemple :
Dans le cas des réseaux ATM, les cellules de transfert comptent 48 octets de charge utile, il faut donc 6 ms pour remplir une cellule à la vitesse de 64 k bit/s et 6 ms pour la vider à l'autre bout.
Le temps de traversée du réseau est donc au maximum 28 - 2*12 = 16 ms.
A 200 Mm/s, temps de propagation du signal, nous obtenons le diamètre maximal du réseau 3 200 km.
Encore n'avons-nous pas compté le temps de passage dans les commutateurs du réseau. Ce calcul montre les contraintes de temps considérables que le son interactif impose aux réseaux de transmisssion. Il en est tenu compte dans les nouvelles technologies de commutation. Voir "ATM"


Normes de codecs recommandés par le CCITT - ITU-T

Normes
Type de codage
Débit en k bit/s
Qualité
G.711
Numérisation classique 64 k bit/s EU - 56 EUA
5,3 à 6,4
Très bonne
G.723
Compresion de parole
5 k bit/s
Bonne - Tests -
G.726
Différentiel adaptatif
16 - 24 - 32 - 40
Très Bonne
G.727
Différentiel adaptatif - fonction de la charge du réseau
16 - 24 - 32 - 40
Très Bonne
G.728
Différentiel prédictif
16
Bonne
G.729
Différentiel prédictif
8
Bonne

Quelques codecs audio commercialisés

Codecs audio
Echantillonnage
( k bit/s )
Résolution
( bits)
Débit (kOctets/s)
Mono - Stéréo
CITT A-Law
8 / 11,025 / 22,050
8
8 à 86
mono ou stéréo
CITT u-Law
8 / 11,025 / 22,050
8
8 à 86
mono ou stéréo
DSP GroupTrueSpeech
8
1
1
mono
GSM 6.10
8
 
mono
IMA ADPCM
8 / 11,025 / 22,050 / 44,100
4
8 à 43
mono
Lernout&Hauspie CELP
8
16
1
mono
Lernout&Hauspie SBC
12 / 16 / 8
16
2
mono
Microsoft ADPCM
8 à 44
4
4 à 43
mono ou stéréo
Microsoft G 723.1
8
1
1
mono
SBC (Sub-Band Coding)
LPC (Linear Predictive Coding)
CELP (Code Excited Linear Production)


Quelques définitions et standards élémentaires

CCITT A-law
CCITT u-law
Type de quantification et de compression audio recommandée par le CCITT et supportée par les applications téléphoniques sur le Web de Windows 95.
Parmi d'autres applications, A-law et u-law ont été initialement développés comme standards de communication téléphonique.
Codecs TrueSpeech
Développé par la firme "DSP Group's TrueSpeech" ce codec échantillonne le signal à 8 kbit/s en monophonique avec une profondeur de codage équivalente à 1,
ce qui réduit le flux à 1 kocte/s.
C'est, en volume et en bande passante, le 1/8 ème des résultats obtenus par les plus réduits des formats PCM audio : WAV ou AIFF. Ou le 1/4 du plus réduit des formats ADPCM.
En contrepartie, la qualité du son est proche de celle du son téléphonique d'abonné, c'est à dire : bonne pour la voix, médiocre pour la musique.
PCM

Pulse Code Modulation
MIC - Modulation par Impulsdions Codées -

C'est le format natif de la numérisation (voir "Numérisation - PCM")
Utilisé dans les fichiers WAV (Win 95 98) et AIFF(Apple)
Compression inexistante : fichiers très volumineux.
Il peut être compressé grâce à des CODECS disponibles d'origine ou téléchargés.

AD-PCM

Adaptive Differential Pulse Code Modulation
MIC-DA - Modulation par Impulsions Codées - Diférentiel Adaptatif -

Cette méthode de codage du son exige moins d'espace de stockage que les formats PCM utilisés dans les fichiers WAV et AIFF ou le format CD-Audio.
ADPCM de la firme IMA est utilisé dans les mini disques "Sony" pour faire tenir plus de données dans un petit espace.
ADPCM de Microsoft est inclus dans les codecs utilisés par Windows 95 98.

AIFF
Audio Interchange File Format
Format audio développé par Apple Computer pour l'enregistrement musical de haute qualité.
Egalement utilisé par Silicon Graphics et d'autres professionnels du son.
Peut être joué par toute une gamme d'utilitaires téléchargeables sur PC ou MAC.
CODECS

codeur/decodeur ou algorithme de compression/decompression
Logiciels, s'appuyant souvent sur des matériels disponibles dans la carte son - DSP -
permettant de compresser (puis décompresser) des fichiers son ou multimédia - vidéo.

Il en existe toute une variété permettant de résoudre les compromis entre qualité et volume de stockage ou bande passante Exemples : MPEG pour la vidéo. RealAudio pour le son digital.

Certains Codecs peuvent être utilisés à flot continu (streaming) : vidéo et son en temps réel.
Tous peuvent convertir des formats non compressés tels que les fichiers AVI ou WAV.

Lernout & Hauspie
Speech Products
Firme spécialisée dans la reconnaissance vocale, la conversion texte-parole, le codage digital de la voix
et de la musique.
Techniques utilisées :
SBC (sub-band coding), LPC (codebook excited linear predictive coding), harmonic coding.
Ils couvrent une large gamme de rapports de compression liés à diverses qualités du son.
WAV
Format de fichier son non compressé codé PCM. Particulier à Windows.
AU
Format de fichiers son de Sun Microsystems pour Unix.
Les clients http tels que Netscape Navigator lisent les fichiers d'extension *.au.
MIDI
musical instrument digital interface
Standard permettant de relier un ordinateur de type PC ou MAC à des instruments de musique, des synthéiseurs pour réaliser des sons solistes ou orchertraux.
Les fichiers MIDI ont pour extension *.mid et comportent uniquement des indications musicales : instruments - notes - sonie - tempos - etc.
Le matériel et le logiciel contenu dans chaque élément d'un ensembe MIDI interprète ces informations de manière interactive par un échange de messages.
MIDI est très largement utilisé dans les bandes sonores de jeux et studios d'enregistrement.
VOC
Format créé il y longtemps par Creative Labs pour être utilisé dans les premières cartes Sound Blaster sous DOS.
Format en perte de vitesse au profit de WAV.
AVI

Audio / Video Interleave

Format pour vidéos sous Windows : Video for Windows .
Les deux autres formats sont MPEG et QuickTime.
Dans un fichier AVI le son et l'image sont alternativement enregistrés.
On peut "jouer" ces vidéos grâce à "Window's Media Player. inclus dans W95 et suivants.

MOV
Extension de fichier utilisé par QuickTime multimedia technology to run it. MOV files can be movie clips, such as Video for Windows' AVI files, or still images, such as GIFs.
MPEG

Moving Pictures Experts Group

MPEG est un standard de compression du son et de vidéos permettant un téléchargement avec utilisation en temps réel à flot continu (streaming) sur Internet.

MPEG-1 délivre vidéo et son à 150 koctets/s - à la même vitesse qu'un lecteur de CD-ROM x1
Une des techniques consiste à gérer séparément les parties de l'image qui changent.

MPEG-2 améliore grandement les choses en ramenant la qualité presque au niveau de celle des disques laser et du son CD-stéreo.
MPEG-2 a été adopté par les services satellitaires et les DVD.

MPEG-3 - plus connu sous le nom de MP3 - est le standard de compression de son assurant à la fois une excellente qualité de reproduction et un excellent taux de compression. Bande passante : 16 kOctets/s 128 kbit/s échantilloné à 44,1 kHz.

DVD

digital versatile disc
Appelés à l'origine video disques, ces supports de haute capacité sont actuellement utilisés comme moyens d'enregistrement massif de données aussi bien que pour enregistrer des films entiers.
Physiquement semblable au disque compact ou au CD-ROM, DVD représente un saut de capacité considérable par rapport à ses prédécesseurs de 650 MOctets.
Un DVD simple-couche mono-face peut stocker 4,7Giga Octets.
Un DVD deux couches mono-face : 8,5 GigaOctets
Un DVD bi-face : 17 Giga Octets
Les DVD requièrent un lecteur spécial qui peut tout aussi bien lire les CD-ROM.

GIF

Graphics Interchange Format

Format de compression d'images 256 couleurs maximum.
Intéressant pour petites images Internet.
Introduit pas CompuServe en 87 (GIF87), il fut amélioré dès 89 par ajoout de l'entrelacement et des l'animation (GIF 89a).

interlaced GIF "GIF entrelacé"
GIF89a permet d'afficher les images progressivement au fur et à mesure que le fichier les contenant se charge en mémoire.
Suivant les explorateurs utilisés on a un effet de flou devenant de plus en plus net ou un effet de "rideau vénitien".
Ces effets donnent l'impression que les images se chargent plus rapidement...

transparent GIF
GIF89a permet au dessinateur de désigner une couleur comme transparente (généralement la couleur du fond) : tout ce qui est en dessous sera vu.

JPEG

Joint Photographic Experts Group

Ce format a été développé par le comité "Joint Photographic Experts Group".
JPEG compresse les images graphiques ou les photographies jusqu'à 16 millions de couleurs. La compression est variable et peut être contrôlée.
Cette compression se fait avec perte de détail et de couleurs.

progressive JPEG
Les nouvelles versions de JPEG permettent une apparition progressive des images au fur et à mesure que le fichier les contenant se charge en mémoire.
Suivant les explorateurs utilisés on a un effet de flou devenant de plus en plus net ou un effet de "rideau vénitien".
Ces effets donnent l'impression que les images se chargent plus rapidement...

QuickTime
Developé par Apple Computer, QuickTime permet d'enregistrer des sons, des graphisqmùes et des vidéos.
Le fichiers QuickTime ont pour extension .MOV
Bien que QuickTime ait été à l'origine décveloppé pour Macintosh, le logiciel d'écoute-visualisation est actuellement disponible pour Windows ou d'autres plateformes.

DSP

Digital Signal Processor.

Microprocesseur spécialement développé pour le traitement rapide du signal.
Les DSP sont utilisés dans les cartes son, les modems, téléphones portables, pour réaliser des compressions-décompressions en temps réel.


Streaming
Osons une tradution française : "flot continu"
On utilise ce qualificatif pour indiquer que des données passent très rapidement d'un dispositif à un autre de telle manière que le dispositif recepteur puisse les utiliser en même temps qu'il les reçoit, sans attendre qu'elles soient toutes arrivées.
Cest le cas des échanges de données son lors d'une conversation téléphonique interactive.
Ce n'est pas le cas du transfert d'une vidéo QuikTime sur Internet.
3 méthodes pour produire un son

Lire un CD audio composé de pistes appelées "tracks"
Lire un son de type "waveform" : fichiers au format WAV, AIFF, ou AU utilisant le matériel de la carte son. Lire un fichier MIDI


Sites en relation avec les systèmes de numérisation & codecs -
DSP TrueSpeech http://www.dspg.com/prodtech/truespch/main.htm
Lernout & Hauspie http://www.lhsl.com - activités -
Lernout & Hauspie http://officeupdate.lhsl.com - traduction -
Codecs son & vidéo http://www.terran.com/CodecCentral/Codecs/index.html

 


Création d'un fichier TrueSpeech

  1. Créer un fichier .WAV. (si vous partez d'un fichier .WAV existant passer à l'étape 2)
    Créer un fichier .WAV avec un échantillonnage de 8 kHz et une résolution de 16 bits
    (une résolution supérieure serait inutile)
    Toute carte son multimédia de type "Sound Blaster 16" ou compatible permet cette conversion.
    Utiliser "Cool Edit" ou "SoundForge" si votre équipement ne supporte pas ce format.

  2. Convertir le fichier .WAV en fichier TrueSpeech
    Utiliser le magnétophone de Windows 95 [Demarrer - Programmes - Accessoires - Multimedia]
    Puis [Fichier - Ouvrir] pour ouvrir le fichier .WAV
    Puis [Fichier - Propriétés - Convertir]
    Sélectionner le format DSP Group TrueSpeech désiré.
    Changez le nom du fichier codé si nécessaire.
    Tapez [OK].
    Vous obtenez le fichier compressé.

    Pour Macintosh ou Windows 3.11 téléchargez l'utilitaire TrueSpeech conversion utility

  3. Créer un script de lancement
    Supposons que le fichier contenant le son compressé sur votre serveur soit : www.machin.com/audio/test.wav
    Utiliser un éditeur standard (Notepad p. ex.) pour créer un script test.tsp dans lequel vous écrivez :
    TSIP>>www.machin.com/audio/test.wav
    Le nom "test" n'est pas obligatoire, l'extension "tsp" si !
    Ne pas écrire le http:// devant www.

  4. Liez une image ou un texte au fichier *.tsp
    Quand on cliquera sur le lien le script lancera TrueSpeech Player et ira chercher le fichier .WAV dans son emplacement.
    Pour écouter des fichiers TrueSpeech vous pouvez télécharger le logiciel en http://www.dspg.com/player/dwnld.htm

 


Son de qualité

La bande passante des sons de qualité est celle de l'oreille humaine : 20 Hz - 20 kHz.
40 000 échantillons par seconde sont donc nécesaires d'après le théorème de Shanon pour passer correctement les fréquences les plus aiguës.

Le son stéréophonique étant composé de deux canaux indépendants, la bande passante en bit/s est doublée.

Nota :
En fait, dans les configurations d'enregistrement habituelles, les signaux des canaux droit et gauche présentent peu de différence.
Il suffirait de coder un canal et le signal différence des canaux droit et gauche. Der par ses faibles valeurs, cette différence ne nécessiterait pas un codage aussi riche que celui d'un canal intégral.
Mais cela désavantagerait certains créateurs qui souhaiteraient, pour certaines oeuvres, une totale indépendance des canaux.


Valeurs usuelles pour le codage MIC
Modulation par Impulsions Codées
PCM (Pulse Coded Modulation)
Echantillons/s
( Hz )
Résolution
( bits )
Mono
Stéréo
Débit
( octets/s)
8000
8
Mono
8 000
8000
8
Stéréo
16 000
8000
16
Mono
16 000
8000
16
Stéréo
32 000
11 025
8
Mono
11 025
11 025
8
Stéréo
22 050
11 025
16
Mono
22 050
11 025
16
Stéréo
44 100
22 050
8
Mono
22 050
22 050
8
Stéréo
44 100
22 050
16
Mono
44 100
22 050
16
Stéréo
88 200
44 100
8
Mono
44 100
44 100
8
Stéréo
88 200
44 100
16
Mono
88 200
44 100
16
Stéréo
176 400

 


Aller à la page "Signaux sonores"
Aller au carrefour "Sommaire Signaux"
Aller au carrefour "Sommaire général Réseaux"