Standards de numérisation
du Son

Contenu de cette page :

Son téléphonique - bande passante - échantillonnage - codages -
Contraintes de temps réel.
Codeurs audio.
Son musical de qualité.

Rappels - c.f. "Numérisation"

La numérisation d'un signal requiert trois opérations combinées :

Son téléphonique - boucle terminale d'abonné classique POTS -

Bande passante théorique : 0 à 4 kHz - qualité très moyenne -
Bande passante pratique : 300 Hz à 3,5 kHz, soit BP = 3,2 kHz

Le théorème de Shanon implique une rapidité de 6 400 échantillons par seconde..
On a retenu 8 000 échantillons par seconde.

La loi de quantification est semi-logarithmique : "loi A" (A-Law) aux EUA, "loi mu" (u-Law) en Europe.

Le codage est fait sur 7 bits aux EUA : standard PCM (Pulse Coded Modulation)
et sur 8 bits en Europe : standard MIC (Modulation par Impulsions Codées).
Le débit est donc (Shanon) de 56 k bit/s aux EUA - Il est de 64 k bit/s en Europe.

Contraintes de temps réel pour la voix interactive

Dans une application interactive, les interlocuteurs éprouvent une gêne lorsque le temps de transmission dépasse 300 ms, soit 600 ms aller-retour.
La valeur de 800 ms aller-retour a été adoptée par l'UIT-T.

Les échos sont une autre cause de gêne s'ils sont espacés de plus de 56 ms, ce qui représente un aller simple à 28 ms.
Ou la traversée du réseau se fait en moins de 28 ms, ou il faut prévoir des dispositifs annulateurs d'écho ou une adaptation des lignes.

Remarquons que dans le temps de traversée du réseau il faut compter le remplisage est de vidage des trames, plus la traversée des commutateurs des réseaux haut débit.
L'échantillonnage à 64 k bit/s implique qu'un octet doit partir, et arriver, toutes les 125 microsecondes.

Exemple :
Dans le cas des réseaux ATM, les cellules de transfert comptent 48 octets de charge utile, il faut donc 6 ms pour remplir une cellule à la vitesse de 64 k bit/s et 6 ms pour la vider à l'autre bout.
Le temps de traversée du réseau est donc au maximum 28 - 2*12 = 16 ms.
A 200 Mm/s, temps de propagation du signal, nous obtenons le diamètre maximal du réseau 3 200 km.
Encore n'avons-nous pas compté le temps de passage dans les commutateurs du réseau. Ce calcul montre les contraintes de temps considérables que le son interactif impose aux réseaux de transmisssion. Il en est tenu compte dans les nouvelles technologies de commutation. Voir "ATM"

Normes de codecs recommandés par le CCITT - ITU-T

Normes	Type de codage	Débit en k bit/s	Qualité
G.711	Numérisation classique 64 k bit/s EU - 56 EUA	5,3 à 6,4	Très bonne
G.723	Compresion de parole	5 k bit/s	Bonne - Tests -
G.726	Différentiel adaptatif	16 - 24 - 32 - 40	Très Bonne
G.727	Différentiel adaptatif - fonction de la charge du réseau	16 - 24 - 32 - 40	Très Bonne
G.728	Différentiel prédictif	16	Bonne
G.729	Différentiel prédictif	8	Bonne

Quelques codecs audio commercialisés

Codecs audio	Echantillonnage ( k bit/s )	Résolution ( bits)	Débit (kOctets/s)	Mono - Stéréo
CITT A-Law	8 / 11,025 / 22,050	8	8 à 86	mono ou stéréo
CITT u-Law	8 / 11,025 / 22,050	8	8 à 86	mono ou stéréo
DSP GroupTrueSpeech	8	1	1	mono
GSM 6.10	8			mono
IMA ADPCM	8 / 11,025 / 22,050 / 44,100	4	8 à 43	mono
Lernout&Hauspie CELP	8	16	1	mono
Lernout&Hauspie SBC	12 / 16 / 8	16	2	mono
Microsoft ADPCM	8 à 44	4	4 à 43	mono ou stéréo
Microsoft G 723.1	8	1	1	mono
SBC (Sub-Band Coding) LPC (Linear Predictive Coding) CELP (Code Excited Linear Production)

Quelques définitions et standards élémentaires

CCITT A-law CCITT u-law	Type de quantification et de compression audio recommandée par le CCITT et supportée par les applications téléphoniques sur le Web de Windows 95. Parmi d'autres applications, A-law et u-law ont été initialement développés comme standards de communication téléphonique.
Codecs TrueSpeech	Développé par la firme "DSP Group's TrueSpeech" ce codec échantillonne le signal à 8 kbit/s en monophonique avec une profondeur de codage équivalente à 1, ce qui réduit le flux à 1 kocte/s. C'est, en volume et en bande passante, le 1/8 ème des résultats obtenus par les plus réduits des formats PCM audio : WAV ou AIFF. Ou le 1/4 du plus réduit des formats ADPCM. En contrepartie, la qualité du son est proche de celle du son téléphonique d'abonné, c'est à dire : bonne pour la voix, médiocre pour la musique.
PCM	Pulse Code Modulation MIC - Modulation par Impulsdions Codées - C'est le format natif de la numérisation (voir "Numérisation - PCM") Utilisé dans les fichiers WAV (Win 95 98) et AIFF(Apple) Compression inexistante : fichiers très volumineux. Il peut être compressé grâce à des CODECS disponibles d'origine ou téléchargés.
AD-PCM	Adaptive Differential Pulse Code Modulation MIC-DA - Modulation par Impulsions Codées - Diférentiel Adaptatif - Cette méthode de codage du son exige moins d'espace de stockage que les formats PCM utilisés dans les fichiers WAV et AIFF ou le format CD-Audio. ADPCM de la firme IMA est utilisé dans les mini disques "Sony" pour faire tenir plus de données dans un petit espace. ADPCM de Microsoft est inclus dans les codecs utilisés par Windows 95 98.
AIFF	Audio Interchange File Format Format audio développé par Apple Computer pour l'enregistrement musical de haute qualité. Egalement utilisé par Silicon Graphics et d'autres professionnels du son. Peut être joué par toute une gamme d'utilitaires téléchargeables sur PC ou MAC.
CODECS	codeur/decodeur ou algorithme de compression/decompression Logiciels, s'appuyant souvent sur des matériels disponibles dans la carte son - DSP - permettant de compresser (puis décompresser) des fichiers son ou multimédia - vidéo. Il en existe toute une variété permettant de résoudre les compromis entre qualité et volume de stockage ou bande passante Exemples : MPEG pour la vidéo. RealAudio pour le son digital. Certains Codecs peuvent être utilisés à flot continu (streaming) : vidéo et son en temps réel. Tous peuvent convertir des formats non compressés tels que les fichiers AVI ou WAV.
Lernout & Hauspie Speech Products	Firme spécialisée dans la reconnaissance vocale, la conversion texte-parole, le codage digital de la voix et de la musique. Techniques utilisées : SBC (sub-band coding), LPC (codebook excited linear predictive coding), harmonic coding. Ils couvrent une large gamme de rapports de compression liés à diverses qualités du son.
WAV	Format de fichier son non compressé codé PCM. Particulier à Windows.
AU	Format de fichiers son de Sun Microsystems pour Unix. Les clients http tels que Netscape Navigator lisent les fichiers d'extension *.au.
MIDI	musical instrument digital interface Standard permettant de relier un ordinateur de type PC ou MAC à des instruments de musique, des synthéiseurs pour réaliser des sons solistes ou orchertraux. Les fichiers MIDI ont pour extension *.mid et comportent uniquement des indications musicales : instruments - notes - sonie - tempos - etc. Le matériel et le logiciel contenu dans chaque élément d'un ensembe MIDI interprète ces informations de manière interactive par un échange de messages. MIDI est très largement utilisé dans les bandes sonores de jeux et studios d'enregistrement.
VOC	Format créé il y longtemps par Creative Labs pour être utilisé dans les premières cartes Sound Blaster sous DOS. Format en perte de vitesse au profit de WAV.
AVI	Audio / Video Interleave Format pour vidéos sous Windows : Video for Windows . Les deux autres formats sont MPEG et QuickTime. Dans un fichier AVI le son et l'image sont alternativement enregistrés. On peut "jouer" ces vidéos grâce à "Window's Media Player. inclus dans W95 et suivants.
MOV	Extension de fichier utilisé par QuickTime multimedia technology to run it. MOV files can be movie clips, such as Video for Windows' AVI files, or still images, such as GIFs.
MPEG	Moving Pictures Experts Group MPEG est un standard de compression du son et de vidéos permettant un téléchargement avec utilisation en temps réel à flot continu (streaming) sur Internet. MPEG-1 délivre vidéo et son à 150 koctets/s - à la même vitesse qu'un lecteur de CD-ROM x1 Une des techniques consiste à gérer séparément les parties de l'image qui changent. MPEG-2 améliore grandement les choses en ramenant la qualité presque au niveau de celle des disques laser et du son CD-stéreo. MPEG-2 a été adopté par les services satellitaires et les DVD. MPEG-3 - plus connu sous le nom de MP3 - est le standard de compression de son assurant à la fois une excellente qualité de reproduction et un excellent taux de compression. Bande passante : 16 kOctets/s 128 kbit/s échantilloné à 44,1 kHz.
DVD	digital versatile disc Appelés à l'origine video disques, ces supports de haute capacité sont actuellement utilisés comme moyens d'enregistrement massif de données aussi bien que pour enregistrer des films entiers. Physiquement semblable au disque compact ou au CD-ROM, DVD représente un saut de capacité considérable par rapport à ses prédécesseurs de 650 MOctets. Un DVD simple-couche mono-face peut stocker 4,7Giga Octets. Un DVD deux couches mono-face : 8,5 GigaOctets Un DVD bi-face : 17 Giga Octets Les DVD requièrent un lecteur spécial qui peut tout aussi bien lire les CD-ROM.
GIF	Graphics Interchange Format Format de compression d'images 256 couleurs maximum. Intéressant pour petites images Internet. Introduit pas CompuServe en 87 (GIF87), il fut amélioré dès 89 par ajoout de l'entrelacement et des l'animation (GIF 89a). interlaced GIF "GIF entrelacé" GIF89a permet d'afficher les images progressivement au fur et à mesure que le fichier les contenant se charge en mémoire. Suivant les explorateurs utilisés on a un effet de flou devenant de plus en plus net ou un effet de "rideau vénitien". Ces effets donnent l'impression que les images se chargent plus rapidement... transparent GIF GIF89a permet au dessinateur de désigner une couleur comme transparente (généralement la couleur du fond) : tout ce qui est en dessous sera vu.
JPEG	Joint Photographic Experts Group Ce format a été développé par le comité "Joint Photographic Experts Group". JPEG compresse les images graphiques ou les photographies jusqu'à 16 millions de couleurs. La compression est variable et peut être contrôlée. Cette compression se fait avec perte de détail et de couleurs. progressive JPEG Les nouvelles versions de JPEG permettent une apparition progressive des images au fur et à mesure que le fichier les contenant se charge en mémoire. Suivant les explorateurs utilisés on a un effet de flou devenant de plus en plus net ou un effet de "rideau vénitien". Ces effets donnent l'impression que les images se chargent plus rapidement...
QuickTime	Developé par Apple Computer, QuickTime permet d'enregistrer des sons, des graphisqmùes et des vidéos. Le fichiers QuickTime ont pour extension .MOV Bien que QuickTime ait été à l'origine décveloppé pour Macintosh, le logiciel d'écoute-visualisation est actuellement disponible pour Windows ou d'autres plateformes.
DSP	Digital Signal Processor. Microprocesseur spécialement développé pour le traitement rapide du signal. Les DSP sont utilisés dans les cartes son, les modems, téléphones portables, pour réaliser des compressions-décompressions en temps réel.
Streaming	Osons une tradution française : "flot continu" On utilise ce qualificatif pour indiquer que des données passent très rapidement d'un dispositif à un autre de telle manière que le dispositif recepteur puisse les utiliser en même temps qu'il les reçoit, sans attendre qu'elles soient toutes arrivées. Cest le cas des échanges de données son lors d'une conversation téléphonique interactive. Ce n'est pas le cas du transfert d'une vidéo QuikTime sur Internet.
3 méthodes pour produire un son	Lire un CD audio composé de pistes appelées "tracks" Lire un son de type "waveform" : fichiers au format WAV, AIFF, ou AU utilisant le matériel de la carte son. Lire un fichier MIDI

Sites en relation avec les systèmes de numérisation & codecs -
DSP TrueSpeech	http://www.dspg.com/prodtech/truespch/main.htm
Lernout & Hauspie	http://www.lhsl.com - activités -
Lernout & Hauspie	http://officeupdate.lhsl.com - traduction -
Codecs son & vidéo	http://www.terran.com/CodecCentral/Codecs/index.html

Création d'un fichier TrueSpeech

Créer un fichier .WAV. (si vous partez d'un fichier .WAV existant passer à l'étape 2)
Créer un fichier .WAV avec un échantillonnage de 8 kHz et une résolution de 16 bits
(une résolution supérieure serait inutile)
Toute carte son multimédia de type "Sound Blaster 16" ou compatible permet cette conversion.
Utiliser "Cool Edit" ou "SoundForge" si votre équipement ne supporte pas ce format.
Convertir le fichier .WAV en fichier TrueSpeech
Utiliser le magnétophone de Windows 95 [Demarrer - Programmes - Accessoires - Multimedia]
Puis [Fichier - Ouvrir] pour ouvrir le fichier .WAV
Puis [Fichier - Propriétés - Convertir]
Sélectionner le format DSP Group TrueSpeech désiré.
Changez le nom du fichier codé si nécessaire.
Tapez [OK].
Vous obtenez le fichier compressé.

Pour Macintosh ou Windows 3.11 téléchargez l'utilitaire TrueSpeech conversion utility
Créer un script de lancement
Supposons que le fichier contenant le son compressé sur votre serveur soit : www.machin.com/audio/test.wav
Utiliser un éditeur standard (Notepad p. ex.) pour créer un script test.tsp dans lequel vous écrivez :
TSIP>>www.machin.com/audio/test.wav
Le nom "test" n'est pas obligatoire, l'extension "tsp" si !
Ne pas écrire le http:// devant www.
Liez une image ou un texte au fichier *.tsp
Quand on cliquera sur le lien le script lancera TrueSpeech Player et ira chercher le fichier .WAV dans son emplacement.
Pour écouter des fichiers TrueSpeech vous pouvez télécharger le logiciel en http://www.dspg.com/player/dwnld.htm

Son de qualité

La bande passante des sons de qualité est celle de l'oreille humaine : 20 Hz - 20 kHz.
40 000 échantillons par seconde sont donc nécesaires d'après le théorème de Shanon pour passer correctement les fréquences les plus aiguës.

Le son stéréophonique étant composé de deux canaux indépendants, la bande passante en bit/s est doublée.

Nota :
En fait, dans les configurations d'enregistrement habituelles, les signaux des canaux droit et gauche présentent peu de différence.
Il suffirait de coder un canal et le signal différence des canaux droit et gauche. Der par ses faibles valeurs, cette différence ne nécessiterait pas un codage aussi riche que celui d'un canal intégral.
Mais cela désavantagerait certains créateurs qui souhaiteraient, pour certaines oeuvres, une totale indépendance des canaux.

Valeurs usuelles pour le codage MIC Modulation par Impulsions Codées PCM (Pulse Coded Modulation)
Echantillons/s ( Hz )	Résolution ( bits )	Mono Stéréo	Débit ( octets/s)
8000	8	Mono	8 000
8000	8	Stéréo	16 000
8000	16	Mono	16 000
8000	16	Stéréo	32 000
11 025	8	Mono	11 025
11 025	8	Stéréo	22 050
11 025	16	Mono	22 050
11 025	16	Stéréo	44 100
22 050	8	Mono	22 050
22 050	8	Stéréo	44 100
22 050	16	Mono	44 100
22 050	16	Stéréo	88 200
44 100	8	Mono	44 100
44 100	8	Stéréo	88 200
44 100	16	Mono	88 200
44 100	16	Stéréo	176 400

Aller à la page "Signaux sonores"
Aller au carrefour "Sommaire Signaux"
Aller au carrefour "Sommaire général Réseaux"

Standards de numérisation du Son