Qu’est-ce que le format AAC ? Y a-t-il une différence entre les formats audio MP3, AAC, FLAC et lequel devriez-vous utiliser ? Nouveau codage audio avancé aac

Je voudrais vous présenter le même format audio que A.A.C..

Quels sont les avantages de cela Format AAC sur d'autres, par exemple sur mp3 ?

Jusqu'à 48 canaux audio ;
Une plus grande efficacité de codage à des débits binaires constants et variables ;
Taux d'échantillonnage de 8 Hz à 96 kHz (MP3 : 8 Hz - 48 kHz) ;
Mode stéréo commun plus flexible.

> En termes simples, la CAA n'est pas seulement un meilleur format que les autres, mais elle présente également des avantages.

Stockez-vous toujours votre musique en MP3 et LOSSLESS ?

Notre réponse à cette question est uniquement la CAA ! Jugez par vous-même : les plus grands réseaux sociaux utilisent ce format dans les vidéos, ce qui leur permet de gagner considérablement de l'espace sur leurs disques durs. Le format est pris en charge par la plupart des téléphones modernes capables de lire des mp3, wma. Par exemple, Nokia Corporation enregistre les sonneries standard trouvées sur ses téléphones au format AAC. Vous n'êtes toujours pas convaincu de sa supériorité ? Passons ensuite aux chiffres...

Lorsqu'il est compressé du format MP3 au format 3GPP AAC+, le fichier musical perd au moins TROIS fois!

C'est-à-dire que nous prenons un fichier avec un débit sonore de 320 kbps, et en sortie nous obtenons un débit de 48 kbps. Nous comptons 320/48 = 6,666. Autrement dit, le fichier MP3 pourrait potentiellement être réduit à SIX FOIS!

Imaginez maintenant que votre bibliothèque audio de 40 Go stockée au format MP3 soit réduite de trois fois 40/3=13 ! TOTAL TREIZE GB ! En même temps, la qualité sonore NE FERA PAS DE MAL À RIEN. Si vous en doutez, je dirai ceci : je stocke toute ma musique au format AAC, donc il y a trois ans j'avais un disque dur de 40 Go. Oui, oui, ne soyez pas surpris) J'ai donc commencé à chercher des moyens de réduire ma bibliothèque audio. Je ne voulais pas supprimer la musique, j'ai juste tout transféré en AAC. Bien sûr, sur mon AMD 1500+ cela s'est fait par étapes et pas aussi vite que je l'aurais souhaité, mais je l'ai fait !

Vous voulez plus d'informations ?

Aujourd’hui, les fabricants de disques durs souhaitent que leur produit soit acheté. À cet égard (croyez-le ou non), vous êtes obligé de télécharger de plus en plus, de stocker la plus grande quantité d'informations sur vos disques, dans la taille de fichier la plus encombrante. Par exemple, les formats vidéo BluRay modernes. Je ne dis pas que si vous avez un écran géant, vous devez simplement utiliser ce format, mais si vous utilisez des moniteurs ordinaires, jusqu'à 22", alors dites-moi, pourquoi devriez-vous regarder des films dans un format dont l'image est plus grand que votre moniteur ?

Qu’en est-il du SANS PERTE ?

Les gars, comprenez enfin que ce format a été créé pour un usage spécial dans les endroits où il est vraiment nécessaire. Pour une écoute régulière via un lecteur sur un ordinateur IL N'EST PAS NÉCESSAIRE! Le sans perte est h un gaspillage d'espace disque. À l'oreille, une personne ne peut pas percevoir la différence entre une AAC de haute qualité et sans perte. Je vous recommande donc ce format. Bien sûr, vous serez immédiatement méfiant, mais... Je vous conseille d'essayer ceci. Et vous comprendrez par vous-même que vous ne pouvez pas trouver mieux !

Quels sont les inconvénients de la CAA ?

Je comprends les avantages de ce format, mais comment transcoder ma musique ?

je vous conseillerais d'utiliser MediaCoder. C'est un excellent encodeur pour vos fichiers multimédias. Prend en charge un grand nombre de formats, est gratuit h payé.

Comment coder exactement ?

2. Installez en quelques clics, cliquez sur Suivant>...

3. Ouvrez le dossier contenant votre musique, déposez-le dans MediaCoder et choisissez le format.

Annonce

Format de fichier audio AAC

Les fichiers AAC ont été développés pour remplacer les fichiers MP3. La compression avec perte vous permet d'obtenir un son de meilleure qualité aux mêmes débits binaires. Les fichiers AAC sont normalisés par l'ISO/IEC en tant que membres des familles de fichiers MPEG-2 et MPEG-4 (ayant été à l'origine membres de la famille de fichiers MPEG-2 Part 7). Les fichiers AAC contiennent un nombre plus élevé de taux d'échantillonnage (par rapport au MP3), ainsi que jusqu'à 48 canaux. Efficacité d'encodage considérablement améliorée et inclusion de davantage de banques de filtres. La précision du codage des signaux transitoires a été améliorée. Comme les fichiers MP3, les fichiers AAC coupent le son des fréquences que les humains ne peuvent pas entendre. Cela vous permet de réduire la taille du fichier. Comparés au MP3, les fichiers AAC sont nettement plus petits.

Informations techniques sur les fichiers AAC

Les fichiers MPEG-2 partie 7 sont disponibles en trois types de fichiers : AAC-LC de faible complexité, type principal (AAC Main) et fichiers à taux d'échantillonnage variable (AAC-SSR). Les fichiers AAC permettent une mise en forme temporaire du bruit, un échantillonnage non uniforme et une refonte du format du flux binaire (pour 16 canaux stéréo, 16 canaux mono, 16 canaux basse fréquence et 16 canaux de commentaires dans un seul flux binaire). En 1999, MPEG-2 partie 7 a été incorporée à MPEG-4 partie 3. Cela a permis l'introduction de types d'objets audio ainsi que d'une technologie de remplacement continu du bruit. Le format AAC est actuellement décrit dans la norme ISO/IEC 14496-3. Le masquage audio est utilisé en compression avec perte pour supprimer les informations inutiles tout en conservant la qualité.

Plus d'informations sur le format AAC

Dans cet article, je propose d'envisager une méthode efficace pour compresser des fichiers audio. Il s'agit de la deuxième partie d'une série sur l'optimisation des contenus pour téléphones mobiles ; la première, je vous le rappelle, était dédiée à .

En règle générale, les fichiers audio occupent le plus grand nombre, parfois la taille de chaque composition atteint en moyenne 3 à 5 mégaoctets. De tels volumes de stockage dans la mémoire d'un téléphone mobile sont un gaspillage.

Le format le plus populaire reste le mp3, mais en termes d’« efficacité » d’encodage, il est loin d’être idéal. Une alternative est A.A.C., comparé au mp3, il est capable de produire une qualité supérieure avec une taille de fichier similaire.

En pratique, cela vous permet de compresser des fichiers audio à une taille moyenne de 1,5 à 2 Mo, ce qui donne un son légèrement différent de l'original. Cet article fournit un guide sur la façon de convertir des fichiers audio en AAC à l'aide de foobar2000.

Codage audio avancé (AAC)

Il s'agit d'un algorithme de codage audio à large bande qui prend en charge 1 à 48 canaux à des fréquences d'échantillonnage de 8 à 96 kHz. AAC fonctionne à des débits allant de 8 kbps pour la voix mono à 160 kbps par canal pour un encodage de haute qualité utilisant plusieurs cycles d'encodage/décodage.

Le format a été développé conjointement par plusieurs sociétés : AT&T Bell Laboratories, Fraunhofer IIS, Dolby Laboratories, Sony Corporation et Nokia. Le format AAC est activement promu par les titulaires de brevets. Tout d’abord, grâce aux appareils mobiles prenant en charge matériellement ce format. Vous pouvez rappeler le positionnement des téléphones de la série Sony Ericsson Walkman en tant que modèles créés pour les personnes qui attachent une grande importance à la qualité sonore de l'appareil. Ce format est également utilisé dans la boutique en ligne iTunes et dans de nombreux autres domaines liés aux médias.

Principaux avantages de la CAA

  • Jusqu'à 48 canaux audio ;
  • B Ô une plus grande efficacité de codage à des débits binaires constants et variables ;
  • Taux d'échantillonnage de 8 Hz à 96 kHz (MP3 : 8 Hz à 48 kHz) ;
    Mode stéréo commun plus flexible.

Encodage AAC

Pour ce faire, nous utiliserons le programme


Foobar2000 possède une interface minimaliste et extensible et comprend de nombreuses fonctionnalités pour prendre en charge les métadonnées et la lecture audio de haute qualité. Il existe à la fois des composants officiels et
composants tiers avec un large éventail de fonctions supplémentaires.

Principales caractéristiques de foobar 2000

  • Formats audio pris en charge : MP3, MP4, AAC, Vorbis, FLAC, WAV, CD audio, etc. ;
  • Prise en charge complète d'Unicode ;
  • Égalisation du volume (ReplayGain);
  • Conception d’interface facilement personnalisable ;
  • Capacités avancées pour travailler avec des balises ;
  • Prise en charge de l'extraction de CD audio, ainsi que du transcodage de tous les formats audio pris en charge à l'aide du convertisseur de composants ;
  • Prise en charge complète de ReplayGain ;
  • Architecture ouverte qui permet aux développeurs tiers d'étendre les fonctionnalités du lecteur.
système opérateur
Windows XP - SP2 ou supérieur, Vista, Seven.

Pour travailler, vous devez télécharger la dernière version stable de foobar 2000 depuis le bureau. site. Vous pouvez également y télécharger des composants et des plugins supplémentaires. Pour que foobar2000 encode les fichiers audio au format AAC, vous devez télécharger ce codec gratuit et le placer dans le dossier où se trouvent les fichiers du programme.

Vous pouvez télécharger le codec à partir de. sites de développeurs. Il existe deux alternatives populaires : le codec AAC de Nero ou QuickTime AAC d'Apple.

Il y a depuis longtemps des discussions animées sur les forums professionnels pour savoir quel codec AAC est le meilleur ; ils s'accordent souvent sur le fait que les algorithmes psychoacoustiques de l'audio Nero sont mieux implémentés. Pour cet article, le codec choisi est celui de Nero (neroAacEnc.exe), après avoir maîtrisé la technologie d'encodage, vous pourrez essayer QT AAC (qaac.exe).

Lancez foobar2000, ouvrez le fichier à convertir (Fichier - Ouvrir...). Sélectionnez la ligne et sélectionnez convertir dans la liste déroulante.


Nous sommes intéressés par l'élément Format de sortie.


La fenêtre suivante s'ouvrira


Menu de configuration de conversion


Accédez à l'élément AAC (Nero) et cliquez sur Modifier pour lancer le mode de paramètres semi-automatiques.


Dans ce menu, vous pouvez définir les paramètres de l'encodeur AAC (Encoder) - mode d'encodage (Mode) et débit binaire (Qualité). Le mode de débit variable le plus efficace est VBR, ce que foobar2000 nous recommande. La qualité nous permet de déterminer la qualité du fichier de sortie : plus la valeur du débit binaire, mesurée en kilobits/s, est élevée, plus la qualité du fichier audio final et sa taille sont élevées.
Ici, vous devez trouver un compromis entre qualité et taille. Cela ne peut être déterminé qu’expérimentalement. D'après ma propre expérience, je peux dire que
pour un téléphone portable, pour de nombreux fichiers musicaux, un q compris entre 23 et 30 suffit amplement, tout dépend de la complexité de la composition musicale.

Quittez les paramètres - cliquez sur OK, puis sur Retour et enfin sur Convertir. Une fenêtre apparaîtra vous avertissant que vous encodez dans un format avec perte.


Comme il est prévu à l'avenir que ce fichier aac soit lu sur un téléphone mobile, une certaine réduction de la qualité est un processus inévitable. Nous sommes d’accord pour commencer à coder.


Après quelques minutes, si tout a été fait correctement, un fichier avec l'extension m4a - aac sera créé dans le conteneur. Ce fichier devrait être lu sur votre téléphone sans aucun problème, mais si votre modèle refuse de lire le fichier, vous pouvez simplement essayer de changer l'extension de .m4a sur .aac.

Il existe également des commandes supplémentaires, appelées touches, qui vous permettent d'affiner le codec.

Regardons les plus importants lors de l'encodage en mode VBR

-ignorer la longueur- ignorer la durée du fichier, utiliser de préférence.

-q- définit la qualité sonore, 0 - qualité minimale, 1 - maximum. Vous pouvez déterminer la valeur de débit binaire appropriée à l'aide du profil AAC déjà pris en compte.

Les commandes restantes peuvent être copiées à partir de l'exemple ci-dessous.

Afin de pouvoir saisir les clés, vous devez créer un nouveau profil dans foobar2000. Pour ce faire, dans le menu Convert Setup, cliquez sur Ajouter un nouveau et définissez vos valeurs.


Les clés doivent aller dans un certain ordre.

Exemple de ligne valide :-ignorelength -q 0,52 -if - -of %d

Il existe des variantes du format telles que HE-AAC et HE-AACv2 - ces formats signifient que le codec AAC utilise des algorithmes spéciaux pour les débits ultra-faibles. Le fait est que le codec AAC sélectionne lui-même le mode de codage optimal, il n'est donc pas nécessaire d'utiliser les commutateurs -lc, -he et -hev2.

Vous pouvez visualiser les caractéristiques obtenues du fichier audio dans le programme

2009-09-30T20:52

2009-09-30T20:52

Logiciel pour audiophile

Les premières idées sur l’utilisation du masquage psychoacoustique pour compresser des données audio remontent à 1979. Cependant, les encodeurs audio correspondants n'ont commencé à se généraliser qu'au milieu des années 90, lorsque la puissance de calcul des ordinateurs personnels est devenue suffisante pour lire l'audio compressé en temps réel et que la norme MPEG-1 Audio Layer 3, mieux connue sous le nom de MP3, est apparue. Les formats audio compressés sont devenus indispensables pour la transmission audio sur Internet, offrant une qualité sonore stéréo « virtuellement transparente » (c'est-à-dire que le signal codé est impossible à distinguer de l'original pour la plupart des auditeurs) à des débits binaires supérieurs à 128 kbps. Les principes de base du format MP3 peuvent être trouvés dans les articles de K. Glasman (2...8/2005)

Le développement des méthodes de compression de données et de la psychoacoustique a progressivement conduit au fait que la norme MP3 est devenue « à l'étroit » pour la mise en œuvre de nouvelles idées en matière d'encodage audio. En conséquence, en 1997, l'Institut Fraunhofer (Fraunhofer IIS), qui a créé le MP3 au début des années 90, ainsi que Dolby, AT&T, Sony et Nokia, ont développé une nouvelle méthode de compression audio - Advanced Audio Coding (AAC), qui est devenue fait partie des normes MPEG-2 et MPEG-4. Les principales différences par rapport à la norme MP3 sont :

  • prise en charge d'une gamme plus large de formats (jusqu'à 48 canaux) et de fréquences d'échantillonnage audio (de 8 kHz à 96 kHz) ;
  • banc de filtres plus efficace et plus simple : le banc de filtres hybride MP3 a été remplacé par le MDCT (transformation en cosinus discrète modifiée) conventionnel ;
  • des limites plus larges pour faire varier la résolution fréquence-temps dans la banque de filtres - huit fois (en MP3 - trois fois) - ont conduit à un codage amélioré des transitoires (processus transitoires) et des sections stationnaires du signal audio ;
  • meilleur codage des fréquences supérieures à 16 kHz ;
  • un mode de codage stéréo plus flexible, permettant de passer en mode M/S (« joint stéréo ») indépendamment dans différentes bandes de fréquences ;
  • fonctionnalités supplémentaires de la norme qui augmentent l'efficacité de la compression : technologie de génération de bruit dans le domaine temporel (TNS), prédiction à long terme des coefficients MDCT, mode de codage stéréo paramétrique, substitution du bruit perceptuel, fréquences de technologie de restauration à grande vitesse (SBR).

Grâce à ces fonctionnalités, la norme AAC est capable d’obtenir un encodage audio plus flexible et plus efficace, et donc de meilleure qualité. En raison de l'utilisation généralisée du format MP3, la norme AAC n'a pas encore acquis une popularité comparable à celle du MP3. Cependant, AAC est le format principal des populaires iTunes Store, iPod, iTunes, iPhone, PlayStation 3, Nintendo Wii et diffusion numérique DAB+/DRM.

Examinons de plus près les principales fonctionnalités d'AAC.

Banque de filtres

Comme les autres encodeurs audio psychoacoustiques, AAC fonctionne selon le schéma suivant. Le signal d'entrée passe à travers une banque de filtres - une transformation qui transfère le signal du domaine temporel au domaine temps-fréquence (semblable à la construction d'un spectrogramme). En parallèle, le modèle psychoacoustique analyse le signal et détermine les seuils de masquage psychoacoustique. Ensuite, les coefficients spectraux du signal en sortie du banc de filtres sont quantifiés pour que le spectre du bruit, si possible (si le débit le permet), soit inférieur aux seuils de masquage et ne soit pas audible. Les coefficients quantifiés sont compressés sans perte dans un fichier de sortie AAC. Ainsi, le banc de filtres lui-même ne compresse pas le signal, il le convertit uniquement sous une forme plus adaptée à la compression.

Une caractéristique de chaque banc de filtres est sa résolution en fréquence, c'est-à-dire le nombre de bandes de fréquences en lesquelles il divise le spectre du signal. La plupart des banques de filtres utilisées pour la compression audio comportent plusieurs centaines de bandes. Cela signifie que, du fait de la relation d'incertitude, de tels bancs de filtres ont une résolution temporelle de l'ordre de plusieurs dizaines de millisecondes. Lorsque les coefficients spectraux d'un signal sont quantifiés, l'erreur de quantification introduite lors du décodage du signal est répartie dans le temps sur toute la longueur de la fenêtre du banc de filtres. Dans certains cas, cela se traduit par un effet indésirable appelé pré-écho. Cela se manifeste lorsqu'une erreur de quantification provenant d'un transitoire (une forte explosion d'énergie dans le signal) se propage dans le temps jusqu'au segment temporel précédant le transitoire et devient audible (Fig. 1). Pour réduire cet effet, des banques de filtres à résolution temps-fréquence variable sont utilisées. Par exemple, MP3 utilise une résolution temporelle de banque de filtres commutant entre 26 et 9 ms. Pour les signaux stationnaires, des fenêtres de 26 ms sont utilisées pour obtenir une bonne résolution en fréquence, et pour les transitoires, des fenêtres de 9 ms sont utilisées pour réduire l'effet de pré-écho (voir Fig. 1).

L'algorithme AAC utilise également la commutation de taille de fenêtre MDCT. Dans le même temps, la différence de taille des fenêtres est multipliée par huit : 6 et 48 ms (256 et 2048 échantillons). Grâce à cela, l'algorithme est capable de s'adapter à une plus large gamme de signaux et d'obtenir un meilleur degré de compression.

Technologie TNS - formation d'une enveloppe de bruit d'amplitude

L'un des problèmes des encodeurs audio psychoacoustiques modernes est de travailler avec des transitoires (processus transitoires dans un signal audio). Pour obtenir un codage transparent, le bruit de quantification doit se situer dans un seuil de masquage dépendant du temps. Cependant, en pratique, cette exigence est difficile à satisfaire dans les processus quasi transitoires, car Le bruit de quantification généré lors du codage se propage dans le temps lors du décodage sur toute la longueur de la fenêtre MDCT. Cela peut entraîner un bruit de quantification dépassant considérablement les seuils de masquage temporel.

La technologie TNS (Temporal Noise Shaping) de la norme AAC permet de contrôler la propagation du bruit de quantification temporelle au sein de chaque fenêtre MDCT. La technologie TNS repose sur la similarité (dualité temps-fréquence) de l'enveloppe d'amplitude du signal et de l'enveloppe de son spectre, ainsi que sur l'utilisation de la prédiction linéaire (LPC) en fréquence lors de la quantification du spectre.

Il est bien connu que pour les signaux dont le spectre est très différent du blanc (par exemple les tons), l'utilisation de la prédiction linéaire (LPC) dans le domaine temporel peut effectivement « blanchir » le spectre et coder ces signaux en les décomposant en coefficients de prédiction et une erreur de prédiction d'amplitude relativement faible (résiduelle). Lors du décodage, le filtre de prédiction linéaire génère un spectre d'erreur en fonction du spectre du signal d'origine.

Un codeur AAC utilise la prédiction linéaire de la manière opposée : pour prédire des échantillons spectraux dans le domaine fréquentiel. La différence entre les coefficients MDCT d'origine et prédits est quantifiée en fonction de seuils de masquage (dans les codeurs traditionnels, les coefficients MDCT d'origine sont quantifiés). Les coefficients de prédiction linéaire sont également écrits dans le fichier de sortie. Lors du décodage d'un signal, un filtre de prédiction linéaire appliqué à un signal de différence dans le domaine fréquentiel (y compris l'erreur de quantification) produit une enveloppe d'amplitude du signal d'origine (et l'erreur de quantification) dans le domaine temporel. Ainsi, l'enveloppe d'amplitude des erreurs de quantification devient proche de l'enveloppe d'amplitude du signal d'origine (Fig. 2).

La technologie TNS réduit l'effet de pré-écho et la visibilité des erreurs de quantification sur certains signaux harmoniques à caractère pulsé de production sonore (parole, certains instruments à vent et à archet). En figue. La figure 2 compare les erreurs de quantification introduites dans le signal vocal par les algorithmes AAC et MP3 avec les mêmes débits. Parallèlement à une diminution générale de l'erreur de quantification (due à la plus grande efficacité de l'AAC), la formation de l'enveloppe d'amplitude de l'erreur de quantification temporelle est observée en fonction de l'enveloppe du signal d'origine.

Dans la norme AAC, la technologie TNS peut être appliquée indépendamment à des bandes de fréquences individuelles du spectre ou complètement désactivée.

Technologie SBR - restauration haute fréquence

Une transmission fiable sur une large plage de fréquences est une condition importante pour un codage de haute qualité. Cependant, la transmission de chaque octave suivante de la plage audio augmente d'une fois et demie à deux fois les exigences de débit binaire pour un encodeur audio traditionnel. Pour réduire le débit binaire et en même temps préserver les hautes fréquences dans le matériel codé, la technologie de synthèse artificielle des hautes fréquences SBR (réplication de bande spectrale) a été créée.

La technologie est basée sur le fait que notre audition analyse les hautes fréquences avec moins de précision que les moyennes et basses fréquences. Pour créer l’effet de présence de hautes fréquences, il n’est pas nécessaire de reconstruire mathématiquement avec précision la forme d’onde, mais plutôt seulement de restaurer certains paramètres psychoacoustiques essentiels du signal aux hautes fréquences. Ces paramètres essentiels incluent la distribution temps-fréquence (enveloppe) de l’énergie du signal et le degré de sa tonalité/bruit.

L'idée de l'algorithme est la suivante. Lors de l'encodage, les hautes fréquences du signal audio original sont analysées et leurs paramètres sont extraits : tout d'abord, l'enveloppe d'amplitude dans plusieurs (généralement huit) bandes de fréquences. Ensuite, les hautes fréquences sont supprimées de l’enregistrement et seules les basses et moyennes fréquences restantes sont codées. Dans le même temps, un flux relativement restreint d'informations sur les paramètres des hautes fréquences perdues est également ajouté au fichier de sortie.

Pendant la lecture, le signal basse et moyenne fréquence est décodé en premier. Ensuite (s'il est présent dans le lecteur), le décodeur SBR commence à fonctionner. La première étape consiste à synthétiser un signal haute fréquence en transposant (plus précisément, en déplaçant la fréquence) les fréquences moyennes existantes. Étant donné que le degré de tonalité/bruit du spectre aux moyennes et hautes fréquences est approximativement égal, cette étape aboutit à un signal haute fréquence avec une structure spectrale plausible. Dans un deuxième temps, le décodeur SBR utilise les informations haute fréquence supplémentaires stockées pour lui donner l'enveloppe d'amplitude souhaitée dans chaque bande de fréquence. Le résultat est un signal dans lequel les hautes fréquences sont entièrement synthétisées à partir des fréquences moyennes, tout en conservant le son des hautes fréquences d'origine.

La technologie SBR peut être appliquée à de nombreuses méthodes de codage audio existantes. Par exemple, SBR en combinaison avec MP3 est appelé MP3 PRO, et SBR en combinaison avec AAC est appelé HE-AAC (high efficient AAC). Fondamentalement, SBR est utilisé lors du codage avec des débits binaires relativement faibles : 64 kbit/s et moins. La technologie vous permet d'élargir considérablement la gamme de fréquences du signal audio avec une augmentation minimale du débit binaire (plusieurs kbit/s).

Technologie stéréo paramétrique

La transmission d'un signal stéréo nécessite généralement que l'encodeur ait un débit binaire presque 2 fois supérieur à celui de la transmission d'un signal mono. Dans ce cas, les canaux stéréo peuvent être codés indépendamment et après conversion M/S. Dans ce dernier cas, le canal S consomme souvent moins de débit que le canal M. Ce mode d'encodage est également appelé stéréo conjoint. Dans la norme AAC, ce mode peut être activé et désactivé par l'encodeur indépendamment pour chaque bande de fréquence.

Pour un codage plus efficace des signaux stéréo à très faibles débits (16...32 kbit/s), une technologie de codage stéréo paramétrique a été développée. Cela consiste dans le fait que le signal stéréo est réduit en mono avant l'encodage, mais un petit flux (2...3 kbit/s) est ajouté au fichier de sortie, contenant des informations sur le panorama stéréo du fichier stéréo d'origine. Ce flux contient (sous forme compressée) une sorte de « carte panoramique » du plan temps-fréquence.

Lors de l'étape de décodage, un panoramique dépendant de la fréquence est appliqué au signal mono résultant. Ceci peut être effectué simultanément au décodage en appliquant des multiplicateurs d'amplitude appropriés aux coefficients MDCT initialement égaux des canaux gauche et droit.

La technologie stéréo paramétrique donne une bonne impression du son stéréo original au prix d'une légère augmentation du débit binaire par rapport à l'encodage mono. Cependant, il ne permet pas d'obtenir un son totalement transparent, car il est incapable de prendre en compte toutes les nuances du panorama stéréo, par exemple les déphasages entre les canaux stéréo.

La technologie stéréo paramétrique a été incluse dans la norme HE-AAC v2.

Technologie PNS - génération de bruit

Pour augmenter encore l'efficacité du codage des signaux de bruit, la norme AAC fournit la technologie PNS (perceptual noise substitution) pour la synthèse du bruit. On sait que notre oreille est plus sensible au spectre d’amplitude d’un signal qu’au spectre de phase. Par conséquent, au lieu de coder les coefficients MDCT du signal original dans des régions de bruit, vous pouvez uniquement transmettre les paramètres du bruit : sa puissance en fonction de la fréquence et du temps.

C'est ainsi que fonctionne la technologie PNS. Lors du codage, les régions du spectre qui représentent le bruit sont identifiées et les groupes correspondants de coefficients MDCT sont exclus du processus de codage. La bande de fréquences est marquée comme bruit et l’énergie totale du bruit correspondante est stockée.

Lors du décodage, des coefficients MDCT pseudo-aléatoires avec la puissance totale requise sont remplacés dans des bandes de fréquences marquées comme bruit. En conséquence, dans les plages de fréquences spécifiées, un bruit est synthétisé dont le son est proche du bruit d'origine.

Technologie de prévision à long terme – prédiction temporelle

Le codage psychoacoustique des signaux sonores nécessite un rapport signal/bruit local plus élevé que le codage des signaux sonores (par exemple, 20 dB et 6 dB, respectivement). Et cela nécessite à son tour un débit binaire accru. Cependant, les coefficients MDCT des tonalités sont prévisibles dans le temps. Cette circonstance permet d'exploiter leur dépendance temporelle pour réduire le débit.

La norme AAC fournit un mode de prédiction à long terme, dans lequel les coefficients MDCT sont en outre codés dans le temps à l'aide d'une prédiction linéaire. Le terme « long terme » signifie que la prédiction est effectuée non pas à partir d'échantillons adjacents, mais à partir d'échantillons séparés par la période tonale la plus probable à une fréquence donnée.

Quantification et compression des coefficients MDCT

Semblable au standard MP3, AAC utilise la quantification non linéaire des coefficients MDCT et la compression à l'aide de la méthode Huffman. Les coefficients MDCT sont quantifiés après avoir été augmentés à la puissance 0,75, ce qui permet d'augmenter l'erreur de quantification pour les signaux forts et de la réduire pour les signaux faibles dans chaque bande de fréquence. De cette manière, une formation implicite supplémentaire du spectre de bruit est réalisée.

Après quantification, les coefficients MDCT sont compressés à l'aide d'un ensemble de tables de Huffman fixes. Dans la norme AAC, il y a plus de ces tableaux qu'en MP3, et les possibilités de regroupement des coefficients sont plus larges. Il en résulte une augmentation supplémentaire de la compression.

Qualité sonore

Lors de l'évaluation de la qualité sonore des encodeurs audio, des tests subjectifs sont généralement utilisés. Les auditeurs se voient présenter des fragments d'enregistrements compressés par différents encodeurs et évaluent la pureté sonore de chaque fragment sur une échelle de 1 à 5. Le meilleur codec est considéré comme celui qui est capable d'obtenir une qualité sonore supérieure à celle de ses concurrents. à un débit donné.

Une source Internet faisant autorité qui fournit les résultats de ces tests est le site http://www.rjamorim.com/test/. Il présente des tests de divers codecs à différents débits. Les résultats présentés sont généralement en bon accord avec d’autres sources. Voici quelques résultats pour les encodeurs MP3 et AAC pour vous aider à comparer leur qualité.

Le meilleur encodeur MP3 est le gratuit Lame. Cependant, pour la plupart des débits binaires, sa qualité est inférieure aux normes de compression les plus récentes. À des débits binaires élevés (au-dessus de 128 kbps), ce décalage est faible et le leader est l'encodeur Ogg Vorbis.

Avec un débit binaire de 64 kbps, l'avantage de l'AAC est déjà perceptible. Dans la variante HE-AAC, l’algorithme obtient un score de 3,68. Cela correspond à peu près à Lame avec un débit binaire de 96 kbps et signifie que l'AAC est environ 1,5 fois supérieur au MP3. Le score de Lame à 128 kbps est de 4,29.

Avec un débit de 32 kbit/s, l'encodeur AAC de Nero présente une amélioration significative de la qualité par rapport au MP3 : scores de 3,23 et 1,72, respectivement. Cependant, l'AAC n'est que légèrement en avance sur le format MP3PRO, qui a reçu une note de 3,08. Cela indique que la technologie SBR améliore considérablement la qualité à faible débit.

conclusions

Grâce aux nouvelles technologies utilisées dans la norme AAC, ce format présente un avantage notable par rapport au MPEG-1 Layer 3 (MP3), lui permettant d'obtenir une meilleure qualité sonore aux mêmes débits. Un gain particulièrement fort est observé dans le domaine des faibles débits : 96 kbit/s et moins. Cela confirme la promesse du format AAC pour la diffusion numérique.

La popularité de l’AAC pour la distribution de musique sur Internet reste aujourd’hui faible par rapport au format MP3. Les utilisateurs continuent de préférer la meilleure portabilité du MP3 à la compression plus forte de l'AAC. Une partie importante des archives musicales des sites qui distribuent de la musique sont déjà au format MP3 et les fournisseurs n'ont pas accès aux enregistrements non compressés. Cela signifie qu'il ne sert à rien de transcoder de tels enregistrements au format AAC - la qualité est souvent déjà perdue. Cependant, les nouveaux lecteurs de poche et certaines boutiques en ligne supportent déjà le format AAC, souvent avec vérification de la légalité du contenu (ce qui décourage également les utilisateurs qui préfèrent ne pas se limiter à copier de la musique).

Bien que très prometteur, le format AAC n’est pas le seul format de compression audio de haute qualité. À des débits binaires élevés (supérieurs à 128 kbps), la qualité AAC est souvent inférieure à celle des encodeurs Ogg Vorbis et Musepack. Aux débits les plus bas (moins de 32 kbit/s), l'AAC peut être inférieur aux encodeurs audio paramétriques, y compris les encodeurs spécialisés pour la compression vocale. Cependant, dans la gamme des débits moyens à faibles, l’AAC conserve actuellement la palme.

Alexeï Loukine
Magazine "Ingénieur du Son" 2008 #1

Les deux formats utilisent le même conteneur, mais avec ALAC aucune information n'est perdue.

AAC (Advanced Audio Coding) a été créé à l'origine pour succéder au MP3 avec une qualité d'encodage améliorée. Le format AAC, officiellement connu sous le nom d'ISO/IEC 13818-7, a été lancé en 1997 en tant que septième membre de la famille MPEG-2. Il existe également un format AAC appelé MPEG-4 Part 3.

Comment fonctionne la CAA ?

  1. Les composants du signal qui ne sont pas perçus par les humains sont supprimés.
  2. La redondance dans le signal audio codé est supprimée.
  3. Le signal est ensuite traité selon la méthode MDCT en fonction de sa complexité.
  4. Des codes de correction d’erreurs internes sont ajoutés.
  5. Le signal est stocké ou transmis.
  • .m4a - Extension standard ;
  • .m4b - Fichier AAC prenant en charge les signets ; utilisé pour les livres audio et les podcasts ;
  • .m4p - fichier AAC protégé ; utilisé pour protéger un fichier contre la copie lors du téléchargement légal de musique protégée par le droit d'auteur à partir de magasins en ligne tels que l'iTunes Store ;
  • .m4r est un fichier de sonnerie utilisé dans l'iPhone d'Apple.

voir également

Donnez votre avis sur l'article "Codage audio avancé"

Remarques

Extension de fichier .aac
Catégorie de fichier
Exemple de fichier (1,2 Mo)
Programmes associés Lecteur Windows Media
iTunes
KMPlayer
Vrai joueur
Lecteur multimédia VidéoLAN VLC