Из слона муху: теория
 
09.03.2004
Тарас Бризицкий


 
стр. 1
стр. 2 >>

Как ни жаль, но российские пользователи на протяжении многих лет были практически лишены достоверной информации о возможностях психоакустической компрессии аудиоданных. В результате пустые домыслы не только множились, но и активно распространялись некоторыми изданиями, а обзоры и технические статьи, написанные некомпетентными авторами, привели к тому, что даже сейчас пользователь Рунета нередко оказывается отрезан от достоверной информации на родном языке.
В этой теме мы постараемся популярно изложить базовые принципы функционирования аудиокодеков, некоторые тонкости работы с ними, а также рассмотрим типичные ошибки, которые совершают начинающие пользователи, желающие создать фонотеку при помощи персонального компьютера.

MP3

Старый добрый MP3, начавший победное шествие по миру лет десять назад, получил столь широкое распространение именно благодаря персоналкам. До появления этого формата хранить высококачественную музыку на компьютере было практически невозможно, из-за недостаточной емкости винчестеров и несовершенства алгоритмов компрессии звуковых данных. Разумеется, MP3, способный сжимать музыку с коэффициентом 1:10 и имевший неслыханное ранее качество звучания, произвел настоящий фурор. Не слишком требовательные к «железу» кодеки позволяли с приемлемой скоростью перегонять музыку в новый формат на первых «Пентиумах», а с воспроизведением MP3-файлов справлялись даже «четверки». К тому же MPEG Layer 3 (полное название формата, существующего в виде нескольких модификаций: MPEG-1/2/2.5) имел статус международного стандарта, что положительно сказалось на его судьбе.

Из всего доступного диапазона битрейтов и режимов кодирования, имевшихся в распоряжении среднестатистического «чайника», самым популярным и известным был и до сих пор остается CBR 128 кбит/с, 44,1 кГц, стерео (при котором одна минута музыки занимает на носителе один мегабайт). Почему именно он? Да потому, что к тому моменту, как VBR и ABR были доведены до более или менее приемлемого состояния, сжатие с постоянным битрейтом уже прочно засело в мозгах пользователей. Битрейт в 128 кбит/с оказался идеальным компромиссом между качеством и размером, вдобавок миф «128 кбит/с = качество CD» стал таким популярным, что его «истинность» до сих пор почти не вызывает сомнений. Главным, конечно же, было удобство обмена аудиофайлами через Интернет, приведшее к тому, что очень скоро серверы, предлагавшие бесплатные коллекции MP3-файлов, стали одними из самых популярных ресурсов Сети, наряду с порносайтами и варезниками.

Первые кодеры, созданные институтом Фраунгофера (Fraunhofer, FhG), разработавшим формат, стоили баснословных денег, так что простые смертные, как правило, могли работать только с кодеками, основанными на демонстрационном коде ISO (International Standard Organization, Международная организация стандартизации). Одним из подобных кодировщиков был Blade — слегка оптимизированная по скорости версия ISO-кодека.

Разумеется, авторы демонстрационного кода вовсе не стремились оптимизировать качество кодирующей части (MP3 позволяет использовать различные алгоритмы кодирования сигнала, в то время как декодер жестко стандартизирован), потому и получаемые при помощи Blade файлы имели посредственное качество звучания.

Еще одним «движком», подорвавшим доверие меломанов к формату, был Xing. На данный момент существует по крайней мере две его версии, последняя из которых может похвастаться вполне приемлемым (www.rjamorim.com/test/mp3-128/results.htm ) качеством работы. Главное отличие Xing от кодеков FhG или ISO — высокая скорость сжатия, что было актуально для владельцев компьютеров середины и даже конца 1990-х годов. Ведь на тогдашних машинах скорость создания MP3-файлов даже в режиме CBR-компрессии едва превышала 1х. Правда, «реактивный» Xing имел существенные недостатки: количество артефактов в синтезированном файле было велико, да и звук оставлял желать лучшего.

Выходом из сложившейся ситуации стал LAME. Этот кодировщик (на базе демонстрационного кода ISO) поначалу делала группа энтузиастов, а потому он распространялся в виде патча к ISO-кодеру. Через некоторое время исходный код ISO был полностью переписан, а проект получил статут open source. Как ни странно, энтузиастам из LAME удалось то, что оказалось не под силу ни FhG, ни создателям какого-либо другого MP3-кодера. В частности, LAME имеет наиболее качественный режим работы Joint Stereo (позволяющий кодировать стереосигнал, учитывая зависимость между звуком в правом и левом каналах) и превосходные средства создания ABR- и VBR-файлов. А с выходом Gogo, значительно «разогнанной» версии LAME, даже у самых нетерпеливых меломанов появилась возможность приобщиться к высокому уровню качества.

Практически все версии LAME, работающие в консоли (последние релизы обычно содержат консольный кодек, DLL-версию и ACM-кодек, используемый для создания и воспроизведения wave MP3-файлов), имеют огромное количество параметров, изменение которых может сильно сказаться на качестве. В результате неопытный пользователь фактически лишался многих преимуществ кодировщика. Положение исправило появление пресетов (от англ. preset), сокращенных наборов команд, оптимизированных для той или иной ситуации.

Первые пресеты, создаваемые разработчиками LAME, не отличались высоким качеством, способным удовлетворить растущие запросы меломанов. Как следствие, начали появляться альтернативы. Например, --r3mix, созданный участниками одноименного форума и вошедший в «официальные» версии кодека, был предназначен для прозрачного кодирования музыки в режиме VBR со средним битрейтом до 200 кбит/с.

Весомый вклад в развитие как самого кодировщика, так и формата MP3 внес Dibrom, основатель форума Hydrogenaudio (www.hydrogenaudio.org ). Создав альтернативные, или альт-пресеты (название появилось из-за того, что при работе перед именем пресета надо было набрать --alt-preset), он сумел оптимизировать настройки кодека во всем диапазоне битрейтов. Наибольшим же достижением Dibrom’а стал --alt-preset standard (или aps), задействовавший все возможности формата для прозрачного кодирования файлов в режиме переменного битрейта. Потребовавший немало усилий (пришлось, например, переписать часть кода LAME), aps стал самым эффективным способом использования возможностей MP3. Затем появилось решение в виде fast-пресетов, с возросшей вдвое скоростью при незначительном снижении эффективности. Фактически возможностей для совершенствования LAME (да и MP3 в целом) остается все меньше, а ограничения формата становятся все более заметными, делая дальнейшую настройку кодека все более сложной. Вероятно, последним крупным событием в истории развития MP3-кодеков станет выпуск LAME 4.

Несмотря на то что MP3 наименее эффективный из современных форматов, хоронить его рано. Ведь многих людей качество звучания МР3-файлов вполне удовлетворяет, а поддержка многоканального звука, gapless-воспроизведения (при использовании стандартного декодера в конец MP3-файла добавляется небольшая пауза, что ограничивает применение формата при кодировании больших миксов, концертных записей и т. д.) или replaygain (алгоритм выравнивания уровня громкости группы аудиофайлов, см. replaygain.hydrogenaudio.org) волнует «чайников» в последнюю очередь. С другой стороны, подавляющее большинство файлов, сжатых при помощи психоакустических алгоритмов, имеет именно формат MP3… Огромное количество MP3/CD-плейеров, DVD-проигрывателей и даже автомагнитол поддерживает воспроизведение файлов этого формата, их попросту нельзя игнорировать.

Психоакустика

Психоакустика — относительно молодая наука, изучающая, как именно человеческий мозг воспринимает аудиосигнал. Не секрет, что даже такой чувствительный инструмент, как человеческое ухо, имеет ограничения. Взять хотя бы эффект маскировки, в результате которого более сильный сигнал полностью заглушает слабый, или инертность слуха, не позволяющую мозгу мгновенно отреагировать на резкое изменение громкости. К сожалению, построить точную математическую модель человеческого до сих пор не удалось. (Подробнее см. www.is.main.vsu.ru/~sav/Multimedia/Materials.htm , журнал «Звукорежиссер» за 1999–2000 гг.)


 
стр. 1
стр. 2 >>

<<Из слона муху: практика
Все материалы номера
Микрофишки >>