ОПЫТЫ
Не цифра убивает звук
АНДРЕЙ ВОЛОВ
volov@ippe.obninsk.com


С подачи Георгия Башилова поймал себя на мысли: а не отстал ли я от жизни, упорно игнорируя сжатый звук, после того как в свое время безнадежно разочаровался, послушав попавшие ко мне сомнительным путем МР3-файлы...



Технологии цифровой компрессии звука проникли практически в каждое современное аудио- и видеоустройство. Сколько уже накопилось файлов в формате МР3 на вашем мультимедийном компьютере или на самопальных сидючках? И не положили ли вы глаз на карманный МР3-плейер с флэш-картой вместо привычной компакт-кассеты? А может, кто-то из друзей искушает вас установить в автомобиль аппарат с проигрыванием МР3? Меломаны со стажем и ценители HiFi-звука, скорее всего, скептически отнеслись к МР3, не клюнув на многочисленные удобства заполучения и хранения сжатой таким образом музыки. Тем не менее, большинство меломанов и экспертов с восторгом отзываются о звуке DolbyDigital 5.1, который записан на DVD-Video-дисках в... сжатом виде, а именно в АС3!

Ну, сжатие сжатию рознь, - скажут некоторые и будут абсолютно правы. Об АС3 поговорим в другой раз, а сегодня разберемся с тем, что же мы теряем, выбрав МР3, и какая может быть разумная альтернатива.

Вместо теории

Наиболее удачные методы сжатия звука основаны на психоакустических особенностях восприятия звука нашими ушами-мозгами (см., например, [1]). Алгоритмы сжатия вычленяют неслышимые (то есть невоспринимаемые ухом) звуки и исключают их в соответствии с определенной психоакустической моделью, тем самым минимизируя величину потока данных на выходе.

Например, в МР3 используется психоакустическая модель на основе 1024-точечного быстрого преобразования Фурье (БПФ), а так же два типа банков многодиапазонных частотных фильтров. Высокое разрешение по частоте позволяет кодировать сигналы, состоящие из чистых тонов. Подробности об "изнанке" МР3 можно почерпнуть из статей на английском [2] и обзора на русском [3].

Некоторые алгоритмы используют информацию, содержащуюся в параллельных каналах. Особенно хороши перспективы у алгоритмов сжатия многоканального звука с перманентными окружающими эффектами, - например, когда звук постоянно бегает по каналам, в каждый период времени гостя только в одном канале и отсутствуя в остальных. Тогда достаточно единожды сохранить этот звук и знать "расписание" его появления в разных каналах.

Однако эти примеры отражают суть дела очень упрощенно. Математика качественного сжатия звуковых сигналов по зубам только мощным процессорам; кодирование одного трехминутного трека в формате VQF может занять более десяти минут на Pentium II 400 МГц. Скорость кодирования зависит от выбранной психоакустической модели, специфики математических преобразований и их программной реализации. Поскольку при восстановлении сжатого сигнала не нужно выявлять невоспринимаемые звуки, загрузку процессора во времени удается сделать приемлемо низкой (менее 5-10% для PII 400). Но бизнес требует жертв, посему "декодирование" может быть разным даже в пределах одного формата (как и кодирование), что приводит к разному качеству звука при проигрывании одного и того же сжатого файла. Сравнительный обзор звучания МР3-плейеров и много полезного по МР3 см. [4, 5].

Не последнюю роль играет качество исходного материала. Алгоритм сжатия сам по себе не устранит потрескивание пластинки или шипение магнитной ленты. Все шероховатости и искаженьица могут быть гипертрофированы при сжатии и усугублены при декодировании, причем по-разному - в зависимости и от алгоритма сжатия, и от типа искажений в исходном материале.

В настоящее время идет упорная борьба между различными алгоритмами сжатия звука. На роль МР3 (MPEG-1 Layer-3), общепринятого в 1991 году, претендуют форматы VQF и AAC.

Переходим к практике

Идеальный со всех точек зрения путь для получения "своего" звука - самостоятельное сжатие любимых аудиотреков. Всем меломанам имеет смысл сохранить в "цифре" записи с дорогих сердцу компакт-кассет, тем самым своевременно подготовившись к новой эре портативно-транспортабельных аудиоплейеров. Корректная оцифровка не является проблемой, сегодняшние аудиокарточки за 50-60 у. е. (Live!1024, Aureal Vortex2 SQ2500) сделают великолепную "цифру". По ходу дела полезный совет: многие нынешние аудио-CD записаны под "ноль", то есть максимальная амплитуда сигнала равна пределу динамического диапазона, а в этом случае алгоритмы сжатия МР3 и VQF дают кучу мощных нелинейных искажений, поэтому рекомендую перед сжатием приглушать "сграбленные" треки хотя бы на пару децибел.

Предвижу улыбки: а как же с основным преимуществом сжатого звука - возможностью заполучения из Интернета? Безусловно, покупать "мьюзик" через Интернет очень удобно: послушал, выбрал и тут же получил, не выходя из дома. Думаю, со временем формат и поток можно будет выбирать на вкус, а нынче в России число купивших законный сжатый звучок до смешного невелико, хотя все прекрасно знают, что бесплатный сыр бывает только в мышеловке. Так что наивно ждать качества от дешевой (а тем более бесплатной) сжатой музыки.

Вероятность нарваться на плохенького "сжимальщика" не столь велика, если пользоваться последними версиями brand name. Довольно подробная информация об МР3-кодеках представлена в [6]. Так, MusicMatch JukeBox 5.0 доступен для свободного скачивания (www.musicmatch.com/download) и хорош для сжатия в форматах как МР3 (обеспечивается выходной поток до 320 кбит/с), так и WMA.

Многообещающий формат AAC пока оставим в покое, благо есть бесплатный и легальный VQF (кодировщики и проигрыватели выбирай на вкус: www.vqf.com/software). Полное название этого алгоритма: Transform-domain Weighted Interleave Vector Quantization. Иногда для краткости его называют TwinVQ или VQF. Продвигает этот алгоритм не кто-нибудь, а Yamaha, что кое о чем говорит. Разработчики стремились получить максимальное сжатие при сохранении качества звука. Цель: захватить доставку "звука" через Интернет. Принципы работы алгоритма не разглашаются. Официально заявляется, что при той же скорости потока VQF обеспечивает качество звука намного лучшее, чем MP3, или, как следствие, значительно меньший (30-35%) объем файлов при сравнимом качестве. VQF при потоке 96 кбит/с (фирма обычно указывает величину потока из расчета на один канал, здесь, имея в виду стерео, уже умножили на 2) дает такое же качество, что и МР3 при 256 кбит/с. Недостаток, признаваемый разработчиком: большая загрузка процессора при декодировании (30% против 15-20% у МР3 при 128 кбит/с для Pentium ММХ 200). Умалчиваемый недостаток - значительная продолжительность кодирования в режиме высокого качества: в 4-12 раз дольше (зависит от "сложности" музыки), чем для МР3.

источники

[1] www.computerra.ru/1999/24/22.html
[2] www.mp3-tech.org/programmer/docs
[3] ixbt.stack.net/multimedia/mp3_new.html
[4] ixbt.stack.net/multimedia/mp3-plrs-test.html
[5] ixbt.stack.net/multimedia/mp3_new1.html
[6] ixbt.stack.net/multimedia/mp3-codec-tst1.html

Продолжение следует

Ваши предложения и замечания ждем по адресу: tails@computerra.ru

Предыдущий материал | Оглавление номера | Следующий материал

Предыдущая рубрика: КНИЖНАЯ ЛАВКА
Следующая рубрика: КНОПКИ

Текущая рубрика: ОПЫТЫ