ОПЫТЫ
Не цифра убивает звук
АНДРЕЙ ВОЛОВ
volov@ippe.obninsk.com

Для того чтобы провести корректное сравнение [1], пришлось крепко поломать голову, ведь, цитируя преподававшего в МВТУ им. Баумана профессора Савельева, "книги бывают хорошие и толстые".

Прежде всего, на каких музыкальных фрагментах сравнивать? Перебрать по чуть-чуть все стили и инструменты - дело неблагодарное. Голь на выдумку хитра! Софтово-волновой "органчик" Live!Ware 3.0 помог соорудить (44,1 кГц, 16 бит) нечто абстрактно звучащее, простое по сути, типа "ребята, вы же играете на двух аккордах! Да, но это правильные аккорды..." (а следовательно, употребляемое во всех стилях), и одновременно сложное с точки зрения самого звука (а следовательно, тяжелое для сжатия). Забегая вперед, скажу, что для перепроверки я использовал разнообразные "фирменные" файлы, в частности, схожие спектрограммы дал wav-файл Melody Alto in F7 (Sonic Foundry) при аналогичном сжатии. Звуки по отдельности бас гитары, "дисторшн"-гитары, ударных, фортепьяно и т. д. оказались менее сложными для сжатия, по крайней мере, артефакты на спектрограммах малой размерности были не столь заметны, как у тестового сигнала.

Далее, как именно анализировать и интерпретировать, причем максимально объективно? Тут я воспользовался личным опытом спектрального анализа [7]. Какие только сигнальчики не доводилось исследовать! Главное, "ушел" самый трудный субъективный аспект, связанный с усилителями, акустическими системами и акустическими свойствами помещения, которые у каждого свои. Любая интерпретация - штука субъективная, но в данном случае благодаря корректным спектрограммам даже невинное плутовство с трактовкой будет налицо.

Краткая и строгая проверка идентичности воссоздания стереокартины при распаковке сжатого сигнала является наиболее трудоемкой. К счастью, в большинстве практических случаев сжатие не приводит к значимому проникновению одного канала в другой (за исключением абсолютной тишины в одном из каналов). Случай с полностью противофазным сигналом в соседнем канале - совершенно особый, но тут грешить может "недоделанный" плейер, а не кодировщик. Остается одно: взять тестовый стереосигнал, получить спектрограммы при воспроизведении сжатого звука для каждого канала по отдельности и вычесть их из спектрограмм, полученных при воспроизведении оригинала. Весь вопрос в том, какой именно стереосигнал взять для теста. Для начала я ограничился шумом морской волны, перекатывающейся из одного канала в другой. С приемлемыми допущениями этот шум можно считать квазистационарным. Нужно отметить, что спектр такого шума не содержит чистых тонов и выраженных гармоник "по определению". Следующий шаг - количественное сравнение спектров сжатого звука со спектрами оригинала опять-таки по каждому каналу, при этом начало вычисления всех спектров было синхронизировано с точностью до одного сэмпла. Для устранения случайной ошибки проводилось усреднение по 340 спектрам.

Наконец, как учесть-минимизировать пусть малые, но неизбежные огрехи регистрации "звучания" сжатого звука? Единственный путь избавиться при анализе от влияния АЦП и ЦАП звуковой карты, а также от специфики работы ее драйверов, это декодировать сжатые файлы обратно в формат WAV (и вычислять спектры непосредственно "расконсервированных" сигналов). Декодеры из VQF в WAV отсутствуют, якобы из-за заморочек с авторскими правами. Не буду лезть в дебри, но эту проблему удалось решить. Конечно, при прослушивании влияние звуковой карты скажется, причем по-разному для VQF и МР3. Надеюсь, Live!1024 не напортачит.

Тестирование

Проигрывание МР3-файлов, сжатых с помощью MusicMatch JukeBox 5.0, и VQF-файлов, сжатых Yamaha SoundVQ Encoder 2.54 в режиме "High Quality" 48 кбит/с на канал, осуществлялось плейером K-Jofol2000. WinAmp версий 2.22 и 2.62 использовался единожды в качестве независимого "камертона".

Рис. 1 Параметры спектрального анализа были выбраны на основе личного опыта, уверяю, сделано на совесть и непредвзято [2]. Спектрограммы (вертикальная ось - частота, горизонтальная - время, цвет от синего до красного - амплитуда от минимальной до максимальной в диапазоне 90 дБ) представлены на рис. 1-4 для следующих записей: рис. 1 - реального сигнала; рис. 2 - сигнала, полученного из сжатого в МР3 с 48 кбит/с; рис. 3 - сигнала, полученного из сжатого в VQF с 48 кбит/с на канал; рис. 4 - сигнала, полученного из сжатого в МР3 со 128 кбит/с.

Рис. 2 Сравнивая рис. 2 с рис.1 [3], отчетливо видим, что МР3 при 48 кбит/с на частотах выше 10 кГц оставляет жалкие "рожки да ножки". На слух звук сильно ущербный, хотя гораздо более приятный, чем звучание некоторых подозрительного происхождения "эмпэшек", помеченных как 96-128 кбит/с.

Рис. 3 Из рис. 3 и рис. 1 видно, что VQF при 48 кбит/с достаточно аккуратно воссоздает оригинал, правда, несколько в своей аранжировке, почему-то добавив жару на отдельных гармониках в районе 16 кГц, а то и вовсе родив свои созвучия. Спектрограмма как бы помягчела, как подтаявшее мороженое, что, впрочем, на слух не заметно на малобюджетной акустике. В играх со сжатием звука следует различать идентичность воссоздания оригинала и "аудиогеничность" раскодируемого звука. Далеко не факт, что более близкий (в смысле среднеквадратичного отклонения) к оригиналу звук будет более приятным на слух. VQF как раз из тех, кто привирает, но красиво, и при этом старается не завираться.

Рис. 4 Из рис. 4 и рис. 1 видно, что МР3 при 128 кбит/с был пунктуален, как английский лорд. Плейер не стал суетиться с мелочевкой, проигнорировав высокочастотные составляющие выше 13 кГц (это хорошо заметно на синем фоне), которые представляют собой слабо выраженные гармоники отдельных звуков. В остальном все особенности звука оригинала сохранены, но подводит излишняя четкость (границы переходов на спектрограмме стали более резкими). При восприятии на слух это сродни переходу с аналогового вылизанного HiFi на недорогую массовую цифру. Впрочем, тут уже многое определяется акустикой, так как различия не столь существенны, чтобы бить в барабан и выходить на тропу войны.

Рис. 5 Относительно стереозвука. VQF и МР3 искажают сигнал и в левом, и в правом каналах примерно одинаково (поэтому спектрограмм не привожу), но каждый по-своему. Подчеркну, речь идет о шуме морской волны, который близок к окрашенному случайному шуму. Усредненный уровень искажений по сравнению с оригиналом (в процентах от максимальной амплитуды оригинала при 16 бит) в зависимости от частоты оказался очень мал, но среднеквадратичное отклонение (рис. 5) на частотах выше 4 кГц может достигать 8-10%, что свидетельствует о сильной изменчивости искажений во времени. VQF имеет свойство слегка задавливать средние частоты и задирать низы, а МР3 - чуть задирать все частоты в полосе до 15 кГц.

Под занавес отмечу, что МР3 безжалостен с составляющими без выраженных чистых тонов выше 15 кГц, обрубая "верха" скачком аж до ~20 дБ (в том числе при 256-320 кбит/с), чего совершенно лишен VQF. В свою очередь, VQF не любит продолжительные чистые тона (в звуке органа их предостаточно), генерируя свистяще-булькающие "электронные" созвучия, заметные даже на средней громкости.

Выводы

Рекомендуется использовать МР3 при потоке 128 кбит/с и выше. Коронная стезя МР3-128 - это карманные плейеры с выходом на наушники, когда хранимые оригиналы сжимаются и закачиваются во "флэшку" по мере необходимости. Применение МР3 оправданно при использовании недорогой компьютерной акустики, эксплуатируемой на малой громкости, когда нелинейные искажения почти не заметны. Аудиофилам - обладателям "золотой" HiFi-акустики и соответствующих ушей - будет занятно поэкспериментировать с потоками от 256 до 320 (но стоит ли возиться ради 4-кратной экономии дискового пространства?). "Сжатый" звук - не лучший путь для ценителей утонченных нюансов в музыке, хотя классическая музыка МР3 по силам. Популярности МР3 способствует очень быстрое кодирование.

Формат VQF (при 48 кбит/с на канал, или 96 кбит/с на стереосигнале) по восприятию звука несколько превосходит МР3-128 - но на музыкальных фрагментах без выраженных чистых тонов. Огрехи VQF по сравнению с оригиналом и МР3 можно обнаружить только на аппаратуре высокого класса. VQF обеспечивает приличное качество звука при 14-кратном сжатии оригинала и приблизительно полуторном уменьшении объема стереофайла по сравнению с МР3 при близком качестве звука (см. табл., где коэффициент сжатия определяется как отношение размера исходного файла к размеру сжатого файла). VQF рекомендуется для экономных во всем меломанов. В частности, его целесообразно применять для сжатия старых монозаписей. Для примера: авторскую песню в VQF можно найти здесь [8]. Если принципы действия, использованные в VQF, станут основой для нового формата МР4 [10], это не будет означать революционного скачка по "оживлению" сжатого звука.

Коэффициент сжатияVQF 48 кбит/с на каналMP3 128 кбит/сПобедитель
Тестовый сигнал (см. спектрограммы)13,85,34МР3
Melody Alto F7 (sample of Sonic Foundry Inc.)14,65,5МР3
Шум моря (стерео)13,610,2VQF
Линда. "Ляп-ляп-ляп-ляп..." (стерео, фазовые эффекты)14,711,0VQF
Церковный орган (один аккорд)14,65,47МР3


Качественность звука в VQF признается сторонниками MD-дисков (сжатие в ATRAC 4.5), экипированными солидной HiFi-аппаратурой [9], но категорически отвергается всеми фанами МР3. Что ж, еще раз подтверждаем народную мудрость: на вкус и цвет товарища нет.

И МР3, и VQF постигнет участь скорого усовершенствования, так что обладатели аппаратных реализаций будут вынуждены обновлять свое "железо", дабы поспеть за модой. Только вот "законсервированный" устаревшим способом звук уже не улучшить.

Наконец, субъективный аспект. Оба формата "сжатия" дают размытую локализацию голосов-инструментов в звуковом пространстве при воспроизведении в режиме 4-канального звука по сравнению с оригинальной PCM-стереозаписью (по крайней мере, на Live!1024). А ведь будущее за многоканальным звуком!

источники

[7] www.computerra.ru/1999/24/24.html
[8] if.kazan.ru/ksp
[9] www.minidisc.org/format_comparison.html
[10] www.ultimatemidi.com/mp3info.html




1 (обратно к тексту) - Не превращая его при этом в докторскую диссертацию.

2 (обратно к тексту) - Глобально повлиять на результат анализа выбранными от фонаря параметрами проблематично, но потерять важные нюансы - как нечего делать.

3 (обратно к тексту) - Змееподобные мазки красного или зеленого цветов - не что иное, как изменение частоты отдельных гармоник во времени.



Ваши предложения и замечания ждем по адресу: tails@computerra.ru

Предыдущий материал | Оглавление номера | Следующий материал

Предыдущая рубрика: ALT ТЕРРА
Следующая рубрика: ГОЛУБЯТНЯ

Текущая рубрика: ОПЫТЫ