Из слона муху: практика
 
09.03.2004
Тарас Бризицкий


 
стр. 1
стр. 2 >>

Подводя итоги, мы решили провести небольшой слепой тест, призванный отобразить текущее положение дел среди аудиоформатов.

Тестирование выполнялось в условиях, максимально близких к «полевым», то есть тех, в которых скорее всего окажется технически неподготовленный пользователь. Тестовым компьютером служил Athlon 1800+, 512 Mбайт DDR RAM, под управлением ОС Windows XP pro (SP1), снабженный интегрированным модулем Realtek AC’97 (материнская плата Gigabyte 7VKMP). Звук воспроизводился через наушники Aiwa HP-X225, подключенные непосредственно к выходу звуковой карты. Таким образом, в нашем распоряжении была классическая low-fi звуковая система современного мультимедийного ПК.

Таблица1. Используемые кодеки и параметры кодирования.

При прослушивании фрагментов «эксперт» не знал, каким именно кодеком сжат сэмпл. Для этого использовалась свободно доступная программа ABC Hidden Reference (www.ff123.net/abchr/abchr.html). С ее же помощью проводилось ABX-тестирование в ситуациях, когда наличие разницы между двумя звуковыми фрагментами было спорным.

При проведении теста мы полагались только на собственный слух, как самый точный инструмент определения качества работы психоакустической модели кодеков, не прибегая к сравнению АЧХ или сонограмм, использовавшихся лишь для подготовки иллюстраций.

Результаты оценивались по пятибалльной шкале:

5 баллов — «прозрачный» звук, неотличимый от исходного в ABX-тесте, — предельно возможное качество;
4 балла — звук незначительно (но заметно в ABX-тесте) отличается от оригинала и не вызывает раздражения;
3 балла — проявляются мелкие артефакты, разница становится слегка раздражающей.
2 балла — проявляющиеся артефакты и искажения раздражают;
1 балл — необычайно сильные искажения, делающие прослушивание невозможным.

В некоторых случаях для отражения разницы в качестве использовались дополнительные значения с шагом 0,5.
Файлы проигрывались при помощи референсных (mpglib для MP3, FAAD2 для AAC, WMA decoder для WMA и oggdec для Vorbis) декодеров; постобработка звука не проводилась.

Для тестирования MP3 мы выбрали последнюю стабильную версию свободно доступного кодера LAME. Несмотря на возможность повышения качества кодирования за счет пресетов, мы решили не проводить настройку кодера, а воспользовались параметром -b 128.

ITunes AAC был выбран как один из немногих свободно доступных кодировщиков AAC, а также из-за его высоких результатов в тестах (www.audio.ciara.us/test/aac128test/results.html) AAC-кодеров.

OGG Vorbis версии 1.01 — один из двух участников теста, работающих в VBR-режиме. Параметр -q4 позволил держать средний битрейт кодируемых треков в пределах 128±10% кбит/с.

Таблица 2. Описание сэмплов.

Из доступных кодеков WMA мы выбрали WMA9, который компания Microsoft продвигает как альтернативу MP3. Параметры VBR-кодирования выбирались так, чтобы средний битрейт тоже находился в пределах 128 кбит/с (мы не случайно остановились на этой цифре, ведь подавляющее большинство новичков кодирует файлы своей фонотеки именно с таким битрейтом).

Тестовый материал

Аудиоматериалом для теста послужил набор из шести 20-секундных сэмплов, представляющих достаточно широкий спектр музыкальных жанров и инструментов. Тестовые фрагменты были получены с оригинальных аудиодисков при помощи точного цифрового копирования без последующей обработки. Сэмплы (см. табл. 2) отобраны из классического набора звуковых фрагментов, применявшихся при тестировании на сайте Hydrogenaudio (rarewares.hydrogenaudio.org/samples/samples.rar).

Рис. 1. Сонограммы одного и того же музыкального фрагмента (слева направо): несжатый файл, OGG Vorbis -Q4, LAME MP3 -b128. Желтая линия — 16 кГц, зеленая — 18 кГц.

Одной из особенностей теста является его воспроизводимость. Если вы захотите самостоятельно проверить наши результаты, вы можете сделать это, воспользовавшись приведенными в статье данными.

В большинстве случаев разница между кодированным и исходным фрагментами заключалась в изменении звучания высокочастотных составляющих. Отчасти причиной этому служила достаточно низкая (16 кГц) частота среза, использующаяся многими кодерами (за исключением Vorbis, который пытался кодировать и более высокие частоты) на выбранном диапазоне битрейтов, отчасти — артефакты, нередко проявляющиеся именно на высокочастотных сигналах.

Рис. 2. Технология CBR творит чудеса на низких битрейтах. На 48 кбит/с кодек AAC HE (справа) адекватно передает частоты до 16 кГц (зеленая линия), тогда как обычный AAC-кодировщик (слева) вынужден вырезать частоты выше 11 кГц (оранжевая линия).

Наверняка у многих читателей возник вопрос: насколько кодированный файл отличался от оригинала? Понять это по столбику цифр-оценок совсем непросто. Специально для любознательных мы сопроводили каждую оценку комментарием относительно изменения качества звука файла после кодирования, так как методика тестирования позволяла неоднократно сравнивать каждый из кодированных фрагментов с оригиналом. Несмотря на то что ухо обычного человека не слишком восприимчиво к искажениям, возникающим в процессе психоакустической компрессии аудиосигнала, прямое сравнение позволяет довольно легко определить разницу. Кроме того, некоторые артефакты оказываются настолько заметными, что обнаружить их не составляет труда. В целом оценки 3,5 и выше означают отсутствие явных огрехов компрессии, а для выявления отличий исходного файла от кодированного, получившего оценку 4,5, требуется достаточно длительный ABX-тест.

Сравнивать цифры — дело неблагодарное. Особенно когда речь идет о таких плохо передаваемых словами вещах, как звук. Тем не менее, результаты тестирования можно оценить, не прибегая к сложной математике:


 
стр. 1
стр. 2 >>

<<Лирическое отступление
Все материалы номера
Из слона муху: теория >>