КомпьюТерра / Свежий номер / 2001 / №24 / Звуковой барьер

Свежий номер №24 (401) / Звуковой барьер

Дата публикации: 25.06.2001

Антон Балабан, sound_e@mail.ru

<<	Страница 1

Страница 2

Врезка.

Итак, зачем нам избыточная разрядность, если вроде бы 16 бит вполне достаточно? Рассмотрим простой пример. Единственным способом обработки цифрового звука является изменение громкости сэмпла, или цифрового отсчета по определенному алгоритму ⁴. Больше с ним просто ничего нельзя сделать. Допустим, мы имеем сэмпл со значением громкости, равным 32527. И по имеющемуся у нас алгоритму надо его увеличить в 1,2201 раза (не думайте, что ситуация надуманная, - этот коэффициент соответствует повышению уровня на 1 дБ с точностью до четвертого знака после запятой). В результате у нас получается число 39686,1927. Куда девать то, что оказалось после запятой? Округлить? Тогда как округлить? Просто отбросить? Любое из этих решений вносит нелинейные искажения, причем они коррелируют с обрабатываемым сигналом. И хотя по уровню искажения невелики (значительно меньше аналоговых, а особенно ламповых, нелинейных), человеческий слух, в частности и из-за корреляции, к ним очень чувствителен. Субъективно эти искажения воспринимаются как «уплощение» или «омертвение» звука, он становится «цифровым», в плохом смысле этого слова. А ведь таких операций в цепочке обработок может быть несколько, и каждая при игнорировании знаков после запятой вносит свою лепту в «убивание» звука. Выход из ситуации один: попытаться сохранить максимальное количество знаков после запятой на всех промежуточных стадиях обработки, а на последнем этапе (например, перед записью 16-битного музыкального компакт-диска) корректно от них избавиться. Чтобы не отбрасывать «лишние» знаки, применяется повышенная разрядность: если внутренняя математика алгоритма, скажем, 32-битная, то перед обработкой исходный 16-битный сигнал переводится в 32 бита, затем в этом формате обрабатывается, а на выходе его разрядность корректно понижается до 16 бит. Среди корректных способов понижения разрядности одним из самых распространенных является dither (в переводе с английского - шум, в русской транскрипции мне попадались варианты дитер, дизер и даже дифер, так что во избежание путаницы я буду использовать англоязычное написание этого термина). Перед понижением разрядности (а точнее - простым отрубанием лишних бит; этот процесс называется транкейтом, от английского truncate) к сигналу подмешивается шум с уровнем, соответствующим последнему значащему биту (в нашем случае шестнадцатому, то есть около -96 дБ). Этот случайный шум (в самом простейшем случае используется белый шум, то есть равномерный во всей полосе частот), складываясь с полезным сигналом, случайным же образом округляет наши знаки после запятой вверх или вниз, вне зависимости от сигнала. Dither как бы заменяет собой искажения, возникающие при транкейте, превращая их из заметных и раздражающих в обычный шум, к которому ухо очень терпимо (вспомните аудиокассету, ее шипение не мешает нам наслаждаться музыкой, так как шум постоянный и не коррелирован с сигналом, ухо просто к нему привыкает, и мы его не замечаем).

Кроме повышенной разрядности, конечно, есть еще много факторов, влияющих на качество выходного сигнала. Но здесь мы их рассматривать не будем, только отмечу, что очень важным является внимание к мелочам, так как даже маленькая и вроде бы незначительная деталь может угробить звук самым неожиданным образом. Естественно, разработка хорошего цифрового прибора или плагина дело довольно дорогое, к тому же сложный алгоритм отнимает много вычислительных ресурсов у компьютера или DSP, что опять-таки - деньги. Поэтому призываю вас крайне осторожно пользоваться функциями обработки, Спектр тестового сигнала 1 кГц с уровнем -60 дБ: тот же сигнал, переведенный в 16 бит простым транкейтом («отрубанием» лишних знаков). встроенными в программы, основным предназначением которых не является работа со звуком (например, CD-писалки). В этом случае производителю важно обеспечить наличие функции (изменение громкости, допустим), а о ее качестве никто уже не заботится.

Следующим пунктом у нас идет нормалайз (normalise). Принято считать, что при составлении, например, сборника из музыкальных композиций, взятых с разных CD, «нормализируя» каждую из этих композиций, мы добиваемся того, что все они будут звучать с одинаковой громкостью. Это не так, и сейчас объясню почему. В процессе «нормализации» программа анализирует весь звуковой файл, находит в нем самый громкий (по абсолютному значению) сэмпл, затем рассчитывает, на сколько нужно поднять громкость, чтобы этот сэмпл по громкости «уперся» в ноль, и увеличивает громкость всей фонограммы на вычисленное значение. Таким образом, выравнивание происходит по пиковым значениям уровня. Но наш слух устроен так, что мы воспринимаем громкость не по пиковому, а по среднеквадратичному (RMS, Root Mean Square) уровню сигнала. Поэтому музыка со средним уровнем -12 дБ и кратковременными пиками до -2 дБ будет субъективно громче музыки с RMS = -17 дБ и пиками до 0. Соответственно, выравнивая треки по пиковым значениям, мы никоим образом не равняем их по ощущаемой нами громкости; более того, «нормализируя», мы можем еще больше увеличить разрыв по уровню между композициями (как в вышеприведенном примере: нормализуя обе композиции, мы повысим уровень первой, которая и так громче, еще на 2 дБ, а вторая останется неизменной). К тому же на большинстве выпускаемых сегодня компакт-дисков при мастеринге уровень и так подгоняют под ноль (или очень близко к нему), так что нормализация ничего не даст. Еще одним аргументом против нормализации является то, что это все-таки обработка звука, а, как мы уже выяснили, обработка бывает хорошей и плохой. Практически во всех программах (как любительских, типа «нажал кнопку и все хорошо», так и полупрофессиональных) «нормалайз» является вторичной функцией, «для галочки», поэтому выполняется она обычно с 16-битным разрешением ⁵, со всеми вытекающими отсюда негативными последствиями для звука. Поэтому я бы советовал использовать эту функцию очень осторожно, а лучше не трогать ее совсем.

Следующее заблуждение (или даже комплекс заблуждений) - о непогрешимости передачи сигналов по цифровым интерфейсам. Например, если на вашей звуковой карте есть цифровой выход и оттуда сигнал подается на внешний ЦАП (скажем, встроенный в мини-дисковый рекордер), то качество звука-де будет зависеть исключительно от этого внешнего преобразователя. Сейчас будем выяснять, почему это не так. Здесь на сцену выходит понятие джиттер (jitter). Этот термин часто встречается в различных «околохайфайных» журналах, но из них, к сожалению, сути явления понять практически невозможно. Джиттер - это нестабильность тактовой частоты цифрового сигнала. То есть она в принципе 44,1 кГц, но временные интервалы между сэмплами немного отличаются друг от друга (на несколько пикосекунд). На слух джиттер выражается в легкой замутненности звука, «размытости», плохой Спектр тестового сигнала 1 кГц с уровнем -60 дБ: 16-битный сигнал после округления. локализации кажущихся источников звука и сужении стереобазы. Вызван же он может быть рядом причин. Первая - нестабильность тактового генератора передающего устройства. Разумеется, высокостабильный генератор стоит недешево, и в недорогих приборах обычно ставят «лишь бы играло». Еще одна причина - помехи. Если в обычном CD-проигрывателе источником сильных помех может быть только блок питания (при недостаточной изоляции от цифровых схем), то корпус компьютера - просто рассадник сильных высокочастотных помех: тут и блок питания, и процессор, и чипсет, и видеокарта, и еще бог знает что. Все это расшатывает и без того не самую стабильную частоту тактовых импульсов на звуковой карте. Из-за этих неустранимых помех, кстати, все профессиональные компьютерные системы записи генерируют тактовые импульсы не на карте, вставленной в компьютер, а во внешних интерфейсах, на которых и расположены цифровые входы/выходы. Последняя (и одна из самых главных) причин возникновения джиттера - плохие и/или не согласованные с приемником/передатчиком цифровые кабели. Для коаксиального SPDIF-соединения должны использоваться коаксиальные же 75-омные кабели, для оптического - специальный провод (он, кстати, пластиковый, а не стеклянный, как думают многие). Поэтому если у вас нет возможности купить готовый коаксиальный SPDIF-провод, то лучше не использовать первый попавшийся «тюльпан-тюльпан», а взять антенный кабель (он как раз коаксиальный с сопротивлением 75 Ом) и напаять на него соответствующие разъемы. Кстати, вот еще легенда: дескать, электрический SPDIF хуже оптического. Качественно сделанный коаксиальный провод, согласованный по сопротивлению с приемником и передатчиком, ничуть не хуже, а при передаче сигнала на большие расстояния (десятки метров) даже лучше оптического. Другое дело, что вместо нормального провода норовят использовать обычные «тюльпан-тюльпаны» из ближайшего ларька; с оптикой же такой фокус не пройдет, отсюда, видимо, и легенда.

Итак, тем или иным способом мы получили наш джиттер. Теперь он приходит на ЦАП, и если преобразователь не имеет мощной системы джиттероподавления (а такие системы встраиваются только в очень дорогие профессиональные, вроде упомянутого dCS, или класса HiEnd ЦАПы), то вы его непременно услышите. Заметьте, что ухудшение звука из-за джиттера происходит в передающем устройстве и проводах, а не во внешнем преобразователе. Хотел бы обратить ваше внимание на то, что джиттер проявляется только в цифро-аналоговых преобразователях. На содержимое сигнала, то есть собственно биты, он не влияет. Если вы переписываете музыку, скажем, на мини-диск из своего компьютера через паршивый провод, то в момент записи, несомненно, услышите джиттер. Но когда вы будете запись слушать, то джиттера уже не будет, так как цифровой поток воспроизводится, используя внутренний генератор проигрывателя, а не расхлябанные тактовые импульсы, принесенные со звуковой карты. Если вы не поняли последней фразы, взгляните еще разок на рисунки, и после небольшого размышления вам все станет ясно.

И наконец, последнее. Бытует мнение, что компакт-диски, идентичные побитно, звучат одинаково. Почему они звучат все же по-разному, абсолютно точно, к сожалению, не известно. Но это факт, подтвержденный многими авторитетными людьми. Вероятно, тут тоже приложил свою руку джиттер, возникающий из-за нестабильной скорости считывания битов с диска. Так что имейте в виду, что отпечатанный на заводе компакт-диск и его точная копия, сделанная на вашем компьютере, по звуку могут различаться. Причем в какую сторону, заранее не известно. При некотором стечении обстоятельств (например, оригинал был отпечатан на плохом станке) копия может звучать даже лучше Спектр тестового сигнала 1 кГц с уровнем -60 дБ: 16 бит после простейшего (белый шум) дизеринга. оригинала. Также различаются диски, записанные на разных скоростях с одного и того же файла. Обычно чем меньше скорость, тем лучше, хотя и тут есть исключения. Впрочем, эти отличия весьма невелики и заметны только на очень хороших воспроизводящих системах.

Подводя итог, хочу призвать читателя больше верить собственным ушам, чем написанному на бумаге (даже на этой). Иногда теоретические правила сильно расходятся с реальной жизнью, обычно из-за плохо спроектированного прибора или программы. Например, совершенно справедливо утверждение, что при прочих равных запись, сделанная через цифровой вход магнитофона, предпочтительнее записи, сделанной через аналоговые входы (лишняя переоцифровка). Но я имел дело с MD-рекордером, опровергавшим это правило: записанное в него через аналог звучало гораздо лучше «цифры» (один и тот же материал с CD). Вероятно, на цифровых входах этого аппарата был такой же ресэмплинг, как и в SB Live, только еще худшего качества (спрашивается, зачем там защита от цифрового копирования SCMS?). Так что теоретические знания - это одно, а жизнь, благодаря изобретательным производителям, намного богаче, слушайте и услышите.

P. S. Желающим углубить свои знания о цифровом звуке могу порекомендовать сайт www.digido.com. Там хотя и на английском, но очень хорошо все изложено.

4 (обратно к тексту) - Исключениями из этого правила являются обработка типа изменения длительности или высоты звука (time stretch и pitch shift), когда происходит добавление новых, не имевшихся в фонограмме сэмплов, или удаление «лишних», по мнению алгоритма, отсчетов. Сюда же относится и ресэмплинг.
5 (обратно к тексту) - А если и с большим (24 или 32 бита), то зачастую разрядность понижается некорректно, без dither‘а, простым транкейтом.

<<	Страница 1

Страница 2

Врезка.

Антон Балабан
sound_e@mail.ru

<<	Над ЖК-мониторами с матрицами LG.Philips

Все материалы номера

Немного об отечественном СУБД-строении