Современные методы позиционирования и сжатия звука
каждая в своей соответствующей области применения. Следовательно, 3D звук
это не шутка, это полезная и быстро развивающаяся технология для создания
музыки, применения в бытовой электроники,в видеоиграх, и т.д. и т.д.
Что действительно смешно, так это количество дезинформации и слепо
верящих в характеристики чего-то -- при этом большая часть информации
почерпнута из рекламных проспектов различных продуктов, но сами верующие
при этом в массе своей не имеют знаний о звуке, в особенности о 3D звуке.
В чем разница между 3D звуком и панорамированием?
В течение многих лет добавить звук в видео игру можно было только при
условии использования панорамирования стерео (stereo panning). Это
накладывало ограничение в том, что звук можно было поместить только где-то
между акустическими колонками, неважно, где бы они ни находились, перед
вами в вашей комнате или на вашей голове в виде головных телефонов.
В первом случае, все звуки слышаться где-то между колонками спереди от
вас, а в последнем случае, звуки воспроизводятся внутри вашей головы -- что
не имеет никаких аналогов с ощущениями в реальном мире.
Панорамирование стерео это просто управление уровнями левого/правого
звуковых каналов, которое никогда не зависит от частоты звука и напрямую не
влияет на его фазу или синхронизацию. Панорамирование на нескольких
акустических колонках (Multi-speaker panning) обычно является развитием
этой идеи, но при этом может содержать больше манипуляций с
преобразованиями.
Преобразование звука в "3D" (т.е. трехмерный) -- не имеет значения,
какой метод при этом используется -- включает дополнительную информацию в
звуковой поток в форме амплитуды и разности фаз/задержек между выходными
каналами. В этом случае часто присутствует зависимость от частоты звука,
хотя некоторые простые эффекты создаются с использованием простых задержек
по времени на всем протяжении спектра шумов.
3D звук совершенен?
Сегодня существуют несколько технологий, которые расширяют возможности
разработчиков по размещению звука в уникальных местах относительно
слушателя. Есть ли какое-то решение действительно совершенное? По-моему,
такого решения нет. Означает ли это, что "3D звук" это бесполезная вещь? По-
моему, это не так. Истина находится где-то между двумя крайностями.
Почему люди не могут прийти к какому-то общему мнению относительно
действенности 3D звука?
Тот факт, что человеческий слух несовершенен, является корнем проблем.
Два уха, расположенных по сторонам головы, для определения местоположения
источника звука воспринимают большую часть из доступной информации в
горизонтальной плоскости (т.е. по азимуту или "по углу компаса"), при этом
мы плохо различаем звуки исходящие спереди и сзади, при отсутствии
дополнительных данных.
Так как все мы являемся существами, живущими на поверхности земли, то
мы определяем местоположение источника звука по смещению относительно
азимута, так как наши жертвы и наши враги, все являются тоже наземными
существами. Выходит, что наша возможность оценки положения звука в
вертикальной плоскости и его удаленности от нас очень слаба и сильно
зависит от ушных каналов, которые зачастую очень плохо развиты.
Таким образом, когда разработчик технологии говорит о "точном"
расположении источников звука, относитесь к этому с осторожностью. Простая
математика может создать целый набор хороших цифр, но реальные результаты
это совершенно другой вопрос -- после всего, мы вновь начинаем с
недостатков, парни.
Нравится это или нет, но для нормально видящих людей, зрение является
основным чувством определения местоположения чего-либо, причем до такой
степени, что нас легко одурачить без особых трудов, предоставив
противоречивую звуковую информацию. Сколько раз мы смотрели телевизор со
звуковым сопровождением, исходящим из паршивого маленького динамика,
который мог быть вмонтирован даже не в переднюю панель телика? Волновало ли
это нас? Ощущали ли мы большое несоответствие между происходящими на экране
событиями и звуком сопровождавшим их? По-видимому, не сильно. Долгое время
мы не имели стерео телевизоров и домашних кинотеатров, а популярность они
приобрели лишь из-за существенно упавшей на них цены.
Действенность любой технологии позиционируемого звука полностью
находится под влиянием таких факторов, связанных с областью применения:
использование в качестве дополнительной поддержки, облегчающей визуальное
восприятие
сопровождение действия (скажем фильм, футбольный матч, игра)
усиление интерактивности (например, звуковые эффекты при работе с меню)
уместность применения
Интересно, что видео игры (или другие симуляторы окружающей среды) это
единственные приложения с 3D звуком, в которых все эти факторы играют
важную роль.
Если вы поместите кого-нибудь в затемненную комнату и проиграете ему
незнакомые звуки, воспроизводя их из колонок, расположенных в произвольно
выбранных местах помещения, вы увидите, что ни одна из существующих
технологий не обеспечивает 100% эффективность -- даже близкую!
Теперь, скажем, у нас есть безэховая камера (т.е. помещение, в котором
нет реверберации), поместим в нее слушателя, зафиксируем его голову в
нужном (правильном) положении и повторим эксперимент. Есть все шансы, что
результат будет лучше. Однако все это не относится к делу до тех пор, пока
вы не начали всерьез планировать построить безэховую камеру у себя дома,
тогда к чему все это?
Точно такая же технология, обеспечившая посредственные результаты в
первом тесте на эффективность, при использовании в хорошо сделанном
приложении, например, видео игре, заставит большинство людей поклясться
всем святым в том, что она (технология) обеспечивает абсолютную возможность
размещения источника звука в любом месте пространства, потому что они
слышат звук исходящим именно из этих мест!
Это вторая самая большая проблема и одновременно обоснование того, что
заявления типа "делайте так!" "так не делайте!" никогда не прекратятся до
тех пор, пока участники тестов в слепую не подтвердят и не удостоверятся в
том, что они одновременно и правы и не правы.
Нет ничего странного в том факте, что иллюзия или обман чувств
используется в большинстве создаваемых приложениях. Это как раз то место,
где на сцену выходит искусство. Тем не менее, очень важно отдать должное
тому, что этого заслуживает. Если в игре нет эффективного использования 3D
звука, это не означает, что виновата в этом технология и если звук звучит
правдоподобно как в жизни, технология, сама по себе, лишь часть
головоломки! Это должно быть так же очевидно, как в случае, если вам
попался паршивый текстовый процессор, в этом нет вины компьютера, на
котором он запущен, почему же в случае с 3D звуком люди все время строят
свои выводы, не представляя точно, на чем основывается их мнение.
Далее, будем считать, что разные методы реализации имеют сильные и
слабые стороны.
Получается, что наушники, в связке с соответствующим бинауральным
процессом обработки звука (слишком часто называемым просто HRTF)
относительно хорошо справляются с созданием ощущения, что звук расположен
сзади нас или над нами. Тем не менее, я еще ни разу не слышал такого
звучания (а слышал я все), где бы убедительно осуществлялось расположение
источника звука справа и впереди слушателя. (Флойд Тул /Floyd Toole/,
занимающийся 3D звуком в компании Harman International и в течение долгого
времени проводящий исследованиями по этой теме, один из немногих людей,
который обобщил и изложил эту проблему в печатном виде.)
Кстати, HRTF, конечно же, звучит по-особому для каждого слушающего,
поэтому любая звуковая технология для массового рынка должна создавать
усредненное звучание, воспроизводя потенциально компромиссный результат и
тем самым, продолжая вносить все больше разногласий между слушателями.
При использовании двух акустических колонок, основная зона эффективного
размещения источников звука (т.н. sweet spot) находится спереди от
слушателя и покрывает пространство в 180 градусов по азимуту, т.е. в
горизонтальной плоскости. Ощущения, что звук расположен сзади и над
слушателем, очень слабые, если нет поддержки в виде дополнительных
сигналов. Особо отметим то, что использование алгоритмов HRTF,
обеспечивающих воспроизведение звука для бинаурального прослушивания (т.е.
в наушниках) и алгоритмов cross-talk cancelation (или для краткости CC;
технология позволяющая воспроизводить звук, например из левой колонки так,
что бы слышно этот звук было только левым ухом) не является успешным
решением проблемы, неважно как хорошо цифры выглядят на бумаге или как
крута рекламная компания.
Применение множества акустических колонок это уже другой вид зверей, но
они действительно являются частью доступного выбора возможностей, особенно
для компьютерных игр. Панорамирование звука обеспечивает явные выгоды при
расположении акустических колонок сзади слушателя. Это облегчает проблему
выбора места с наилучшим звучанием для прослушивания, так называемый sweet
spot. Однако само по себе панорамирование звука никогда не может обеспечить
значительных результатов, с точки зрения позиционирования источников звука
в вертикальной плоскости. Конечно, до тех пор, пока мы не перестанем
размещать колонки только на полу, а не начнем их подвешивать под потолком.
API и Rendering Engine - это две разные вещи!
Играя в игры, вы используете API и rendering engine (рендерин энджин).
API (application programming interface или, для краткости, интерфейс) это,
по сути, просто набор команд, используемых разработчиком при написании игры
-- это не технология 3D звука или чего-то другого.
Rendering engine или механизм воспроизведения звука (далее просто
звуковой движок) представляет собой процесс взаимодействия алгоритмов 3D
звука со звуковыми потоками с целью расположения источников акустики в
пространстве. Если API (например, DS3D или наш QMDX) поддерживает множество
звуковых движков, тогда в одном и том же приложении будет воспроизводиться
звук немного отличающийся при использовании разных звуковых движков, почти
так же, как и звуковая дорожка MIDI (другой набор команд) будет звучать
немного иначе на разных аппаратных синтезаторах от различных
производителей.
Так как различные звуковые движки и схемы реализации имеют разную
степень эффективности соответствующий интерфейс позиционирования не должен
ограничиваться возможностями какого-то одного звукового движка. В
действительности, API говорит: "поместите этот звук здесь" и звуковой
движок делает эту работу наилучшим способом, помещая звук в нужное место.
При этом звуковой движок использует свои алгоритмы и имеющуюся конфигурацию
воспроизведения звука (наушники, две колонки, 15 колонок, что угодно).
Люди, которые делаю заявления типа "эта игра поддерживает только DS3D"
совершенно не понимают сути вещей. Если игра написана под интерфейс DS3D -
это отлично! Она будет работать со всеми 3D звуковыми картами в любой
последовательности. На каждой звуковой карте, игра будет использовать
имеющийся звуковой движок, неважно, кем он сделан QSound, EMU, Aureal или
кем-то еще.
Существует масса звуковых интерфейсов, таких, как DS3D, QMDX, QMixer,
A3D 1.x и 2.0 и звуковые API третьих фирм, таких как HMI, EAR, Diamondware
и другие. Если программист выбрал для использования интерфейс "Фирмы Х"
(при этом он может также использовать более чем один API для конкретного
приложения) это совсем не означает, что вы должны обязательно использовать
аппаратное обеспечение "Фирмы Х" что бы все работало.
Что сбивает с толку, так это знание того, какой звуковой движок
поддерживает данный API.
Лишь немногие API созданы для поддержки специфичных аппаратных
возможностей, которые могут быть недоступны при использовании звуковых карт
других производителей или они могут быть неспособными поддерживать основные
функциональные возможности конкурирующих продуктов.
Хороший API должен поддерживать как можно больше аппаратного
обеспечения и так много функциональных особенностей, насколько это
возможно, так, чтобы разработчик игры мог использовать один интерфейс и
получить хороший результат на всех звуковых платах.
Например, если кто-то купит игру, которая была написана в расчете на
новейшую версию интерфейса QMixer, эта игра будет иметь отличные 3D
звуковые эффекты даже на звуковой карте с поддержкой только обычного стерео
звука. Если та же игра будет запущена на системе оснащенной 3D картой на
чипсете от Aureal, игра все равно будет использовать чипсет Aureal для
воспроизведения 3D звука, в итоге пользователь услышит то, за что он
заплатил.
Большинство разработчиков убедились в очевидном преимуществе
использования таких API, как DS3D, QMixer и QMDX, которые не являются
зависимыми от производителя аппаратного обеспечения и, следовательно, будут
прекрасно работать с любой 3D звуковой картой.
Что такое "Panning"?
Panning (панорамирование) -- этот термин происходит от простого
устройства, изобретенного Лесом Полом (Les Paul) в далеких 50-х годах,
которое использовалось для расположения моно фонических звуковых дорожек в
явно определенное положение слева/справа в стерео звуковом поле.
"Panoramic Potentiometer" (или для краткости "Pan Pot", панорамный
потенциометр) это нечто вроде регулятора баланса в стерео системе. В то
время как регулятор баланса управляет всем входящим стерео сигналом и
выдает отрегулированный стерео сигнал на выходе, pan pot управляет моно
сигналом на входе, а на выходе выдает его разделенным на части, передавая
их в выходные каналы, левый и правый.
Любой микшерский пульт стерео звука (использующийся в студии
звукозаписи) имеет pan pot для каждого канала. Повернем ручку управления
pan pot полностью влево и 100% сигнала (скажем в честь Леса, что это звук
гитары) будет направлено в левую колонку. В результате, звук гитары будет
явственно исходить из левой колонки. Повернем ручку управления pan pot
полностью вправо и 100% сигнала будет исходить из правой колонки.
В любом месте между этими двумя крайними положениями, pan pot будет
направлять порции моно сигнала в каждый канал, создавая иллюзию того, что
источник звука находится где-то между двумя колонками.
Такая же концепция панорамирования использовалась на протяжении лет в
видео играх, с целью динамического расположения источников звука
слева/справа в звуковом стерео поле. (Ясно, что физически pan pot не
использовался, а применялся его программные эквиваленты). Такой же принцип
может быть распространен на любое количество колонок. Панорамирование,
использующееся в обработке 3D звука, не изменяет звуковой сигнал (например,
его фазу, частоту и т.д.) осуществляя лишь простое управление пропорциями
передаваемого сигнала индивидуально в каждое физическое устройство
воспроизведения.
Что такое "Voice Manager"?
Термином Voice Manager (менеджер голоса) называют стандартизованный
механизм для управления на аппаратном уровне каналами в 3D звуковой карте.
Раньше аппаратное обеспечение оперировало всего лишь 5 каналами 3D звука,
сейчас стандартным является число в 8 каналов. Основной интерфейс 3D звука
DirectSound3D перекладывает работу по распределению этих ограниченных
ресурсов между самыми важными звуками (те, что должны звучать в данный
конкретный момент) полностью на программиста. Это очень большой объем
работы. Программисты обычно предпочитают задать много (20, 30 или больше)
звуковых каналов, а затем просто манипулировать ими по своему усмотрению.
Voice manager работает на уровне драйвера аппаратной части. По существу
он позволяет программе работать так, как если бы было больше звуковых
каналов, чем в действительности поддерживается на аппаратном уровне. В
соответствии с некоторыми схемами приоритета, определяемыми программистом,
voice manager берет на себя управление процессом динамического
распределения самых важных звуков между реально доступными на аппаратном
уровне каналами.
Компании QSound и Aureal в свое время предусмотрели возможность
управления распределением ресурсов в своих драйверах для звуковых карт, но
это привело к ситуации, когда каждая игра должна была знать о каждом типе
управления распределением ресурсов. Каждый производитель, который
окончательно убедился, что это проблема, должен был создавать свою
собственную систему управления распределением ресурсов со своими
собственными вызовами команд API и т.д.
Поэтому, QSound предложила Microsoft, чтобы наша схема управления
распределением ресурсов была адаптирована и распространялась в качестве
стандартной с тем, чтобы любой производитель мог ее использовать (также как
и DS3D). Microsoft согласилась с нашим предложением, немного упростила наш
метод и стала распространять систему управления распределением ресурсов под
именем Voice Manager.
В чем разница между QSound, DS3D и EAX?
Прежде всего, чрезвычайно важно понимать разницу между API (который
всего лишь представляет собой набор команд) и звуковым движком
(действительный 3D звуковой процессор). Люди путаются, потому что они
думают, что API и звуковые движки это одно и тоже, а это совершенно
Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28
|