Читать книгу "Зачем мы говорим - Тревор Кокс"
Шрифт:
Интервал:
Закладка:
Когда компьютеры появились в каждой звукозаписывающей студии, обработка музыки стала цифровой, что дало еще большую свободу для манипулирования голосом. Возможно, самым известным и эффективным преобразованием голоса был хит Шер Believe, который принес ей премию «Грэмми» в 1999 году. Пение Шер было обработано программой Auto-Tune с максимальным использованием звуковых эффектов, чтобы придать ее голосу модуляции. Auto-Tune постоянно оценивает частоту пения, используя математическую операцию «автокорреляция». Если программа обнаруживает частоту, которая не подходит к одной из нот музыкальной гаммы, аудио обрабатывается так, чтобы гармония улучшилась. Скажем, нота, изображенная на верхней схеме рисунка на с. 215, бемольная, тогда четыре цикла звука сжимаются и в конце добавляется еще один цикл. Это означает, что нота изменяется быстрее: другими словами, частота увеличилась, чтобы скорректировать гармонию [47]. Если корректировка производится осторожно и постепенно, будет трудно обнаружить использование Auto-Tune, часто его просто не слышно. Но если программа настроена так, что производит коррекцию моментально, получается модулированный звук, такой как в Believe Шер. На самом деле мы слышим, как программа прыгает между разными нотами, так как тон корректируется слишком часто. Эта запись – замечательный пример того, как артисты используют технологии и злоупотребляют ими для создания неожиданных творческих эффектов.
Популярная музыка прибегает к созданию коротких, легко запоминающихся мелодий, которые делают песню притягательной. Этот прием известен как «музыкальный хук». Believe Шер – пример того, что это может относиться не только к мелодии или словам: искаженный голос сам по себе становится эффектным хуком. С учетом того, как акустические потоки формируются в сознании, качание частоты помогает отличить голос от музыкального сопровождения и выделить его.
Повышение тона в Auto-Tune
Злоупотребление Auto-Tune приводило и к удивительным мистификациям. Одна из самых известных – это ремейк речи Ника Клегга, в которой он приносит извинения за повышение платы за обучение. Эта запись даже попала в топ-40. Звуки, производимые с вибрацией голосовых связок, например гласные, по своей природе обладают тоном [48]. Если использовать Auto-Tune, можно повысить или понизить частоты разговорной речи так, чтобы она стала похожей на мелодию. Программа не сможет обработать звуки речи, которые обладают нечеткими частотами, например [с], поэтому после наложения Auto-Tune мистификация Клегга переключается с механического голоса на пение и обратно.
Голос с едва различимым механическим оттенком – это обычное явление в современном поп-вокале. Такие записи лучше продаются, хотя некоторым не нравится подобное звучание. Музыкальный критик Telegraph Нил Маккормик так прокомментировал использование Auto-Tune: «Преимущественно в музыке эта штука используется плохо, из рук вон плохо». Он вспоминает свой разговор с Леди Гагой: «Когда я впервые брал у нее интервью, она то и дело начинала петь, а я ей вроде: ух ты, петь-то умеешь по-настоящему; но у нее ведь была эта пластинка, на которой она звучала как робот, играющий в Just Dance». Маккормик спросил Леди Гагу, зачем она использует обработанный в Auto-Tune голос, ведь она фантастическая певица. «И она, по сути, ответила, что этого хочет молодежь».
Но так ли уж сильно электронные ухищрения для манипуляций с современным поп-голосом отличаются от техник пения, которые изобретали оперные певцы для создания звука, достаточного, чтобы заполнить весь зрительный зал? Как мы увидели на примере «Барселоны», оперные певцы жертвуют произношением, концентрируя внимание на мелодической линии. Таким образом, обучение студентов пению в классическом стиле воспитывает певцов, у которых почти нет индивидуальности. Так и голос современного певца, прошедший цифровую обработку, может звучать не как голос человека, а как музыкальный инструмент. Оперные певцы используют очень широкое вибрато, модуляцию частоты, которая помогает им выделяться на фоне оркестра. Подобно этому, механическое качание частоты, которые звукооператор добавляет к голосу поп-певца, помогает выделить его на фоне музыкального сопровождения. При качественном исполнении музыкальная обработка – это просто расширение того, что люди делали на протяжении веков [49].
Технология дает возможность создавать подобные эффекты на кончиках пальцев звукооператоров, позволяя записи выйти за пределы того, чего можно достигнуть естественным путем. Это касается всех видов искусства: как только инструменты становятся широкодоступными, художественные достоинства результата начинают меняться. Каким бы ни было эстетическое качество конечного продукта, речь идет об изменении голоса, потому что человек все равно будет копировать звуки, полученные в студии, даже если в итоге они будут звучать искусственно, как у робота. Но плохо ли это? Певческий голос развивался тысячелетиями, и то, что мы наблюдаем сегодня, – лишь технология, ускоряющая эту тенденцию.
А что, если вообще избавиться от человека-певца и человека-оратора и использовать синтетические голоса? Пойдут ли люди в театр, чтобы смотреть, как играют роботы-актеры?
Все роботы – актеры
Первые демонстрации записи голоса, проведенные Эдисоном, вызвали ажиотаж, но временами царапанье иглы по фольге перекрывало речь. При воспроизведении звук искажался, и New York Times описывала «странные писклявые голоса, такие можно услышать только на фонографе – или в театре марионеток» [1]. Инженер-электрик сэр Уильям Генри Прис полагал, что использовать фонограф для записи выдающихся голосов, например оперной дивы Аделины Патти или великого оратора Глэдстона, – плохая идея [2]. Пирс считал, что воспроизведенный звук – «это своего рода… бурлеск или пародия на человеческий голос» [3]. В наши дни сгенерированный компьютером голос, озвучивающий героя шекспировской пьесы, возможно, описали бы так же. Можно было бы загрузить текст пьесы в современный синтезатор речи, и он, наверное, смог бы выдать членораздельный текст, но странная интонация сделала бы такое воспроизведение карикатурой на актерскую игру.
Возможно, сейчас вы представили себе Стивена Хокинга, играющего Гамлета, но на самом деле Хокинг использовал давно устаревшие технологии. Понятно, что он отказывался «усовершенствовать» свой голос, поскольку он уже стал его визитной карточкой. Новейшие синтезаторы речи, конечно, звучат более естественно, и такие голоса, как Siri, персональный помощник iPhone, для многих людей стали частью повседневной жизни. Когда я приступил к написанию этой главы, в среде специалистов, занимающихся синтезом речи, царило возбуждение по поводу новейшей технологии, разработанной DeepMind. Заголовки пестрели сообщениями о том, как в 2016 году разработанная компанией программа на основе искусственного интеллекта AlphaGo обошла профессионального игрока в го. Ученые старались добиться впечатляющего качества синтезированной речи, как это получилось у DeepMind.
Если мы все ближе подходим к моменту, когда механическая речь станет неотличимой от человеческой, следует ли беспокоиться тем, кто профессионально использует свой голос? Не наступит ли час, когда я в последний раз буду выступать со своей научно-популярной программой на радио BBC? Ведь BBC уже начала переводить и читать сводки новостей на русском и японском языках, используя механические голоса [4]. Это делается для того, чтобы предоставлять услуги на большем количестве языков, так что дикторы-люди не останутся без работы – во всяком случае пока…
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Зачем мы говорим - Тревор Кокс», после закрытия браузера.