Читать книгу "Зачем мы говорим - Тревор Кокс"
Шрифт:
Интервал:
Закладка:
Если вы предпочитаете, чтобы ваш робот-певец выступал в более классическом стиле, стоит обратиться к Павароботти [20]. Подобно настоящей оперной звезде, этот робот одет во фрак, в руке у него белый платок, а в конце представления он поднимает обе руки в знак благодарности за аплодисменты слушателей. Его голова – это экран, на котором зрители видят мультяшное лицо. Компьютер синтезирует арию Nessun Dorma из оперы Пуччини «Турандот», а голос исходит из динамика, спрятанного внутри фрака. Павароботти – это изобретение Инго Титце, который руководит Национальным центром голоса и речи в штате Юта. Сам Титце – хороший оперный тенор, и на представлениях он поет на низких нотах, а Павароботти – на высоких. Люди платят большие деньги, чтобы услышать, как тенор точно и мощно берет высокие ноты, но на самом деле именно такие ноты компьютеру создать просто. Значительно труднее создать нужный тон, ударение и интонацию в более спокойных и низких фрагментах арии, чтобы они звучали убедительно.
В основе Павароботти – компьютер с программой, решающей математические уравнения. Они описывают, как под действием воздушного потока создается звук, как он далее изменяется из-за резонанса в голосовом тракте и распространяется в полость рта. Компьютерной программе требуются тома подробнейших инструкций, описывающих быстро изменяющуюся геометрию голосовой анатомии. Написать все это непросто – для создания числовой информации для ввода в компьютер потребовалось почти пять месяцев. Но дело стоило того: Павароботти с восторгом приняли на концертах. Звуки, производимые компьютером, звучат натурально, в них нет даже намека на искусственность. Старая поговорка шоу-бизнеса гласит: «Всегда заставляйте хотеть большего». Именно это и сделал Павароботти, ведь Титце запрограммировал лишь одну арию.
Титце создал Павароботти, чтобы разобраться в механизме пения. Например, он продемонстрировал, что опущение гортани и сужение голосового тракта как раз над голосовой щелью создает «звонкость» оперного тенора, именно поэтому его хорошо слышно в больших залах. Разрешение на создание робота Титце получил у Лучано Паваротти, и оперной суперзвезде это явно было приятно. Паваротти был заинтересован в том, чтобы просвещать людей, поэтому дал проекту «свое благословение». Титце сказал мне: «Тенор назвал проект нашим детищем. И еще сказал что-то вроде “Хорошая работа, продолжай в том же духе”». Когда я спросил Титце, смогут ли компьютерные оперные певцы заменить живых исполнителей, он ответил: «Надеюсь, это случится не скоро, потому что я люблю настоящее пение. – И добавил: – Я думаю, голос нужен не только для художественных целей или для передачи слов от одного человека другому. Я считаю, что пение – это залог хорошего здоровья».
Системы, подобные Павароботти, пока не представляют угрозы человеческому пению, потому что создание разных голосов и огромных словарей в настоящее время нецелесообразно. Если «весь мир – театр», тогда «каждый [робот] не одну играет роль[32]». Для того чтобы машина научилась производить разнообразные уникальные и богатые голоса, нужен другой подход.
Историю систем производства речи, подобных Siri в iPhone, можно проследить до работ Дадли и других ученых из Лабораторий Белла. Наряду с изобретением Водера, эти люди создали очень похожее изобретение, с которым мы уже встречались ранее, – вокодер. Эта технология сыграла важную роль во Второй мировой войне.
В ходе этой войны секретная связь между союзниками была жизненно необходима. Но уже в первые дни войны германские специалисты по взламыванию шифров придумали, как расшифровать и подслушивать разговоры, – например, трансатлантические телефонные переговоры между президентом Рузвельтом и премьер-министром Черчиллем [21]. Была необходима новая система шифрования звонков, и решением, разработанным Лабораториями Белла в 1943 году, стал вокодер SIGSALY[33]. Он участвовал в военных операциях, в том числе в атомной бомбардировке Японии [22]. Вокодер – сокращение от «кодировщик голоса» (voice coder), с помощью электроники он разбирает записанную на микрофон речь, разделяя ее на источник (гудение голосовых связок) и фильтр (окрашивание звука голосовым трактом). Затем разделенная на два потока речь шифровалась и отправлялась через Атлантику. За океаном эти сигналы дешифровывались, а голос восстанавливался с использованием особой технологии, подобной технологии Водера. Военные записи не сохранились, но, судя по описаниям, речь можно было (хотя и с трудом) разобрать.
SIGSALY были сложными машинами и такими большими, что могли бы занять теннисный корт. Сердцем системы кодирования были два идентичных виниловых диска, один находился в Лондоне, другой – в Вашингтоне. На них были сделаны парные записи произвольного шума, которые использовались только один раз, а затем уничтожались. Записям давались кодовые названия, например «Красная клубника», «Дикая собака» или «Цирковой клоун», и операторы знали, какую из них нужно поставить на магнитофон для каждого звонка [23]. Шум от винила добавлялся к сигналам еще до их передачи, а на другом конце дубликат записи позволял его отделить. Без соответствующих записей взломать передаваемые радиосигналы было невозможно. Передача была похожа на жужжание насекомого, что привело к появлению прозвища «Зеленый шершень».
Это было потрясающее достижение, оно открыло дорогу многим нововведениям в технологии распознавания и синтеза речи, некоторые используются и сегодня. Это была первая закодированная телефонная система, позволившая оцифровать и сжать человеческий голос. Сегодня мы принимаем это как должное, когда пользуемся мобильными телефонами. Кроме того, вокодер SIGSALY продемонстрировал, как звук может быть разбит на небольшой набор компонентов, которые затем можно передать и реконструировать на другом конце провода. Это и есть ключевые ингредиенты в рецепте создания речи, и их можно варьировать для создания предложений, изменения акцента и других аспектов произношения.
Если вы хотите, чтобы актер-робот прочитал пьесу Шекспира, придется написать рецепт. Верное соотношение ингредиентов нужно будет загрузить в вокодер, чтобы робот мог использовать сценарий и понять, как произносить слова. Представьте, что в компьютер нужно загрузить текст из последнего монолога Макбета: «Бесчисленные “завтра”, “завтра”, “завтра”»[34]. Если каждое «завтра» произносить с одинаковой интонацией, это будет звучать ужасно. Но многие системы синтеза речи до сих пор используют один и тот же повторяющийся рисунок, и даже лучшие образцы речи, которые они создают, значительно уступают исполнению настоящего шекспировского актера.
Я загрузил «Быть или не быть» в одну из лучших систем преобразования текста в речь [24]. Из предлагаемых этой системой голосов больше всего мне понравился WillBadGuy: это скрипучий голос героя боевиков. Но звучал он так, будто WillBadGuy получил удар по голове: голосу не хватало беглости. Потом я попробовал искусственный голос десятилетнего подростка, который проскакал весь монолог, шепелявя, как робот. Повышение тона голоса, как при вопросительной интонации в вопросе, в конце каждой строки меня добило. Чтобы приблизиться к речи настоящего актера, система преобразования текста должна уметь не просто распознавать слова, но и интерпретировать их. Однако для этого требуется искусственный интеллект высокого уровня, и человеку еще предстоит долгий путь до реализации этого технологического чуда.
Внимание!
Сайт сохраняет куки вашего браузера. Вы сможете в любой момент сделать закладку и продолжить прочтение книги «Зачем мы говорим - Тревор Кокс», после закрытия браузера.