Перспективы технологии искусственной речи: управление мозгом

Новые перспективы для технологии искусственной речи предлагают ученые Калифорнийского университета. Управление мозгом могут доверить виртуальным речевым аппаратам.

Искусственная речь необходима не только роботам и автоматическим устройствам. Различные заболевания и травмы нередко приводят к нарушениям речи у людей. И, конечно, предпочтительнее генерировать речь в таких случаях непосредственно из мозга.

Исследования, проведенные калифорнийскими учеными, показали, что частые неудачи в попытках мозговой генерации речи связаны с особенностью сигналов, посылаемых мозгом. Оказалось, что мозг, в основном, генерирует не сами слова, а посылает органам речи некую инструкцию для их произношения.

Поврежденные органы речи не в состоянии выполнить эту инструкцию, поэтому и возникают нарушения. Попытки же перевести сигналы мозга непосредственно в слова терпят неудачу, так как сигналы для этого не предназначены.

Ученые решили декодировать мозговую деятельность, используя хореографию движений губ, языка, гортани и других органов, участвующих в речи здорового человека. Для этого записывались фрагменты речи и соответствующие им сигналы мозга. Затем был создан виртуальный голосовой тракт и синтезатор, преобразующий декодированные сигналы в звуки.

Результат оказался ошеломляющим. Искусственная речь, созданная с использованием такой технологии, звучала практически естественно, передавая не только общий смысл слов, но и нюансы. Управление мозгом генерации речи и дальнейшее преобразование ее через виртуальный голосовой тракт позволяет получить на выходе эмоционально окрашенный голос естественного звучания.

Конечно, существуют ограничения, связанные с тем, насколько простые или сложные слова применялись в искусственной речи. Если речь идет о людях с нарушениями голосового аппарата, то достаточно простой набор слов, необходимых для общения, показывает отличные результаты.

Декодирование более сложной речи с использованием редких и длинных слов пока еще показывает недостаточную ясность. Затруднение вызывают также звуки, которые произносятся похоже: «с» и «з», «д» и «т».

Тем не менее, сам принцип применения новой технологии может быть применен в будущем и для генерации максимальной живой речи устройств искусственного интеллекта и роботов. Использование виртуального голосового тракта вместо готового набора слов способно изменить представление об общении человека и машины.