Тренды

Ученые создали нейросеть, которая определяет внешность человека по голосу. Что? Да!

Ученые из MIT разработали нейросеть, которая может угадать, как выглядит лицо человека на основе записи его голоса. Алгоритм пока работает неидеально, и сгенерированные изображения, как и прослушивание собственного голоса со стороны, могут вызвать восклицание: «Это что, правда, я?!» Однако получается все равно очень похоже.

Хорошие новости для людей, которые после очередного прослушивания своего голоса на записи удивляются, как с ними до сих пор кто-то общается. Теперь по этим записям можно воспроизвести внешний вид говорящего с помощью нейросетей (а теперь вспомните последнее видео со своим участием и попробуйте представить, каким бы вас увидел ИИ). Ученые из Массачусетского технологического института создали и обучили новый алгоритм Speech2Face. Он способен проанализировать тон, интонации и прочие характеристики чьего-либо голоса с аудиозаписи и создать его/ее портрет.

Многие бы позавидовали «учебному процессу» искусственного интеллекта: исследователи заставляли его бесконечно смотреть YouTube. Однако развлечься смешными видео с собаками или роликами о крещении в VR (да, такое бывает) ИИ не удалось. Вместо этого нейросети пришлось анализировать миллионы записей с говорящими людьми и учиться соотносить тембр голоса с внешними характеристиками.

После этого ученые выключили видео, поставили искусственному интеллекту аудиозапись уже без картинки и заставили угадывать, кто же скрывается за тем или иным голосом. Итоговые портреты кисти нейросети далеки от совершенства, но результаты все же впечатляют. Пусть алгоритм и не может угадать точный разрез глаз, однако пол, возраст и расу людей определяет безошибочно.

Eduardo M. Aguirre / YouTube

Зачем нужна эта технология? Создатели заявляют, что Speech2Face будет полезна разработчикам видеоигр — они смогут создавать более точные цифровые аватары пользователей. Также нейросеть пригодится сотрудникам правоохранительных органов, расследующим дела о телефонном мошенничестве. Более того, этот алгоритм несет в себе немалую исследовательскую пользу: генерация лиц на основе голоса поможет глубже понять корреляцию голоса с внешностью человека. Ну и в конце концов, кому не интересно наконец-то приоткрыть завесу великой тайны и узнать, как же все-таки выглядит те люди, которые объявляют названия станций в метро?

Впрочем, ученые отмечают, что хоть они и будут продолжать работать над повышением точности изображений, полученных на основе голоса, высочайшего сходства добиться практически невозможно. Ведь на речь человека и тем более ее запись постоянно влияет множество факторов — учесть их все попросту нереально. Однако мир бестелесных голосов уже вступил на путь материализации. Правда, пожалуй, телефонным хулиганам это вряд ли придется по душе.

Жанна Карамазова

#нейросети