Произведет ли искусственный интеллект революцию в изучении языков? Новый инструмент от Майкрософт
Раздел:
Python
Содержание:
Alpha Signal анонсировал еще одно расширение Microsoft, которое будет называться VALL-EX. Это многоязычная модель контекстного обучения синтеза речи, которую можно применять для межъязыкового синтеза речи.
Благодаря ему пользователь сможет «говорить» на иностранном языке своим голосом, с определенным акцентом и с такими эмоциями, которые он хочет выразить в данный момент.
Образцы таких записей доступны на сайте vallex-demo.github.io. Здесь три звука. Первый является оригинальным (например, китайский), второй переводит на другой язык (например, английский), а третий, после исправлений, учитывает и имитирует оригинальный голос говорящего. VALL-EX также может синтезировать персонифицированную целевую речь, сохраняя эмоции исходной речи.
Мы проверили, как звучат описанные сэмплы. Надо сказать, эффект впечатляет. Правда, это еще не идеальное воспроизведение заданного голоса — в речи после перевода слышны какие-то притормаживания, которые звучат не аутентично, — но это не меняет того факта, что общее впечатление очень хорошее.
Это точно не конец
На примере ВАЛЛ-ЭКС видно, что дуэль крупнейших технологических компаний набирает обороты. Не так давно [мы сообщали, что искусственный интеллект будет использоваться в интернет-продуктах Microsoft, то есть в поисковой системе Bing и браузере Edge].
В свою очередь, в начале февраля Google похвастался премьерой сервиса Bard, который должен был стать ответом на ChatGPT. И хотя первые отзывы об этом инструменте были достаточно критическими, это не меняет того факта, что Alphabet не откажется от дальнейшего развития искусственного интеллекта в своих продуктах.
Вопрос этики
Как и в случае с другими проектами, связанными с искусственным интеллектом, здесь тоже возникают вопросы об этичности их использования. С появлением новых технологий возникают и новые риски, связанные с возможным неправильным использованием инструмента. При использовании VALL-EX (или аналогичных инструментов) существует риск подделки голосовой идентификации и выдачи себя за конкретного говорящего.
Добавить