Подразделение DeepMind, принадлежащее Alphabet Inc. (GOOGL, NASDAQ) с 2014 г., сообщило о разработке системы машинного анализа и генерирования речи, которая, по словам разработчиков, превосходит существующие на рынке технологии на 50%. Кроме того, разработки DeepMind помогли Google на 40% снизить энергопотребление центров обработки данных.

DeepMind разработала вычислительную систему с элементами искусственного интеллекта (ИИ) под названием WaveNet, которая может имитировать человеческую речь, используя алгоритмы формирования звуковых волн, которые создают человеческий голос. В слепых тестах для китайского языка и американской версии английского слушатели отметили, что сгенерированная WaveNet речь звучит более естественно, чем сгенерированная с помощью любой из существующих программ имитации речи. Однако разработчики признают, что WaveNet еще недостаточно эффективна для полного копирования реальной человеческой речи.

Система WaveNet представляет собой тип ИИ на основе нейронных сетей, которые предназначены для имитации определенных нейронных цепей человеческого мозга и, соответственно, выполнения его конкретных функций мозга. Такие сети могут самообучаться, используя большие наборы данных для сравнительного анализа.

Это принципиально новая технология. Многие современные компьютерные программы воссоздают речь с использованием большого количества коротких записей человеческого голоса, которые объединяются в слова и предложения. Получившийся в результате голос хоть, формально, и принадлежит человеку, но звучит неестественно из-за машинных интонаций. Другие системы с нуля воссоздают голос сразу в электронном виде, это позволяет проводить незначительные манипуляции с интонациями, но все равно такая речь звучит неестественно и плохо воспринимается на слух. Новая технология от Google максимально близка к естественной человеческой речи и в будущем может использоваться для взаимодействия с машинами и интернет-сервисами.

Однако, несмотря на то, что системы вычислений на основе искусственного интеллекта выходят на этап практического применения, говорить о массовом выходе на рынок еще рано. Основная причина – необходимость больших вычислительных мощностей. Так,
WaveNet должна обрабатывать аудиосигнал 16 000 раз в секунду, а затем для каждого из этих звуковых сигналов сформировать облик звуковой волны на основе каждого из предыдущих образцов.

Тем не менее, с увеличением вычислительных мощностей будут развиваться и системы голосового общения, к которым уже проявляют интерес инвесторы. Надо отметить, что DeepMind на данный момент продвинулся дальше всех конкурентов. Впрочем, подобные разработки часто закрыты, они проводятся в «стелс»-режиме, и информация о них почти не распространяется.

Как бы то ни было, по сообщению Google, технология DeepMind уже помогла уменьшить энергетические потребности центров обработки данных на 40%. Также руководство Google сообщило, что DeepMind помогла добиться «существенных улучшений в наборе услуг от YouTube и Google Play».

На торгах 9 сентября акции Alphabet скорректировались до $788,48. Рыночная капитализация компании достигла $530,49.