Ядра Tensor в архитектуре NVIDIA Volta

Новое поколение технологий глубокого обучения

Графический ускоритель NVIDIA® Tesla® V100 GPU построен на основе революционной архитектуры GPU NVIDIA Volta. Потоковые мультипроцессоры Volta на 50 процентов более энергоэффективны, чем мультипроцессоры предыдущего поколения NVIDIA® PascalTM. Это приводит к значительному приросту производительности в операциях одинарной (FP32) и двойной (FP64) точности. Но каково же главное новшество архитектуры? Интеграция ядер Tensor.

Прорыв в области тренировки нейросетей и инференса

Предназначенные специально для задач глубокого обучения, ядра Tensor обеспечивают революционную производительность, демонстрируя увеличение пиковых показателей Терафлопс для тренировки алгоритмов в 12 раз, а для инференса - в 6 раз. Эта ключевая возможность позволяет Volta обеспечивать 3-х кратное ускорение производительности в задачах тренировки и инференса по сравнению с архитектурой предыдущего поколения.

Каждое из 640 ядер Tensor в Tesla V100 может обрабатывать матрицу 4x4, имея собственные пути передачи данных, что ведет к серьезному повышению производительности вычислений с плавающей точкой и высокой энергоэффективности.

Повышение энергоэффективности и прирост производительности

Deep Learning Training in Less Than a Workday

GPU Volta имеет 640 ядер Tensor, каждое из которых выполняет 64 операции FMA со смешанной точностью за такт. Это обеспечивает производительность в 125 Терафлопс в задачах тренировки алгоритмов и инференса. Это означает, что разработчики могут запускать тренировку алгоритмов глубокого обучения, используя вычисления смешанной точности (FP16 и FP32). Это приводит к 3-х кратному ускорению производительности по сравнению с архитектурой предыдущего поколения и сходимости ожидаемых уровней точности нейросети. Подобный 3-х кратный прирост производительности является ключевым достижением технологии ядер Tensor. Теперь вычисления для задач глубокого обучения занимают всего несколько часов. В задачах инференса Tesla V100 обеспечивает более чем 3-х кратный прирост производительности по сравнению с решениями предыдущего поколения.

47X Higher Throughput than CPU Server on Deep Learning Inference

Скорость Tesla V100 превосходит сервер на базе CPU в 47 раз. Подобное ускорение по большей части объясняется тем, что ядра Tensor ускоряют выполнение инференса за счет операций смешанной точности и использования программируемого ускорителя инференса NVIDIA TensorRT.

Значительный прирост вычислительной производительности

Читайте техническую статью о ядрах Tensor и архитектуре NVIDIA Volta.