Анонсы 26 Апреля 2011 года
Данная новость была прочитана 6081 раз

CompMechLab - "КАДФЕМ Си-Ай-Эс" - Форсайт: отчет о результатах исследования ускорения расчетов в ANSYS 12.1 и 13.0 при использовании SSD и NVIDIA Tesla

В ноябре 2011 года компания ANSYS, лидер в области компьютерного моделирования и HPC, сообщила о начале поддержки ускорения расчетов некоторых классов задач по средствам специализированных процессоров NVIDIA Tesla. Данная поддержка была включена в 13 версию одноименной системы КЭ анализа ANSYS.

Сотрудниками лаборатории «Вычислительная механика» (CompMechLab®) СПбГПУ и компаний ЗАО «КАДФЕМ Си-Ай-Эс» и Форсайт было проведено трёхстороннее совместное исследование возможностей сокращения времени расчетов в программной системе КЭ анализа ANSYS 12.1−13.0 при использовании специализированных вычислительных процессоров NVIDIA Tesla и высокоскоростных твердотельных накопителей (Solid State Disk, SSD).

В настоящий момент максимальные вычислительные возможности графических процессоров (GPU) уже превосходят по ряду показателей обычные центральные процессоры (CPU). Современные GPU NVIDIA Tesla содержат сотни ядер и огромный потенциал для расчетов, что может обеспечить существенное сокращение общего времени счета. Tesla GPU основываются на архитектуре CUDA, позволяющей программировать GPU с использованием стандартных языков, что открывает возможности для распределенных вычислений в различных приложениях – помимо традиционной графики.

При решении задач механики деформируемого твердого тела методом конечных элементов используется большое количество вычислительных алгоритмов, которые могут быть легко переданы с ядер центральных процессоров (CPU) на ядра графических процессоров (GPU). Задачи малой размерности, нетребовательные к объему оперативной памяти, не всегда могут эффективно решаться в режиме распределенных вычислений на классических кластерах. При решении задач оптимизации конструкций возникает потребность в решении большого количества сравнительно простых задач средней размерности. Одним из немногих способов сокращения времени счета в подобных ситуациях является применение технологий NVIDIA Tesla для решателей ANSYS.

Возможность использования специализированных процессоров NVIDIA становится доступной при наличии лицензий ANSYS HPC Packs. Одна лицензия HPC Pack позволяет задействовать один специализированный процессор NVIDIA Tesla. В версии ANSYS 13.0 только один специализированный процессор NVIDIA Tesla может быть использован в процессе решения. NVIDIA Tesla C20xx в настоящий момент являются официально поддерживаемыми специализированными процессорами. Использование специализированных процессоров NVIDIA Tesla возможно только на операционных системах Windows x64 и Linux x64 (Linux IA-64 - Itanium 2 не поддерживается). Также не поддерживается использование специализированных процессоров NVIDIA Tesla при распределенных режимах вычислений Distributed ANSYS.

В настоящий момент возможно задействовать аппаратное ускорение расчетов при помощи NVIDIA Tesla для следующих классов задач:

  • Статические линейные и нелинейный расчет с применением решателей Sparse, PCG или JCG;
  • Расчет на устойчивость при использовании Block Lanczos eigensolver;
  • Расчет собственных частот и форм колебаний при котором используется Block Lanczos или PCG Lanczos eigensolver;
  • Полный гармонический расчет с использованием Sparse решателя;
  • Решение нестационарных нелинейных процессов с использованием Sparse, PCG или JCG решателей.

Для проведения тестирования был собран тестовый стенд со следующими характеристиками.

Операционная система

MS Windows 7 64bit

Версии ANSYS

ANSYS 12.1 + ANSYS 13.0

Центральный процессор

Intel Core i7 950 @ 3.07GHz

Оперативная память

12.0 Гб DDR3 @ 1600 МГц (8-8-8-20)

Материнская плата

ASUS P6T7 WS SUPERCOMPUTER

Графическая карта

NVIDIA Quadro 2000

Специализированный процессор

NVIDIA Tesla C2050

Жесткий диск (HDD)

Segate Barracuda 7200.10 ST3320620AS 

Жесткий диск (SDD)

Intel X25-M SSDSA2M080G2GC

NVIDIA Tesla C2050:

  • 448 CUDA-ядер
  • 3 ГБ GDDR5 специальной памяти
  • 144 Гб/с – пропускная способность памяти
  • ~ 1 ТФЛОП – одинарная точность
  • ~ 0.5 ТФЛОП – двойная точность

Для тестирования производительности рабочей станции при проведении расчетов в программной системе КЭ анализа ANSYS был выбран набор тестов ANSYS SP1 BENCH110 Benchmark Suite. Набор тестов модифицирован таким образом, чтобы позволять проводить расчеты в ANSYS 12.1 – 13.0 и задействовать возможности NVIDIA Tesla. Данный набор тестов неоднократно применялся сотрудниками лаборатории при проведении измерений быстродействия рабочих станций. Он содержит множество задач различной размерности, относящихся к различным классам. Присутствуют линейные / нелинейные, стационарные / нестационарные задачи теории упругости, теории колебаний, теплопроводности и магнитостатики. 

Статическая задача теории упругости, 850 тыс. степеней свободы, Sparse-решатель.

Данная задача средней размерности и должна полностью помещаться в оперативной памяти.

Задача теории колебаний, 760 тыс. степеней свободы, Block Lanczos-решатель.

В ходе решения задачи проводится расчет 200 частот и форм собственных колебаний. Задача показывает сбалансированность работы процессора и жесткого диска. На времени решения задачи положительно сказывается большой объем оперативной памяти. Выигрыш от ускорения расчета при параллелизации может теряться на фоне длительного процесса факторизации матриц.

Нелинейная контактная задача, 200 тыс. степеней свободы, Sparse-решатель.

Задача демонстрирует сбалансированность работы процессора и жесткого диска.

Нестационарная задача теплопроводности, 700 тыс. степеней свободы, JCG-решатель.

Еще одна небольшая задача, которая должна хорошо решаться на любой машине. Узким местом для итерационного решателя, используемого в данной задаче, является пропускная способность памяти.

Статическая задача теории упругости, 250 тыс. степеней свободы, Sparse-решатель.

Тест показывает баланс CPU и I/O подсистемы. Задача из этого теста решается в памяти любой Win32 машины (размерность задачи автоматически подстраивается).  Подпрограммы Sparse-решателя с двойной точностью создают основную вычислительную нагрузку.

Статическая задача теории упругости, 750 тыс. степеней свободы, Sparse-решатель.

Тест показывает баланс CPU и I/O подсистемы. На скорости счета положительно сказывается размер оперативной памяти. Задача требует 16 Гб свободной оперативной памяти.

Статическая задача теории упругости, 5 млн. степеней свободы, PCG-решатель.

Самая "тяжелая" задача из данного набора тестов. Лучший тест для пропускной способности подсистемы памяти.

Выводы

Результаты данных исследований показали возможное сокращение времени расчета в зависимости от сценария:

10% − 30%  (до 250% на некотором классе задач) при использовании специализированных потоковых вычислительных процессоров NVIDIA Tesla;

25% − 30% в среднем (до 100% на некотором классе задач) при замене накопителей на жестких магнитных дисках (HDD) на твердотельные накопители (SSD);

5% − 10% в среднем (до 20% на некотором классе задач) при переходе от версии ANSYS 12.1 к ANSYS 13.0.

На сегодняшний момент NVIDIA Tesla позволяет создавать рабочие станции, обладающие максимальной концентрацией вычислительной мощности на объем. Подобные решения являются выигрышными в случае проведения расчетов для плохо распараллеливаемых задач средней размерности (в настоящий момент не более 6 миллионов степеней свободы), которые невозможно эффективно запускать на классических кластерах. К сожалению, в настоящий момент подобные технологии ускорения расчетов оказываются неодинаково эффективны для всех классов задач. Данный факт придает особенную ценность проведенному исследованию, как источнику информации о задачах, в которых отдача от Tesla будет максимально возможной.

Высокоскоростные твердотельные накопители в настоящий момент позволяют ускорить решение практически любого класса задач и повысить комфортность работы с большими базами данных путем сокращения времени их считывания в оперативную память компьютеров. С постепенным снижением их стоимости и увеличением быстродействия не остается никаких сомнений, что современная рабочая станция CAD/CAE специалиста обязана быть оборудованной твердотельной памятью. Причем чем большей размерности задачи будут решаться – тем существеннее будет выигрыш от применения подобных систем хранения информации.

По итогам тестирования можно однозначно рекомендовать переход на более новую 13 версию ANSYS – она позволяет не только получить новые инструменты для решения задач, но и ускорить решение уже имеющихся постановок.

Контактная информация:

CompMechLab, Юрий Новожилов

CADFEM CIS, Дмитрий Михалюк

Компания «Форсайт», Евгений Зверев