vikky13 Sep 1 2011 at 10:52

ArBB, Cilk+, OpenMP, OpenCL, TBB — День Знаний или День Выборов

5 min

11K

Intel corporate blog

+22

Comments 24

ZlodeiBaal Sep 1 2011 at 12:21

1)А CUDA??? Или вы только по тому что поддерживает проц проходились?
2) Почему OpenCL без GPU не обеспечивает производительности? Тут были где-то тесты на хабре, сравнивали с OpenMP. Там были одинаковые производительности показаны.
3) «Страница кода для запуска OpenCL» — ну, если использовать соответствующие обёртки — всего пара строчек)

А так в целом понравилось. Про последние три знал очень мало — почитал теперь)

vikky13 Sep 1 2011 at 12:28

1) Вы угадали, CPU должен участвовать, за остальным — в блоги к производителям GPU :)
2)Почему не обеспечивает — вопрос сложный, это много от чего зависит. Короткий ответ — накладные расходы. И, правильно, да OpenMP — я же говорю, что и она не обеспечивает :)
3) Смотрела Intel OpenCL SDK (что ж еще? :) ) и оберток не заметила. Если они есть — отлично.

ZlodeiBaal Sep 1 2011 at 12:40

Не знаю… Про производительность это сложный вопрос. На CL есть высокий доступ к вычислительному устройству (в том числе синхронизации различные). При наличие прямых рук производительность там будет не хуже чем на любой другой система использующей процессор. Но мороки будет много.

Обёртки это обычно открытые проекты. Вот тут про некоторые из них написано немного — habrahabr.ru/blogs/hi/124873/
Без них CL ещё более сложен и уныл)

vikky13 Sep 1 2011 at 12:58

>> Но мороки будет много.
Вот это я и имела в виду. Не факт, что стоит возиться. Я совсем не против OpenCL, но надо быть объективным.

Спасибо за отличный комментарий.

ZlodeiBaal Sep 1 2011 at 16:23

Спасибо за хорошую статью)

DmitryO Sep 1 2011 at 12:46

Если долго и внимательно смотреть на картинку в начале поста, то она превратится в картинку из этого поста :) — это так и задумано? :)

Отличный обзорный пост! Но его надо продолжить. Тут прозвучала оценка технологий с точки зрения простоты изучения и доступности материалов. Хотелось бы также услышать рекомендации по выбору технологии в зависимости от типов (объемов, сложности, и т.п.) решаемых задач.

vikky13 Sep 1 2011 at 12:55

Оох… у меня нет времени долго смотреть на картинки :) так что — не знаю.

я знала, что кто-нибудь это обязательно попросит :) Но это проще попросить, чем сделать. Буду думать.

DmitryO Sep 1 2011 at 13:04

Так это же логично! К примеру, ArBB, судя по твоей замечательной табличке, проигрывает практически всем. Возникает резонный вопрос: зачем-то же его все-таки сделали? Миллионы менеджеров Intel не могут ошибаться! (С)

vikky13 Sep 1 2011 at 13:08

:)
ArBB — это монстр :), соответственно, ему нужны тяжелые монстровые задачи.

KindDragon Sep 1 2011 at 14:01

Почему для Clock Plus и TBB нету отдельного жирного подпункта «недостатки» как у остальных, а они упомянуты в тексте? И насколько я понимаю недостаток что не используется GPU относится и к Click Plus, хотя не упомянут в тексте.

vikky13 Sep 1 2011 at 14:06

спасибо, это не по злому умыслу, а по недосмотру.
Сейчас поправлю.
Но отдельным пунктом недостатки тут выносить не хочется — они уместны в тексте, прсто выделю жирным и добавлю.
Вы вот тоже опечатались clock вместо cilk написали :)

KindDragon Sep 1 2011 at 14:08

> Вы вот тоже опечатались clock вместо cilk написали :)
Черт :-)

UFO just landed and posted this here

vikky13 Sep 2 2011 at 13:01

Если мы говорим про работу на CPU, то там все просто. В основе всех библиотек — нативный интерфейс работы с потоками ОС, так что в принципе все библиотеки распараллеливания на CPU «взаимозаменяемы» — то есть, теоретически возможно взять интерфес одной и звать внутри начинку от другой. Но интерфейс каждой из них заточен под внутреннюю структуру (или наоборот:) — то есть, вышеупомянутая штука будет немного медленнее или сильно медленнее, чем это возможно (при вызове быстрейшей библиотеки).
Если же включить сюда и GPU, то нам нужны: код для CPU, специально скомпилированный особым компилятором код для конкретного GPU плюс блок, загружающий этот код на GPU и обрабатывающий потом результаты. Как это можно сделать автоматически, да еще и в рантайме из одного исходного кода, не зная, что куда — я не представляю.

UFO just landed and posted this here

vikky13 Sep 2 2011 at 22:46

Ну кто-то же должен обернуть, например, каждую итерацию цикла в функцию, потом куда-то ее вынести и скомпилировать отдельной библиотекой, потом надо решить проблему передачи данных туда — выделить для этого память, потом… короче, В итоге мы придем к OpenCL :)

stmuxa Sep 2 2011 at 00:38

«Страница кода для запуска OpenCL» — это самая вершина айсберга.
Внутри все намного сложнее, зато и возможностей где можно развернуться очень много.
(Сейчас пишу именно на OpenCL'е)
(Выше имелась в виду GPU часть OpenCL'я)

ilya314 Sep 2 2011 at 20:45

Для полноты картины еще две технологии:

PPL (Parallel Patterns Library)
Это аналог OpenMP от Microsoft, реализован в виде библиотеки средствами языка C++11 (lambda-выражения передаются параметрами функций). Весьма вероятно, что спецификации открыты, но учитывая недостаточную распространенность C++11 и существование OpenMP это дело возможно есть только в vs2010.

Намного более интересна другая вещь — C++ Accelerated Massive Parallelism (C++ AMP). Это замена OpenCL, но с использованием C++, как и PPL — это просто библиотека, которая работает в рамках языка C++11. Это дело недавно демонстрировали в работе, синтаксис немного показали, будет доступно в следующей версии Visual Studio. Важно, что спецификация будет точно открытой.
Некоторые ссылки:
C++ Accelerated Massive Parallelism

vikky13 Sep 3 2011 at 11:32

Спасибо, интересно. А самое интересное — это как AMP по производительности сравнительно с OpenCL.

ilya314 Sep 3 2011 at 11:58

Это конечно интересно посмотреть, но реально можно будет сравнить, когда до пользователей дойдет этот инструмент. А вообще рекомендую видео с Herb Sutter — там демонстрируется работа моделирования частиц, GFlops-ы на экран выводятся и на разном железе показано как это все работает, какое ускорение.

ilya314 Sep 2 2011 at 20:51

Дополнение по поводу c++ amp, случайно запостил недописанный комментарий. Ссылки:
C++ Accelerated Massive Parallelism
Microsoft brings GPU computing to C++ with C++ AMP (есть слайды)

На channel9 можно еще видео по С++ AMP найти.

ilya314 Sep 2 2011 at 20:54

Доклад (видео) по C++ AMP с демонстрацией приложения:

Herb Sutter: Heterogeneous Computing and C++ AMP

beeruser Sep 7 2011 at 10:50

ISPC — вот это вещь. От того же интела, как ни странно.
ispc.github.com/

vikky13 Sep 17 2011 at 15:46

Спасибо! Я про такое не знала — Интел велик во всех смыслах :)
А это вы в теории им восхищаетесь или на практике? От этого много чего зависит :)