Минус за неуместную для хабра картинку.
Чать не drive2, чтобы картинками сиськами и прочим дешевым трэшем завлекать.
Окей, поправим!

А еще spark умеет в standalone кластер.
Но я все равно не смог его поднять :(

А в чём проблема? Мне понадобилось самостоятельно указать только 4 параметра: SPARK_WORKER_MEMORY, SPARK_EXECUTOR_MEMORY, SPARK_DAEMON_MEMORY и SPARK_WORKER_CORES. Работников можно запускать вручную на локальных машинах, если через start_slaves.sh не получается, больше там вроде проблем и нет, разве что еще log4j настроить надо.

Собственно, даже spark-shell в режим консоли не входит.

У spark-shell вроде есть зависимость от Scala, причем определенной версии, а у самого Spark есть зависимость от некоторых частей Hadoop (т.е. надо скачивать пакет с Pre-built for Hadoop 'version'). Я на разных машинах с разными ОС запускал, проблемы с запуском возникли разве что под Windows, там какую то либу от Hadoop надо отдельно скачивать.
Уже некоторое время мучаю себя мыслью, что надо написать нормальную серию статей по спарку.
Думал что ура, написали, теперь мучаться не надо.
Придется все равно писать.
У вас на картинке лого другого Spark'a (Spark — A micro web framework).
Где можно найти сравнение производительности спарковского MLlib запущенного на одном компьютере с другими решениями для машинного обучения под java/scala?
В спешке убирал похабную картинку и не сообразил даже, что лого не то. Вроде сейчас лучше.
А можно (любопытно очень) ссылку на исходную картинку… ну в комментарии под спойлером для особо любопытных?
А возможно где-то код посмотреть, который получился в результате?
На джаве неудобно. Если флоу rdd-бейзд. На котлине намного лучше, но пока плохо без деструктуризации в лямбдах. Так что пока скала без изощрений. А для датафреймов точно можно без скалы.
Используем спарк уже более двух лет в серьёзных проектах.

Изначально пытались не заморачиваться скалой и пробовали писать на яве, но очень быстро до всех дошло что это мазохизм.
На скале наиболее оптимальный и читаемый код, прекрасная документация.
Писать спарк приложения на яве — это пустая трата времени.

Когда есть много легаси кода на питоне, то можно попытаться его встроить в PySpark, но это скорее временное решение.
В спарке сейчас более чем достаточно инструментария, поэтому все новые приложения пишем только на скале.

И ещё, spark без yarn — это только если у вас на кластере крутится одно приложение. Ни о каком серьёзном планировщике ресурсов речи при этом быть не может.
Думал прочитать что-нить полезное, а в результате понял, что смысл этого — идите на двухдневный тренинг…
Только полноправные пользователи могут оставлять комментарии.
Войдите, пожалуйста.