ARG89 Sep 12 2016 at 15:21

Твоя Data такая большая: Введение в Spark на Java

4 min

19K

JUG Ru Group corporate blogJava*Big Data*

+16

Comments 14

AllexIn Sep 12 2016 at 15:23

Минус за неуместную для хабра картинку.
Чать не drive2, чтобы картинками сиськами и прочим дешевым трэшем завлекать.

ARG89 Sep 12 2016 at 15:28

Окей, поправим!

SirEdvin Sep 12 2016 at 15:49

А еще spark умеет в standalone кластер.
Но я все равно не смог его поднять :(

Ariox41 Sep 12 2016 at 17:23

А в чём проблема? Мне понадобилось самостоятельно указать только 4 параметра: SPARK_WORKER_MEMORY, SPARK_EXECUTOR_MEMORY, SPARK_DAEMON_MEMORY и SPARK_WORKER_CORES. Работников можно запускать вручную на локальных машинах, если через start_slaves.sh не получается, больше там вроде проблем и нет, разве что еще log4j настроить надо.

SirEdvin Sep 13 2016 at 13:24

Собственно, даже spark-shell в режим консоли не входит.

Ariox41 Sep 14 2016 at 10:52

У spark-shell вроде есть зависимость от Scala, причем определенной версии, а у самого Spark есть зависимость от некоторых частей Hadoop (т.е. надо скачивать пакет с Pre-built for Hadoop 'version'). Я на разных машинах с разными ОС запускал, проблемы с запуском возникли разве что под Windows, там какую то либу от Hadoop надо отдельно скачивать.

kuzemchik Sep 12 2016 at 16:04

Уже некоторое время мучаю себя мыслью, что надо написать нормальную серию статей по спарку.
Думал что ура, написали, теперь мучаться не надо.
Придется все равно писать.

Fervus Sep 12 2016 at 18:36

У вас на картинке лого другого Spark'a (Spark — A micro web framework).
Где можно найти сравнение производительности спарковского MLlib запущенного на одном компьютере с другими решениями для машинного обучения под java/scala?

ARG89 Sep 12 2016 at 18:38

В спешке убирал похабную картинку и не сообразил даже, что лого не то. Вроде сейчас лучше.

webkumo Sep 12 2016 at 20:20

А можно (любопытно очень) ссылку на исходную картинку… ну в комментарии под спойлером для особо любопытных?

Ivasoft Sep 13 2016 at 05:41

А возможно где-то код посмотреть, который получился в результате?

fogone Sep 13 2016 at 09:05

На джаве неудобно. Если флоу rdd-бейзд. На котлине намного лучше, но пока плохо без деструктуризации в лямбдах. Так что пока скала без изощрений. А для датафреймов точно можно без скалы.

erley Sep 13 2016 at 12:07

Используем спарк уже более двух лет в серьёзных проектах.

Изначально пытались не заморачиваться скалой и пробовали писать на яве, но очень быстро до всех дошло что это мазохизм.
На скале наиболее оптимальный и читаемый код, прекрасная документация.
Писать спарк приложения на яве — это пустая трата времени.

Когда есть много легаси кода на питоне, то можно попытаться его встроить в PySpark, но это скорее временное решение.
В спарке сейчас более чем достаточно инструментария, поэтому все новые приложения пишем только на скале.

И ещё, spark без yarn — это только если у вас на кластере крутится одно приложение. Ни о каком серьёзном планировщике ресурсов речи при этом быть не может.

krox Sep 15 2016 at 18:09

Думал прочитать что-нить полезное, а в результате понял, что смысл этого — идите на двухдневный тренинг…