PatientZero Dec 14 2022 at 08:15

Прощай, Data Science

9 min

45K

Mathematics*IT careerData Engineering*

Translation

+60

Comments 45

Tzimie Dec 14 2022 at 10:24

Люблю читать крики души

MentalBlood Dec 14 2022 at 10:33

Меня раздражает, что у меня нет никакой власти над кодом и инфраструктурными решениями

Интересно, это из-за способностей автора или из-за "офисной политики". Так то всегда есть что-то, что изменить не можешь, и с чем нужно как-то работать

vassabi Dec 14 2022 at 11:07

ИМХО это нездоровая офисная политика его менеджмента. При умелой офисной политике - хотя бы будут делать вид, что прислушиваются к мнению сотрудников. (При здоровой - будут прислушиваться). А такое "ломание через колено" - это явный просчет в какой-то цепочке управления :)

vassabi Dec 14 2022 at 10:38

1) Хм, довольно интересное описание дата-инжиниринга как "место гнома в подвале, который поддерживает тепло в трубах датасатанистов наверху, и к которому не дотянулись руки менеджмента"

2) Со стороны становится очевидно, что в датасатанизме зреет следующий "святой грааль ИИ" - не делать сразу "в лоб" попытку найти ответы на все-все-все вопросы, а сначала проверить сам вопрос и объяснить, - почему запрос пользователя (менеджмента) нехороший, и как его можно улучшить.

(гипотетический например: "вопрос: как пикапить девушек? ответ ИИ: у вас неправильный вопрос. Вы должны спросить себя - что есть такое во мне, чтобы меня хотели пикапить девушки? Скажите - что вы умеете делать? Как вы выглядите ?")

Layan Dec 14 2022 at 14:55

вопрос: как пикапить девушек? ответ ИИ: у вас неправильный вопрос. Вы должны спросить себя - что есть такое во мне, чтобы меня хотели пикапить девушки?

И вот, даже в вашем гипотетическом примере ИИ, без дополнительных вопросов пытаетесь сразу решить совершенно другой вопрос. Если у меня задача пикапить девушку, мне возможно и не нужно, чтобы она пикапила меня и меня мой внешний вид вполне может не волновать. Может, мне нужно взять несколько сотен евро, пойти на улицу красных фонарей и пикапить там? Без вот этих "что я умею делать" и "как я выгляжу".
В том-то и вопрос, что ИИ (да и человеку на тех должностях, где планируется замена на ИИ) постоянно приходится угадывать, что имел ввиду человек в том конкретном вопросе. Ведь у человека почти всегда будет контекст, его личный.

12rbah Dec 14 2022 at 10:49

Можете описать какого примерно объема код, который пишут ds-ы? Просто если это скрипт на 300 строк(обычно на гитахабе что-то вроде этого бывает), то в целом можно понять почему люди особо не заморачиваются(хоть я лично и против такого, знаю человека который писал 16к строк кода без класов, неймспейсов всё делая на функциях и структурах до сих пор не знаю зачем он это делал, если что задача хорошо ложилась на ООП). Возможно моё мнение ошибочное, что ds-ы в основном занимаются построением моделей или визуализацией, чем написанием хорошего кода. В целом если человек приходит после вуза(ds которым 23), в компанию которая не разрабатывает проекты/продукты, то возможно ему особо никто не подскажет как писать код, т.к. не все даже понимают что их код плохой.

barloc Dec 14 2022 at 11:22

Я не сатанист, но иногда привлекают.

Обычно модель занимает где-то столько кода, но когда ее начинают встраивать в продуктовый ландшафт - все становится гораздо интереснее, это уже взрослое программирование. И сидение на потоках данных, и какие-то внутренние кеши и хранение стейта, и какая-то синхронизация данных.

Мне кажется поэтому от сатаниста ждут модель, упакованную в фастапи обертку - а дальше уже с ней работают другие ребята по какому-то описанному алгоритму.

vilka14 Dec 14 2022 at 11:51

Сейчас у меня в проде микросервис из десятка нейронок. CLOC посчитал 4290 строк на питоне и 600 на SQL.

UFO just landed and posted this here

stanislavkir Dec 14 2022 at 16:32

Куда ушел?

UFO just landed and posted this here

Quanuma Dec 27 2022 at 17:53

А почему ушли, если не секрет?

UFO just landed and posted this here

Gavr09 Dec 14 2022 at 10:57

Мне кажется, основная проблема, что все понимают обязанности DS по-разному. Кто-то в этом видит чистую аналитику, кто-то - подбор гиперпараметров, кто-то - работу модели в комплексе, в составе системы, ближе к MLOps.
Я была очень удивлена, когда как-то пересеклась с одним DS из крупнейшего банка страны и поняла, что он не знает, что такое Docker и вообще никогда не использовал, хотя работает 4 года. Значит, наверное, человеку так комфортно.
Как по мне, DS должен понимать основные инженерные моменты, должен понимать, как он получает данные, как будет в последующем работать его модель (в том числе и технически), да и вообще - нужна ли тут модель, может можно как-то проще решить задачу.
И мне как раз нравится в работе DS эта комплексная составляющая. Твоя задача не в том, чтобы тяжелую нейронку хоть куда-нибудь вставить, а в том, чтобы придумать лучшее решение для конкретного проекта с конкретными ограничениями.

Ivan22 Dec 14 2022 at 17:51

а по факту , все равно надо подогнать ответы под уже принятые решения

UFO just landed and posted this here

Ivan22 Dec 14 2022 at 19:19

в 99% случаев ds работают на ноутбуках с локальными csv файликами с помощью питона. Какой тут докер

UFO just landed and posted this here

kxx Dec 15 2022 at 02:12

В последнее время в вакансиях DS часто AWS / Google Cloud / Azure

Ivan22 Dec 15 2022 at 14:29

это значит уметь стащить себе на ноут csv из s3. Для сеньерного левела - в parquet формате

vladimircape Dec 15 2022 at 09:08

Ко мне в команду пару лет назад наняли ds профессора вуза, хотя я был против. Так он тензорфлоу не могу поставить не то что докер и говорил что нейронки не нужны.

andreyds95 Dec 17 2022 at 18:49

В Сбере докер запрешён для вывода в прод (не знаю правда как в девайсах с этим обстоит дело), политика кибербезопасности, там вообще очень многое под запретом, из-за чего практики MLOps слабо похожи на такие в других местах

barloc Dec 14 2022 at 11:36

Да, интересно смотреть на ситуацию с другой стороны.

То есть и там такое же ощущение, что в 90% это просто раздувание щек и ноль результата на выходе.

sharhack Dec 14 2022 at 11:47

Вот поэтому до сих пор я не в дата саейнс. В начале карьеры в айти я попробовал позицию дата сайенс, причем и анализ сделай, Модель придумай, и код напиши). Когда руководятел нихрена не понимает и даже не слышит вроде звона , но не зная где он, просит его найти)

mrkaban Dec 14 2022 at 13:22

я живу в постоянном страхе того, что кто-то начнёт проверять меня вопросами типа «а какая формула у F-теста?», и если я не отвечу, то меня разоблачат. Поэтому мой мозг говорит мне, что я должен постоянно повторять свои знания основ.

На мой взгляд самый верный подход для любой сферы.

aweawem Dec 14 2022 at 16:33

Привет, я 23 летний аналитик, не совсем DS, но около того. И я работаю аналитиком уже больше 2 лет, причём не после колледжа, а после универа, так что акцент на числе 23 в этой статье немного притянут, имхо. По поводу отстойных руководителей, здесь согласен, однако это же сугубо индивидуально от места к месту. На своём первом месте работы в крупной компании (~10 000 человек) я в основном и занимался подгонкой отчётности и планов под амбиции руководителя. На новой работе отдел аналитики имеет гораздо больше власти и «безумную идею» просто не пропустят дальше гипотезы, если независимое исследование аналитика её не подтвердит. По поводу кода, у такого аналитика как я главная цель это выкатить качественное исследование за адекватное время с метриками и визуализациями, на основании которого бизнес будет принимать решения. Если заказ разовый и исследований подобного формата не предвидится, то немного говнокода никак не повредит бизнесу, зато может существенно сократить время. Ну а коллегам дата-инженерам респект в любом случае.

UFO just landed and posted this here

Des96 Dec 16 2022 at 12:54

Под колледжем в США имеют в виду бакалавриат в универе

rombell Dec 14 2022 at 22:14

Когда польза от работы превышала затраты на оплату труда, часто это не давало внутренней отдачи

Что-то неладно либо в этой фразе, либо у автора в понимании мира, поскольку это базовое условие найма сотрудников — чтобы они приносили пользы больше, чем тратилось на их оплату.

Ivan22 Dec 14 2022 at 22:47

это теоретически оно базовое, а практически это измерить невозможно для каждого сотрудника в отдельности, особенно ds

vnukov Dec 18 2022 at 10:27

Скорее имеется в виду, что какое-то очень простое и недорогое действие имеет большой экономический эффект.

rombell Dec 18 2022 at 19:34

Cформулировано непонятно было

nikolayv81 Dec 20 2022 at 10:33

Есть организации в которых "для следования тенденциям рынка" и "под дудку консультантов из Big 4" открывают целые направления потом они начинают постоянно пытаться показать свои результаты (которых часто нет, но деньги потрачены нужен отчёт"). При этом основной бизнес живёт в сторонке и немного "обалдевает" от игрушек руководства....

Soer9090 Dec 14 2022 at 22:22

А про дата инженера статейку не накатите ?) Хочу им стать

Archi_Pro Dec 15 2022 at 12:20

берешь HH и смотришь описание вакансий и будет тебе полная ясность, вплоть до понимания за какой скил сколько платят

Archi_Pro Dec 15 2022 at 12:07

Jan 6, 2013 — #BigData analysis is like teenage sex: everyone SAYS they're doing it, few are, and if they are then it's not as great as they say it is.
(с) Dan Ariely
А ведь 10 лет прошло уже
Дата сантист - это математик, его задача проверять гипотезы, переводить бизнес проблему на язык цифр, именно по этому появилась новая проффесии типа ml engineer, data engineer,DevOps.
Да и сам дата саенс весьма разнообразен начиная от дашиков заканчивая трансформерами и прочим дип лерненгом

SSukharev Dec 16 2022 at 00:40

Я в IT с 97 года, менеджеры везде одинаковые, работа везде одинаково не интересна и не приносит радости и пользы, она просто даёт чуть больше денег чем в других отраслях. С инженера данных спрос меньше, чем с аналитика (датасаинтиста), который гнёт спину под требованиями бизнес-заказчика, тот требует денежного эффекта в стопятьсот миллионов или капризничает по поводу представления данных в интерфейсе.. Вот и вся разница.

Glintvein Dec 16 2022 at 07:13

Интересно, почему подобные посты не пишут кассиры магнита или водители троллейбуса...

bbvoronin Dec 16 2022 at 12:53

Пишут на bus.habr.com

AnS213 Dec 16 2022 at 12:53

>>Со значительным отрывом самое главное здесь — чувство независимости

мне кажется, ложное чувство. Заказчик же остался. И в большинстве случаев - это охаянный датасайентист. Согласен, что последним приходится всё хуже и хуже, потому как их заказчики (всеми обругивамые "бизнесы" и "менеджеры") вот-вот снова откроют истину, что "Наиболее важные факторы, нужные для управления любой организацией, как правило, неизвестны и количественно неопределимы". И прикроют лавочку, потому как по старинке много мелких бизнесовых (не ИТ, не цифровых) экспериментов для бизнеса более выгодны, чем раздутые ИТ абстракции с огромными бюджетами

ждём статью - "Прощай ИТ, каким мы его знали"

Prion Dec 18 2022 at 22:25

Автор сам себе противоречит, его бесит DS, он типа от него ушел, но перешёл в смежную DS-специальность. По сути что изменилось? Если раньше делал мало кому полезный анализ, то тебе готовит данные для этого малополезного анализа.

AlbertEinsteinEpoch21 Dec 23 2022 at 22:31

Тут есть момент что он сам на прямую не связан (с лукавством, подлогами и непрофессионализмом) а значит несет меньше ответственности за это.

В рамках классической фразы:

"те, кто хотят сохранить уважение к сосискам и законам, не должны знать, как их делают.

Работа же дата инженера на взгляд автора более осмысленна и прозрачна.

Как используют данные дальше уже не его забота, так как это не входит в сферу его ответственности.

Так же автор дает нам всем задачу и вызов сделать сферу Data Science... более полезной.

Prion Dec 23 2022 at 22:44

то есть вам не важно, что на выходе компании?

opichuzhkina Dec 23 2022 at 22:32

Похоже, основной тип карьерного роста, который практикуют дата-саентисты — это изучение API какого-нибудь инструмента градиентного бустинга или потребление поверхностных + неглубоких + нерелевантных знаний.

Сомневаюсь, что такой способ самообразования использует много хороших датасаентистов.

А подход к самообразованию, описанный дальше, абсолютно верный. В первую очередь математика (причём основы нужно регулярно повторять), а APIшки конкретных библиотек уже дело десятое. Ну и новичку, который только хочет вкатиться в DS, я бы в первую очередь учебник по математике посоветовала.

skullodrom Jan 6 2023 at 17:21

Проверено, что хороших менеджеров в РФ очень мало, чтобы умел помогать, а не мешать, чтобы без высокомерия, без нервотрепки, без спешки, с профессиональными знаниями, с достойным отношением к сотрудникам

Show the best of all time