Pull to refresh

Comments 45

Меня раздражает, что у меня нет никакой власти над кодом и инфраструктурными решениями

Интересно, это из-за способностей автора или из-за "офисной политики". Так то всегда есть что-то, что изменить не можешь, и с чем нужно как-то работать

ИМХО это нездоровая офисная политика его менеджмента. При умелой офисной политике - хотя бы будут делать вид, что прислушиваются к мнению сотрудников. (При здоровой - будут прислушиваться). А такое "ломание через колено" - это явный просчет в какой-то цепочке управления :)

1) Хм, довольно интересное описание дата-инжиниринга как "место гнома в подвале, который поддерживает тепло в трубах датасатанистов наверху, и к которому не дотянулись руки менеджмента"

2) Со стороны становится очевидно, что в датасатанизме зреет следующий "святой грааль ИИ" - не делать сразу "в лоб" попытку найти ответы на все-все-все вопросы, а сначала проверить сам вопрос и объяснить, - почему запрос пользователя (менеджмента) нехороший, и как его можно улучшить.

(гипотетический например: "вопрос: как пикапить девушек? ответ ИИ: у вас неправильный вопрос. Вы должны спросить себя - что есть такое во мне, чтобы меня хотели пикапить девушки? Скажите - что вы умеете делать? Как вы выглядите ?")

вопрос: как пикапить девушек? ответ ИИ: у вас неправильный вопрос. Вы должны спросить себя - что есть такое во мне, чтобы меня хотели пикапить девушки?

И вот, даже в вашем гипотетическом примере ИИ, без дополнительных вопросов пытаетесь сразу решить совершенно другой вопрос. Если у меня задача пикапить девушку, мне возможно и не нужно, чтобы она пикапила меня и меня мой внешний вид вполне может не волновать. Может, мне нужно взять несколько сотен евро, пойти на улицу красных фонарей и пикапить там? Без вот этих "что я умею делать" и "как я выгляжу".
В том-то и вопрос, что ИИ (да и человеку на тех должностях, где планируется замена на ИИ) постоянно приходится угадывать, что имел ввиду человек в том конкретном вопросе. Ведь у человека почти всегда будет контекст, его личный.

Можете описать какого примерно объема код, который пишут ds-ы? Просто если это скрипт на 300 строк(обычно на гитахабе что-то вроде этого бывает), то в целом можно понять почему люди особо не заморачиваются(хоть я лично и против такого, знаю человека который писал 16к строк кода без класов, неймспейсов всё делая на функциях и структурах до сих пор не знаю зачем он это делал, если что задача хорошо ложилась на ООП). Возможно моё мнение ошибочное, что ds-ы в основном занимаются построением моделей или визуализацией, чем написанием хорошего кода. В целом если человек приходит после вуза(ds которым 23), в компанию которая не разрабатывает проекты/продукты, то возможно ему особо никто не подскажет как писать код, т.к. не все даже понимают что их код плохой.

Я не сатанист, но иногда привлекают.

Обычно модель занимает где-то столько кода, но когда ее начинают встраивать в продуктовый ландшафт - все становится гораздо интереснее, это уже взрослое программирование. И сидение на потоках данных, и какие-то внутренние кеши и хранение стейта, и какая-то синхронизация данных.

Мне кажется поэтому от сатаниста ждут модель, упакованную в фастапи обертку - а дальше уже с ней работают другие ребята по какому-то описанному алгоритму.

Сейчас у меня в проде микросервис из десятка нейронок. CLOC посчитал 4290 строк на питоне и 600 на SQL.

UFO just landed and posted this here
UFO just landed and posted this here

А почему ушли, если не секрет?

UFO just landed and posted this here

Мне кажется, основная проблема, что все понимают обязанности DS по-разному. Кто-то в этом видит чистую аналитику, кто-то - подбор гиперпараметров, кто-то - работу модели в комплексе, в составе системы, ближе к MLOps.
Я была очень удивлена, когда как-то пересеклась с одним DS из крупнейшего банка страны и поняла, что он не знает, что такое Docker и вообще никогда не использовал, хотя работает 4 года. Значит, наверное, человеку так комфортно.
Как по мне, DS должен понимать основные инженерные моменты, должен понимать, как он получает данные, как будет в последующем работать его модель (в том числе и технически), да и вообще - нужна ли тут модель, может можно как-то проще решить задачу.
И мне как раз нравится в работе DS эта комплексная составляющая. Твоя задача не в том, чтобы тяжелую нейронку хоть куда-нибудь вставить, а в том, чтобы придумать лучшее решение для конкретного проекта с конкретными ограничениями.

а по факту , все равно надо подогнать ответы под уже принятые решения

UFO just landed and posted this here

в 99% случаев ds работают на ноутбуках с локальными csv файликами с помощью питона. Какой тут докер

UFO just landed and posted this here

В последнее время в вакансиях DS часто AWS / Google Cloud / Azure

это значит уметь стащить себе на ноут csv из s3. Для сеньерного левела - в parquet формате

Ко мне в команду пару лет назад наняли ds профессора вуза, хотя я был против. Так он тензорфлоу не могу поставить не то что докер и говорил что нейронки не нужны.

В Сбере докер запрешён для вывода в прод (не знаю правда как в девайсах с этим обстоит дело), политика кибербезопасности, там вообще очень многое под запретом, из-за чего практики MLOps слабо похожи на такие в других местах

Да, интересно смотреть на ситуацию с другой стороны.

То есть и там такое же ощущение, что в 90% это просто раздувание щек и ноль результата на выходе.

Вот поэтому до сих пор я не в дата саейнс. В начале карьеры в айти я попробовал позицию дата сайенс, причем и анализ сделай, Модель придумай, и код напиши). Когда руководятел нихрена не понимает и даже не слышит вроде звона , но не зная где он, просит его найти)

я живу в постоянном страхе того, что кто-то начнёт проверять меня вопросами типа «а какая формула у F-теста?», и если я не отвечу, то меня разоблачат. Поэтому мой мозг говорит мне, что я должен постоянно повторять свои знания основ.

На мой взгляд самый верный подход для любой сферы.

Привет, я 23 летний аналитик, не совсем DS, но около того. И я работаю аналитиком уже больше 2 лет, причём не после колледжа, а после универа, так что акцент на числе 23 в этой статье немного притянут, имхо. По поводу отстойных руководителей, здесь согласен, однако это же сугубо индивидуально от места к месту. На своём первом месте работы в крупной компании (~10 000 человек) я в основном и занимался подгонкой отчётности и планов под амбиции руководителя. На новой работе отдел аналитики имеет гораздо больше власти и «безумную идею» просто не пропустят дальше гипотезы, если независимое исследование аналитика её не подтвердит. По поводу кода, у такого аналитика как я главная цель это выкатить качественное исследование за адекватное время с метриками и визуализациями, на основании которого бизнес будет принимать решения. Если заказ разовый и исследований подобного формата не предвидится, то немного говнокода никак не повредит бизнесу, зато может существенно сократить время. Ну а коллегам дата-инженерам респект в любом случае.
UFO just landed and posted this here

Под колледжем в США имеют в виду бакалавриат в универе

Когда польза от работы превышала затраты на оплату труда, часто это не давало внутренней отдачи

Что-то неладно либо в этой фразе, либо у автора в понимании мира, поскольку это базовое условие найма сотрудников — чтобы они приносили пользы больше, чем тратилось на их оплату.

это теоретически оно базовое, а практически это измерить невозможно для каждого сотрудника в отдельности, особенно ds

Скорее имеется в виду, что какое-то очень простое и недорогое действие имеет большой экономический эффект.

Cформулировано непонятно было

Есть организации в которых "для следования тенденциям рынка" и "под дудку консультантов из Big 4" открывают целые направления потом они начинают постоянно пытаться показать свои результаты (которых часто нет, но деньги потрачены нужен отчёт"). При этом основной бизнес живёт в сторонке и немного "обалдевает" от игрушек руководства....

А про дата инженера статейку не накатите ?) Хочу им стать

берешь HH и смотришь описание вакансий и будет тебе полная ясность, вплоть до понимания за какой скил сколько платят


Jan 6, 2013 — #BigData analysis is like teenage sex: everyone SAYS they're doing it, few are, and if they are then it's not as great as they say it is.
(с) Dan Ariely
А ведь 10 лет прошло уже
Дата сантист - это математик, его задача проверять гипотезы, переводить бизнес проблему на язык цифр, именно по этому появилась новая проффесии типа ml engineer, data engineer,DevOps.
Да и сам дата саенс весьма разнообразен начиная от дашиков заканчивая трансформерами и прочим дип лерненгом

Я в IT с 97 года, менеджеры везде одинаковые, работа везде одинаково не интересна и не приносит радости и пользы, она просто даёт чуть больше денег чем в других отраслях. С инженера данных спрос меньше, чем с аналитика (датасаинтиста), который гнёт спину под требованиями бизнес-заказчика, тот требует денежного эффекта в стопятьсот миллионов или капризничает по поводу представления данных в интерфейсе.. Вот и вся разница.

Интересно, почему подобные посты не пишут кассиры магнита или водители троллейбуса...

>>Со значительным отрывом самое главное здесь — чувство независимости

мне кажется, ложное чувство. Заказчик же остался. И в большинстве случаев - это охаянный датасайентист. Согласен, что последним приходится всё хуже и хуже, потому как их заказчики (всеми обругивамые "бизнесы" и "менеджеры") вот-вот снова откроют истину, что "Наиболее важные факторы, нужные для управления любой организацией, как правило, неизвестны и количественно неопределимы". И прикроют лавочку, потому как по старинке много мелких бизнесовых (не ИТ, не цифровых) экспериментов для бизнеса более выгодны, чем раздутые ИТ абстракции с огромными бюджетами

ждём статью - "Прощай ИТ, каким мы его знали"

Автор сам себе противоречит, его бесит DS, он типа от него ушел, но перешёл в смежную DS-специальность. По сути что изменилось? Если раньше делал мало кому полезный анализ, то тебе готовит данные для этого малополезного анализа.

Тут есть момент что он сам на прямую не связан (с лукавством, подлогами и непрофессионализмом) а значит несет меньше ответственности за это.

В рамках классической фразы:

"текто хотят сохранить уважение к сосискам и законам, не должны знать, как их делают.

Работа же дата инженера на взгляд автора более осмысленна и прозрачна.

Как используют данные дальше уже не его забота, так как это не входит в сферу его ответственности.

Так же автор дает нам всем задачу и вызов сделать сферу Data Science... более полезной.

то есть вам не важно, что на выходе компании?

Похоже, основной тип карьерного роста, который практикуют дата-саентисты — это изучение API какого-нибудь инструмента градиентного бустинга или потребление поверхностных + неглубоких + нерелевантных знаний.

Сомневаюсь, что такой способ самообразования использует много хороших датасаентистов.

А подход к самообразованию, описанный дальше, абсолютно верный. В первую очередь математика (причём основы нужно регулярно повторять), а APIшки конкретных библиотек уже дело десятое. Ну и новичку, который только хочет вкатиться в DS, я бы в первую очередь учебник по математике посоветовала.

Проверено, что хороших менеджеров в РФ очень мало, чтобы умел помогать, а не мешать, чтобы без высокомерия, без нервотрепки, без спешки, с профессиональными знаниями, с достойным отношением к сотрудникам

Sign up to leave a comment.

Articles