Как стать автором
Обновить
27.47

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Популярнее некуда: у JavaScript самое большое сообщество. Как это выяснили

Время на прочтение4 мин
Количество просмотров957

Языки программирования часто анализируют по разным методикам, после чего и публикуются рейтинги. Их не один и не два, но о самом известном, Tiobe, слышали, наверное, все. Рейтинги часто оспаривают, с ними не согласны многие разработчики и аналитики. Тем не менее, знать о них полезно.

На днях появился еще один — даже не совсем рейтинг, а результаты опроса программистов компанией SlashData. Она опубликовала развернутый отчет с выводами, которые базируются на размере сообществ, связанными с разными ЯП. Подробности — под катом.

Читать далее
Всего голосов 5: ↑4 и ↓1+9
Комментарии2

Новости

Как юзеры отказываются от мобильных приложений и причем тут Т-банк

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров55K

Вчера видел срач разрабов в одном чатике. Суть: глобальная статистика показывает, что люди перестали использовать мобильные приложения, поэтому нужно перекатываться из мобильных разрабов в бэкендеров.

Читать далее
Всего голосов 28: ↑11 и ↓17-2
Комментарии206

DIY: Личная электронная медицинская карта

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров1.6K

Всем привет!

Как говорит народная мудрость, «коли болен — лечись, а здоров — берегись». Долгое время я ощущал себя здоровым человеком (хоть и были некоторые хронические заболевания), и не посещал регулярно врачей. Но всё когда-нибудь кончается, и в 41 год я понял, что ощущение здоровья улетучивается как спирт из открытой тары. С этим запросом я пошёл к лекарю – понять какие у меня есть проблемы и что нужно сделать, чтобы вернуться в состояние здоровья.

Как обычно, на приёме был назначен ряд лабораторных и инструментальных исследований, а также были даны направления на консультации к другим узким специалистам. Те, в свою очередь, назначили другие исследования. В рюкзаке стали копиться направления, протоколы приёмов, результаты анализов, диски с результатами исследований. Попытки систематически разложить их в отдельные папки успехом не увенчались – непонятно какой должен быть принцип. Хронологический? Или по системам организма? Или по врачам? Любой вариант в каких-то сценариях неудобен.

Поскольку я всё же ИТшник, то было принято решение систематизировать материалы и сделать свою «электронную медицинскую карту» - с которой лично мне было бы удобно работать. А поскольку я не разработчик (хоть иногда и пишу код), то использовал для этого Excel. В статье хочу поделиться опытом использования Excel для ведения личной электронной медицинской карты – что я там веду, почему именно это и почему именно в такой форме.

Читать далее
Всего голосов 9: ↑8 и ↓1+10
Комментарии3

Рост цен на SSD: корпорации стимулируют спрос и создают дефицит. Перспективы рынка

Время на прочтение4 мин
Количество просмотров1.7K

Цены на SSD стремительно увеличиваются, и в этом виноваты не только производители накопителей и памяти, создающие искусственный дефицит. Главная причина роста цен — массовые закупки SSD компаниями из отрасли искусственного интеллекта. Играют важную роль и гиперскейлеры, владельцы ЦОД и другие компании. Подробности — под катом.

Читать далее
Всего голосов 4: ↑4 и ↓0+10
Комментарии4

Истории

Снова всплыла тема бакапов. Как часто. Где хранить. Сколько копий

Время на прочтение1 мин
Количество просмотров2.1K

Это просто опрос. Что бы нам всем понимать степень гарантированности восстановления ресурсов из бакапов. Опрос может быть полезен сисадминам, пользователям, заказчикам или инвесторам.

Читать далее
Всего голосов 15: ↑0 и ↓15-15
Комментарии4

Подделка из бумаги: разбираемся, почему участились мошенничества с документами и как устроены антифрод-системы с ИИ

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров787

Привет, Хабр!

На связи Smart Engines, AI-разработчик систем распознавания и проверки подлинности документов. По состоянию на сегодняшний день наш софт способен проверять не только удостоверяющие личность документы вроде паспорта или водительского удостоверения, но и документы государственного образца – судебные приказы, нотариальные доверенности и всевозможные свидетельства.

Мы совместно с командой юристов INTELLECT решили провести масштабное исследование и разобрались, как изменилась статистика преступлений с использованием поддельных документов за последние годы, какие существуют подделки и как работают самые современные антифрод-системы.

Читать далее
Рейтинг0
Комментарии0

Основы рынка труда в IT, и особенности в разработке по найму

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров7.1K

Как ни странно, основные мысли в этой статье не будут иметь отношения непосредственно к разработке и кодингу, это сублимация накопившихся мыслей, опыта, идей и советов которые я хотел бы дать тем, кто вначале и в середине пути. Это может дать как сильный толчёк, так и демотивацию, решать Вам.

Игнорируй лишний контекст.
ыва


Помешанность на созвонах. Прими это как данность.

Большая часть убеждений в твоей голове - неверные.
Идеальный код не нужен никому и нигде, это лишь понт

Айти в целом это вечный туман войны и research.

Собеседования.
Специально вынес в отдельный пункт, тут есть много чего рассказать.

Плюсы и минусы профессии

Идеальное место работы (спойлер: только в твоей голове)

Удалёнка (подводные камни)

Наличие нескольких работ - для многих физическая необходимость, т.к. работодатели как минимум в 4 случаях из 5 - лжецы.

Зарплаты.
Вы будете удивлены, но я бы хотел приоткрыть вам зазеркалье:

/

Читать далее
Всего голосов 60: ↑51 и ↓9+45
Комментарии17

Как оценить валидность A/B тестов. SRM и другие критерии

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.4K

Привет! Меня зовут Полина, я руковожу A/B‑платформой в СберМаркете. В этой статье я расскажу о нескольких нюансах экспериментирования, которые возникают на разных этапах — от дизайна и сплитования до подведения итогов. Если их не учитывать, нам приходиться с осторожностью относиться к результатам или вовсе проводить эксперимент заново. К ним относятся Sample Ratio Mismatch, корректное пересечение тестов, взаимодействие нескольких экспериментальных механик и другое. Разберем как эти критерии обнаружить, найти причину и что делать с экспериментом дальше.

Читать далее
Всего голосов 6: ↑6 и ↓0+8
Комментарии1

Большой обзор обновлений iOS и Android

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.9K

Привет! Меня зовут Юля, я QA-техлид в MobileUp, более 4 лет занимаюсь тестированием мобильных приложений. Периодически я участвую в собеседованиях. И заметила, что одни из самых популярных вопросов для кандидатов — те, что касаются особенностей обновлений операциионных систем iOS и Android.

Найти на них ответы проблематично — нет места, где были бы собраны и структурированы все обновления. Поэтому я решила создать такой документ. Внутри вы найдёте информацию о последних версиях ОС и представленных обновлениях.  

Читать далее
Всего голосов 8: ↑7 и ↓1+8
Комментарии3

Бутстрап временных рядов

Время на прочтение19 мин
Количество просмотров4.8K

Всем привет! Как и во многих других компаниях, в X5 существует огромное количество данных, зависящих от времени. Такие данные принято называть временными рядами (time-series). Это могут быть данные о продажах в магазинах, об остатках на складах или об удовлетворенности клиентов. Используя эти данные, мы хотим искать инсайты и приносить пользу бизнесу.

Бутстрап является ценным инструментом — он позволяет генерировать множество синтетических выборок из исходных данных, на основе которых мы можем оценить распределение интересующей нас статистики и построить доверительные интервалы. Например, если нужно определить доверительный интервал для медианы или какого-то другого квантиля предсказаний, бутстрап позволяет это сделать, даже когда прямое аналитическое вычисление невозможно.

Для временных рядов бывает полезно оценить границы, в которых находятся параметры модели, из которой получен ряд. Кроме того, часто необходимо посчитать доверительный интервал, в котором находятся предсказания для объекта с использованием моделей машинного обучения. Однако обычные методы бутстрапа не подойдут для временных рядов, так как они не учитывают структуру таких данных.

В нашем обзоре мы рассмотрим, как различные модификации метода бутстрапа учитывают структурные особенности и зависимости в данных временных рядов. Особое внимание будет уделено объяснению, почему нельзя применять стандартный подход бутстрапа к временным рядам без учёта их структуры. Затем мы перейдем к обзору методов, которые позволяют эффективно решить эту проблему.

Читать далее
Всего голосов 8: ↑7 и ↓1+9
Комментарии0

Старые языки программирования, новые успехи: растёт популярность COBOL и Fortran

Время на прочтение5 мин
Количество просмотров5.7K

С недавних пор такие ЯП, как COBOL и Fortran, снова стали набирать «вес» в рейтингах. Собственно, они никогда и не уходили из поля зрения разработчиков, просто постепенно теряли позиции.

Но сейчас ситуация изменилась. Один из них даже занял 10 место в Tiobe, поднявшись на 9 позиций. При этом один из самых популярных современных языков, а именно PHP, постепенно опускается в рейтингах. Конечно, они никогда не были оптимальным показателем востребованности ЯП. Тем не менее это и не последний фактор, отмахнуться от них тоже не получится. Подробности — под катом.

Читать далее
Всего голосов 16: ↑7 и ↓9+5
Комментарии29

CADE — интересный способ поиска аномалий в многомерных данных

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.7K

CADE () - метод для приближения плотности вероятности, который можно эффективно использовать для поиска аномалий в данных. В этой статье я расскажу про этот метод, а также предоставлю пример реализации CADE на Python.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии1

Линеаризация: зачем и как укрощать ratio-метрики в A/B-тестах

Время на прочтение12 мин
Количество просмотров3.6K

Привет, Хабр! В прошлой статье я указал, что в A/B-тестах используются три основных типа метрик, а именно пользовательские конверсии, средние метрики пользователей и ratio-метрики. К последним обычно относят средний чек, CTR баннера, среднюю длину сессии и др. Такие метрики имеют ограничения при оценке стандартными статистическими критериями и общую особенность определения в контексте экспериментов.

В этой статье формализуем понятие ratio-метрики, подробнее и на примере посмотрим на их ограничения и разберем как инвалидировать результаты своих экспериментов, если эти ограничения игнорировать. Откроем для себя метод линеаризации ratio-метрик, разберем как и почему он работает, какая интерпретация стоит за его преобразованием, а также определим его преимущества в сравнении с предусредненным средним, бутстрапом и дельта-методом.

Читать далее
Всего голосов 9: ↑8 и ↓1+12
Комментарии1

Ближайшие события

Конференция HR API 2024
Дата14 – 15 июня
Время10:00 – 18:00
Место
Санкт-ПетербургОнлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

Разработка программного средства по обработке данных фонокардиограммы

Уровень сложностиСложный
Время на прочтение41 мин
Количество просмотров1.9K

Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).

Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.

ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].

Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).

Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.

Ссылка на github: medical_date/script.py at main · ReshetnikovDmitrii4918/medical_date (github.com)

Читать далее
Всего голосов 11: ↑11 и ↓0+13
Комментарии14

T-test. Зависимость от независимости

Время на прочтение16 мин
Количество просмотров3.1K

Привет, Хабр! В статье подробно рассмотрим область применения самого базового статистического критерия Стьюдента. Посмотрим, как он ведёт себя, когда мы не хотим отдавать качество подбора наших групп на волю случая.

Читать далее
Всего голосов 5: ↑5 и ↓0+6
Комментарии0

Автоматически выделяем кусочно-линейные тренды временного ряда

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.9K

Меня зовут Антон Сорока, я математик и аналитик данных.

Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.

Читать далее
Всего голосов 8: ↑8 и ↓0+9
Комментарии9

Непрекращающиеся AB-тесты: как делать продукт лучше и знать об этом

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.7K

Основное предназначение A/B тестов — оценить эффективность вносимых изменений и, в случае увеличения целевых метрик, зафиксировать эти изменения, а в случае снижения — откатить. Как правило, один из критериев хорошего дизайна A/B-теста — это конкретное и реалистичное с практической точки зрения время его проведения.

Такой подход логичен, довольно хорошо изучен и не нуждается в очередном обсуждении. В этой же статье предлагаю обсудить не самые популярные подходы к тестированию: тесты, у которых есть начало, но нет конца, где эффект изменений может меняться за короткий промежуток времени, а тестируемые изменения — всегда в процессе частичного релиза.

Читать далее
Всего голосов 7: ↑6 и ↓1+5
Комментарии0

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров7.9K

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее
Всего голосов 22: ↑22 и ↓0+25
Комментарии13

Программирование — не мужская профессия. Или как стереотипы о женщинах создали «мужской перекос» в IT-индустрии

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.6K

Или как стереотипы о женщинах создали «мужской перекос» в IT индустрии.

Наверное, многие из тех, кто сейчас работает в области IT каким-то образом сталкивались с историей программирования. Тогда вам, конечно же, будет известно имя первой программистки — Ады Лавлейс. Возможно, если бы в XVII-XIX веках, образование для женщин в сфере естественных наук было более доступным, то это было бы не единственным именем. Странно, что мы называем XVIII в. эпохой Просвещения, но просвещение не коснулось женщин, потому что им было отказано в праве получать высшее и профессиональное образование.

В этой статье я хочу рассказать о существующем «мужском перекосе» в данной отрасли, почему он существует и почему женщинам так сложно пробиться в эту сферу.

Узнать больше
Всего голосов 67: ↑28 и ↓39-8
Комментарии145

Стоит ли идти в тестирование в 2024 году?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров18K

Растут или снижаются зарплаты в тестировании? Какие скилы наиболее востребованы? Сколько вакансий для джунов? Узнали у экспертов, как изменился рынок в 2023 году и какие тренды сохраняются в 2024.

Читать далее
Всего голосов 14: ↑11 и ↓3+13
Комментарии17
1
23 ...