Как стать автором

Статистика в IT

Статистика, исследования, тенденции

Статьи Посты Новости Авторы Компании

divolko3 15 часов назад

Популярнее некуда: у JavaScript самое большое сообщество. Как это выяснили

4 мин

957

Блог компании МТСПрограммирование*Исследования и прогнозы в IT*Статистика в IT

Языки программирования часто анализируют по разным методикам, после чего и публикуются рейтинги. Их не один и не два, но о самом известном, Tiobe, слышали, наверное, все. Рейтинги часто оспаривают, с ними не согласны многие разработчики и аналитики. Тем не менее, знать о них полезно.

На днях появился еще один — даже не совсем рейтинг, а результаты опроса программистов компанией SlashData. Она опубликовала развернутый отчет с выводами, которые базируются на размере сообществ, связанными с разными ЯП. Подробности — под катом.

Читать далее

+9

habrusername 9 июн в 08:24

Как юзеры отказываются от мобильных приложений и причем тут Т-банк

Простой

2 мин

55K

Разработка мобильных приложений*Тестирование мобильных приложений*Статистика в IT

Из песочницы

Вчера видел срач разрабов в одном чатике. Суть: глобальная статистика показывает, что люди перестали использовать мобильные приложения, поэтому нужно перекатываться из мобильных разрабов в бэкендеров.

Читать далее

-2

suburg 6 июн в 11:40

DIY: Личная электронная медицинская карта

Простой

11 мин

1.6K

Визуализация данных*Статистика в ITЗдоровье

Кейс

Всем привет!

Как говорит народная мудрость, «коли болен — лечись, а здоров — берегись». Долгое время я ощущал себя здоровым человеком (хоть и были некоторые хронические заболевания), и не посещал регулярно врачей. Но всё когда-нибудь кончается, и в 41 год я понял, что ощущение здоровья улетучивается как спирт из открытой тары. С этим запросом я пошёл к лекарю – понять какие у меня есть проблемы и что нужно сделать, чтобы вернуться в состояние здоровья.

Как обычно, на приёме был назначен ряд лабораторных и инструментальных исследований, а также были даны направления на консультации к другим узким специалистам. Те, в свою очередь, назначили другие исследования. В рюкзаке стали копиться направления, протоколы приёмов, результаты анализов, диски с результатами исследований. Попытки систематически разложить их в отдельные папки успехом не увенчались – непонятно какой должен быть принцип. Хронологический? Или по системам организма? Или по врачам? Любой вариант в каких-то сценариях неудобен.

Поскольку я всё же ИТшник, то было принято решение систематизировать материалы и сделать свою «электронную медицинскую карту» - с которой лично мне было бы удобно работать. А поскольку я не разработчик (хоть иногда и пишу код), то использовал для этого Excel. В статье хочу поделиться опытом использования Excel для ведения личной электронной медицинской карты – что я там веду, почему именно это и почему именно в такой форме.

Читать далее

+10

divolko3 4 июн в 12:27

Рост цен на SSD: корпорации стимулируют спрос и создают дефицит. Перспективы рынка

4 мин

1.7K

Блог компании МТСИсследования и прогнозы в IT*Статистика в ITНакопители

Цены на SSD стремительно увеличиваются, и в этом виноваты не только производители накопителей и памяти, создающие искусственный дефицит. Главная причина роста цен — массовые закупки SSD компаниями из отрасли искусственного интеллекта. Играют важную роль и гиперскейлеры, владельцы ЦОД и другие компании. Подробности — под катом.

Читать далее

+10

dbalabolin 2 июн в 16:00

Снова всплыла тема бакапов. Как часто. Где хранить. Сколько копий

1 мин

2.1K

Системное администрирование*IT-инфраструктура*Статистика в IT

Это просто опрос. Что бы нам всем понимать степень гарантированности восстановления ресурсов из бакапов. Опрос может быть полезен сисадминам, пользователям, заказчикам или инвесторам.

Читать далее

-15

SmartEngines 30 мая в 11:15

Подделка из бумаги: разбираемся, почему участились мошенничества с документами и как устроены антифрод-системы с ИИ

Простой

9 мин

787

Блог компании Smart EnginesМатематика*Машинное обучение*Статистика в IT

Привет, Хабр!

На связи Smart Engines, AI-разработчик систем распознавания и проверки подлинности документов. По состоянию на сегодняшний день наш софт способен проверять не только удостоверяющие личность документы вроде паспорта или водительского удостоверения, но и документы государственного образца – судебные приказы, нотариальные доверенности и всевозможные свидетельства.

Мы совместно с командой юристов INTELLECT решили провести масштабное исследование и разобрались, как изменилась статистика преступлений с использованием поддельных документов за последние годы, какие существуют подделки и как работают самые современные антифрод-системы.

Читать далее

0

pragoz 29 мая в 14:21

Основы рынка труда в IT, и особенности в разработке по найму

Простой

7 мин

7.1K

Управление проектами*ФрилансКарьера в IT-индустрииСтатистика в ITФинансы в IT

Туториал

Как ни странно, основные мысли в этой статье не будут иметь отношения непосредственно к разработке и кодингу, это сублимация накопившихся мыслей, опыта, идей и советов которые я хотел бы дать тем, кто вначале и в середине пути. Это может дать как сильный толчёк, так и демотивацию, решать Вам.

Игнорируй лишний контекст.
ыва

Помешанность на созвонах. Прими это как данность.

Большая часть убеждений в твоей голове - неверные.
Идеальный код не нужен никому и нигде, это лишь понт

Айти в целом это вечный туман войны и research.

Собеседования.
Специально вынес в отдельный пункт, тут есть много чего рассказать.

Плюсы и минусы профессии

Идеальное место работы (спойлер: только в твоей голове)

Удалёнка (подводные камни)

Наличие нескольких работ - для многих физическая необходимость, т.к. работодатели как минимум в 4 случаях из 5 - лжецы.

Зарплаты.
Вы будете удивлены, но я бы хотел приоткрыть вам зазеркалье:

/

Читать далее

+45

previna 27 мая в 09:45

Как оценить валидность A/B тестов. SRM и другие критерии

Средний

8 мин

1.4K

Блог компании СберМаркетМатематика*Аналитика мобильных приложений*Управление продуктом*Статистика в IT

Привет! Меня зовут Полина, я руковожу A/B‑платформой в СберМаркете. В этой статье я расскажу о нескольких нюансах экспериментирования, которые возникают на разных этапах — от дизайна и сплитования до подведения итогов. Если их не учитывать, нам приходиться с осторожностью относиться к результатам или вовсе проводить эксперимент заново. К ним относятся Sample Ratio Mismatch, корректное пересечение тестов, взаимодействие нескольких экспериментальных механик и другое. Разберем как эти критерии обнаружить, найти причину и что делать с экспериментом дальше.

Читать далее

+8

YuliaBoykoQA 17 мая в 14:16

Большой обзор обновлений iOS и Android

Простой

6 мин

2.9K

Тестирование мобильных приложений*Статистика в ITОперационные системы

Из песочницы

Привет! Меня зовут Юля, я QA-техлид в MobileUp, более 4 лет занимаюсь тестированием мобильных приложений. Периодически я участвую в собеседованиях. И заметила, что одни из самых популярных вопросов для кандидатов — те, что касаются особенностей обновлений операциионных систем iOS и Android.

Найти на них ответы проблематично — нет места, где были бы собраны и структурированы все обновления. Поэтому я решила создать такой документ. Внутри вы найдёте информацию о последних версиях ОС и представленных обновлениях.

Читать далее

+8

xufana 16 мая в 14:07

Бутстрап временных рядов

19 мин

4.8K

Блог компании X5 TechPython*Математика*Статистика в IT

Обзор

Всем привет! Как и во многих других компаниях, в X5 существует огромное количество данных, зависящих от времени. Такие данные принято называть временными рядами (time-series). Это могут быть данные о продажах в магазинах, об остатках на складах или об удовлетворенности клиентов. Используя эти данные, мы хотим искать инсайты и приносить пользу бизнесу.

Бутстрап является ценным инструментом — он позволяет генерировать множество синтетических выборок из исходных данных, на основе которых мы можем оценить распределение интересующей нас статистики и построить доверительные интервалы. Например, если нужно определить доверительный интервал для медианы или какого-то другого квантиля предсказаний, бутстрап позволяет это сделать, даже когда прямое аналитическое вычисление невозможно.

Для временных рядов бывает полезно оценить границы, в которых находятся параметры модели, из которой получен ряд. Кроме того, часто необходимо посчитать доверительный интервал, в котором находятся предсказания для объекта с использованием моделей машинного обучения. Однако обычные методы бутстрапа не подойдут для временных рядов, так как они не учитывают структуру таких данных.

В нашем обзоре мы рассмотрим, как различные модификации метода бутстрапа учитывают структурные особенности и зависимости в данных временных рядов. Особое внимание будет уделено объяснению, почему нельзя применять стандартный подход бутстрапа к временным рядам без учёта их структуры. Затем мы перейдем к обзору методов, которые позволяют эффективно решить эту проблему.

Читать далее

+9

divolko3 8 мая в 19:30

Старые языки программирования, новые успехи: растёт популярность COBOL и Fortran

5 мин

5.7K

Блог компании МТСПрограммирование*Исследования и прогнозы в IT*Статистика в IT

С недавних пор такие ЯП, как COBOL и Fortran, снова стали набирать «вес» в рейтингах. Собственно, они никогда и не уходили из поля зрения разработчиков, просто постепенно теряли позиции.

Но сейчас ситуация изменилась. Один из них даже занял 10 место в Tiobe, поднявшись на 9 позиций. При этом один из самых популярных современных языков, а именно PHP, постепенно опускается в рейтингах. Конечно, они никогда не были оптимальным показателем востребованности ЯП. Тем не менее это и не последний фактор, отмахнуться от них тоже не получится. Подробности — под катом.

Читать далее

+5

AntonSoroka 7 мая в 09:40

CADE — интересный способ поиска аномалий в многомерных данных

Простой

8 мин

1.7K

Python*Data Mining*Машинное обучение*Статистика в IT

CADE () - метод для приближения плотности вероятности, который можно эффективно использовать для поиска аномалий в данных. В этой статье я расскажу про этот метод, а также предоставлю пример реализации CADE на Python.

Читать далее

+2

Atlamos 22 апр в 12:18

Линеаризация: зачем и как укрощать ratio-метрики в A/B-тестах

12 мин

3.6K

Блог компании СберМаркетМатематика*Управление продуктом*Статистика в IT

Обзор

Привет, Хабр! В прошлой статье я указал, что в A/B-тестах используются три основных типа метрик, а именно пользовательские конверсии, средние метрики пользователей и ratio-метрики. К последним обычно относят средний чек, CTR баннера, среднюю длину сессии и др. Такие метрики имеют ограничения при оценке стандартными статистическими критериями и общую особенность определения в контексте экспериментов.

В этой статье формализуем понятие ratio-метрики, подробнее и на примере посмотрим на их ограничения и разберем как инвалидировать результаты своих экспериментов, если эти ограничения игнорировать. Откроем для себя метод линеаризации ratio-метрик, разберем как и почему он работает, какая интерпретация стоит за его преобразованием, а также определим его преимущества в сравнении с предусредненным средним, бутстрапом и дельта-методом.

Читать далее

+12

DmitriiReshetnikov 19 апр в 23:21

Разработка программного средства по обработке данных фонокардиограммы

Сложный

41 мин

1.9K

Python*Big Data*Математика*Визуализация данных*Статистика в IT

Аналитика

Медицинские исследования играют важную роль в понимании различных заболеваний и разработке эффективных методов лечения. Одним из инструментов, используемых в кардиологии, является фонокардиограмма (ФКГ).

Фонокардиограмма - это метод диагностики сердечно-сосудистой системы, который основывается на записи звуков, производимых сердцем. Она может быть полезной в определении различных заболеваний сердца, таких как стеноз клапана, митральный стеноз, митральную недостаточность, перикардит и другие.

ФКГ может использоваться для оценки эффективности лечения сердечных заболеваний и для наблюдения за состоянием сердца в течение времени. Если у вас есть симптомы, такие как боль в груди, одышка, учащенный пульс, упадок сил, обратитесь к кардиологу, который посоветует, нужна ли вам ФКГ [1].

Объектом исследования выпускной квалификационной работы является список файлов формата .csv, содержащих разделенные знаком ";" смещенные целочисленные значения амплитуды шумов сердца, записанные в течение нескольких секунд, частота дискретизации – 1000 гц (числа в записи обозначают амплитуду сигнала, временной промежуток между соседними значениями - 1 миллисекунда).

Цель работы состоит в создании алгоритма автоматической интерпретации снятых данных, который пытается по форме кривых делать выводы, аналогичные тем, которые по этим же кривым умеет делать эксперт и создание собственного алгоритма. Необходимо определить и выделить точку максимальной амплитуды, начало и окончание тона 1 для каждого из сердечных циклов. Ответ необходимо вывести в виде списка списков [t1, t2, t3], где t1 – начало тона 1, t2 – точка максимальной амплитуды, t3 – окончание тона 1. Также, для проверки результата, необходимо визуализировать полученный результат на графике. Данную процедуру необходимо произвести для каждого файла.

Ссылка на github: medical_date/script.py at main · ReshetnikovDmitrii4918/medical_date (github.com)

Читать далее

+13

n-surkov 18 апр в 16:00

T-test. Зависимость от независимости

16 мин

3.1K

Блог компании X5 TechPython*Математика*Статистика в IT

Привет, Хабр! В статье подробно рассмотрим область применения самого базового статистического критерия Стьюдента. Посмотрим, как он ведёт себя, когда мы не хотим отдавать качество подбора наших групп на волю случая.

Читать далее

+6

AntonSoroka 18 апр в 14:20

Автоматически выделяем кусочно-линейные тренды временного ряда

Средний

7 мин

4.9K

Open source*Python*Математика*Машинное обучение*Статистика в IT

Из песочницы

Меня зовут Антон Сорока, я математик и аналитик данных.

Я хотел бы рассказать об алгоритме, который выделяет кусочно-линейный тренд из временного ряда и сам определяет точки изменения тренда. Другими словами, это алгоритм для автоматического кусочно-линейного приближения любой функции. Это может понадобиться, если вам важно анализировать линейные тренды ряда, но единственная линия явно недостаточно точно описывает ряд, и самостоятельно искать точки, где тренд менялся, неудобно. Реализация этого алгоритма есть в open-source библиотеке для анализа изменений временных рядов, написанной на Python.

Читать далее

+9

prinkov 16 апр в 12:06

Непрекращающиеся AB-тесты: как делать продукт лучше и знать об этом

Простой

8 мин

1.7K

Блог компании Garage EightТестирование веб-сервисов*Повышение конверсии*Управление продуктом*Статистика в IT

Мнение

Основное предназначение A/B тестов — оценить эффективность вносимых изменений и, в случае увеличения целевых метрик, зафиксировать эти изменения, а в случае снижения — откатить. Как правило, один из критериев хорошего дизайна A/B-теста — это конкретное и реалистичное с практической точки зрения время его проведения.

Такой подход логичен, довольно хорошо изучен и не нуждается в очередном обсуждении. В этой же статье предлагаю обсудить не самые популярные подходы к тестированию: тесты, у которых есть начало, но нет конца, где эффект изменений может меняться за короткий промежуток времени, а тестируемые изменения — всегда в процессе частичного релиза.

Читать далее

+5

nrsharip 11 апр в 16:06

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Средний

15 мин

7.9K

Python*Алгоритмы*Математика*Статистика в ITИнфографика

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее

+25

georgia544 4 апр в 12:30

Программирование — не мужская профессия. Или как стереотипы о женщинах создали «мужской перекос» в IT-индустрии

Простой

11 мин

3.6K

Исследования и прогнозы в IT*Карьера в IT-индустрииСтатистика в ITИстория ITНаучно-популярное

Мнение

Или как стереотипы о женщинах создали «мужской перекос» в IT индустрии.

Наверное, многие из тех, кто сейчас работает в области IT каким-то образом сталкивались с историей программирования. Тогда вам, конечно же, будет известно имя первой программистки — Ады Лавлейс. Возможно, если бы в XVII-XIX веках, образование для женщин в сфере естественных наук было более доступным, то это было бы не единственным именем. Странно, что мы называем XVIII в. эпохой Просвещения, но просвещение не коснулось женщин, потому что им было отказано в праве получать высшее и профессиональное образование.

В этой статье я хочу рассказать о существующем «мужском перекосе» в данной отрасли, почему он существует и почему женщинам так сложно пробиться в эту сферу.

Узнать больше

-8

German_D 4 апр в 11:16

Стоит ли идти в тестирование в 2024 году?

Простой

6 мин

18K

Тестирование IT-систем*Тестирование веб-сервисов*Тестирование мобильных приложений*Тестирование игр*Статистика в IT

Аналитика

Растут или снижаются зарплаты в тестировании? Какие скилы наиболее востребованы? Сколько вакансий для джунов? Узнали у экспертов, как изменился рынок в 2023 году и какие тренды сохраняются в 2024.

Читать далее

+13

1

2 3 ...