Articles / Bookmarks / Profile of uran238 / Habr

@uran238

User

Profile Publications Comments 51Bookmarks 756

JetBrains_Education Jan 18 2022 at 08:19

Опыт создания курса «Введение в системы сбора данных» в МФТИ

7 min

3.6K

Образовательные проекты JetBrains corporate blogStudying in ITPhysics

В МФТИ есть как факультеты, которые готовят сильных программистов, так и факультеты, выпускающие крутых специалистов в области физики, биологии и химии. Однако в сфере физических исследований также не обойтись без навыков программирования. В частности, все масштабные физические эксперименты автоматизированы.

Из-за того, что программы обучения (а, следовательно, и компетенции) физиков и программистов сильно отличаются, при их совместной работе над экспериментами нередко возникают трудности. Мы в лаборатории методов ядерно-физических экспериментов ставим своей целью подготовку специалистов, которые могут и разобраться в физике процессов, и написать необходимое программное обеспечение. Для этого в прошлом году мы запустили магистерскую программу, а в этом еще один проект, направленный на знакомство физиков с программированием. О нем я и расскажу в этой статье.

neoflex Apr 21 2023 at 16:08

ClickHouse: как мы уменьшили потребление памяти в 50 раз

Medium

12 min

7.6K

System Analysis and Design*Data storages*Neoflex corporate blog

Case

Мы все чаще используем ClickHouse, и эта СУБД хорошо себя зарекомендовала для построения хранилищ данных и выполнения аналитических проектов. Благодаря column-oriented архитектуре ClickHouse сочетает в себе высокую производительность при вставке больших данных (миллионы строк в секунду) и невероятно быстрый full-scan по большим таблицам. Однако, за такую скорость работы этой СУБД приходится платить определёнными ограничениями, а пользователю – иметь ввиду нюансы (некоторые из них мы описали в предыдущей статье), которые непосредственно влияют на проектирование и разработку решений на базе Clickhouse.

В данной статье покажем – с какими трудностями мы столкнулись из-за архитектурных ограничений ClickHouse и как их преодолели, сократив потребляемые ClickHouse-сервером ресурсы почти в 50 раз.

Sivchenko_translate Apr 15 2023 at 19:32

Миф развенчан: распределённые транзакции можно масштабировать

9 min

4.9K

High performance*Programming*Database Administration*Distributed systems*

Translation

В сборнике VLDB'17 вышла такая статья. В ней представлена NAM-DB, масштабируемая распределённая система баз данных, использующая удалённый прямой доступ к памяти (RDMA) — в основном, однонаправленный вариант RDMA — и инновационную технологию диспетчера временных меток (timestamp oracle) для поддержки транзакций с изоляцией мгновенного снимка (SI). NAM в данном случае означает архитектуру с прикреплением памяти к сети (network-attached-memory), где благодаря активному использованию RDMA вычислительные узлы получают возможность напрямую общаться с пулом узлов памяти.

+14

GlobalSign_admin Apr 13 2023 at 17:33

MLS (Messaging Layer Security) — единый протокол шифрования для всех приложений

3 min

3.3K

Information Security*Instant Messaging*Cryptography*IT Standards*GlobalSign corporate blog

Инженерный совет Интернета IETF официально принял стандарт Messaging Layer Security (MLS) — новый протокол сквозного шифрования сообщений поверх TLS. Это дополнительный уровень криптографии, который может покрыть все существующие приложения и обеспечить совместимость между ними. То есть он в идеальном случае станет всеобщим протоколом для всех мессенджеров.

MLS обеспечивает сквозное шифрование между разными приложениями и устройствами таким образом, что облачные службы и инфраструктура, через которую проходит трафик, не имеют возможности расшифровать эти сообщения.

До появления MLS не существовало открытой, совместимой спецификации для этого дополнительного уровня криптографии. Новый протокол заполняет этот пробел. Он предоставляет систему, которая полностью специфицирована, формально проверена и проста в использовании для разработчиков.

Читать дальше →

edeshina Mar 31 2023 at 11:29

Партицирование в Greenplum 7: что нового

10 min

5.9K

PostgreSQL*Big Data*Слёрм corporate blogDevOps*Distributed systems*

Review

Translation

Greenplum 7 — первая версия СУБД, совместимая с секционированными таблицами из PostgreSQL: World DB.

Небольшая предыстория: до PostgreSQL 10 партицирование в PostgreSQL выполнялось в очень ограниченной форме и по сути, было просто вариантом наследования таблиц. Начиная с PostgreSQL 10, мы можем использовать декларативный синтаксис для определения парадигмы разделов.

В рамках слияния с PostgreSQL 12 Greenplum 7 вобрал в себя весь синтаксис PostgreSQL для разбиения таблиц, сохранив при этом синтаксис Greenplum. В результате у Greenplum 7 есть шанс взять лучшее из обоих миров — что именно, обсудим в этой статье.

+13

Amelchenko Jan 24 2023 at 14:12

Базовое проектирование и разработка требований к интеграции систем (для начинающих аналитиков)

6 min

28K

System Analysis and Design*Development Management*Project management*

From sandbox

Данная статья посвящена в первую очередь начинающим ИТ аналитикам, которые хотят верхнеуровнево разобраться, как необходимо описывать интеграции между системами и как процесс выглядит в целом. Просьба учесть, что часть терминов написана своими словами и намерено упрощена для лучшего понимания. Я думаю, что статья также может быть также полезна менеджерам проектов, ИТ-лидам, менеджерам процессов и разным другим менеджерам, работающим в ИТ.

Перед тем, как рассказать, как могут выглядеть требования к интеграции, я бы хотел обратить внимание, что эта самая интеграция должна быть представлена на общей корпоративной архитектуре. Процесс управления изменениями и обновление архитектурных артефактов может отличаться в разных компаниях, поэтому бывает, что архитектурная служба (и\или служба интеграции) даже не знает о планируемом новом потоке между двух приложений, поэтому я рекомендую аналитику в первую очередь убедится, что поток присутствует на общей корпоративной архитектуре и о нём знают соответствующие подразделения.

Sber Dec 5 2022 at 16:40

Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти

6 min

1.5K

Сбер corporate blogDatabase Administration*Big Data*Hadoop*

И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных (командное пространство, песочница и т.п.), которую использует как сам автор, так и/или коллеги для временного хранения данных. Как у любого «помещения», в нашей «песочнице» есть своё ограничение по объёму выделенного места для хранения данных. Периодически бывает так, что вы или ваши коллеги забываете об этом маленьком ограничении, из-за чего, к сожалению, заканчивается объём выделенной памяти.

В этом случае можно применить маленький лайфхак, который позволит оперативно просмотреть, какая таблица больше всего занимает место, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, вы оперативно сможете почистить место в песочнице, предварительно согласовав действия с владельцем данных без нанесения вреда данным остальных коллег. Кроме того, этот инструмент позволит периодически проводить мониторинг наполняемости вашей общей песочницы.

AloneCoder May 28 2021 at 16:10

Развеиваем мифы об управлении памятью в JVM

9 min

20K

High performance*Java*System Analysis and Design*VK corporate blogAlgorithms*

Translation

В серии статей я хочу опровергнуть заблуждения, связанные с управлением памятью, и глубже рассмотреть её устройство в некоторых современных языках программирования — Java, Kotlin, Scala, Groovy и Clojure. Надеюсь, эта статья поможет вам разобраться, что происходит под капотом этих языков. Сначала мы рассмотрим управление памятью в виртуальной машине Java (JVM), которая используется в Java, Kotlin, Scala, Clojure, Groovy и других языках. В первой статье я рассказал и разнице между стеком и кучей, что полезно для понимания этой статьи.

Читать дальше →

+22

kucev Nov 22 2022 at 12:02

ETL и ELT: ключевые различия, о которых должен знать каждый

10 min

33K

Data Mining*Big Data*Data storage*Data storages*

Translation

ETL и ELT — самые широко используемые способы доставки данных из одного или нескольких источников в централизованную систему для удобства доступа и анализа. Обе этих методики состоят из этапов extract (извлечения), transform (преобразования) и load (загрузки). Разница заключается в последовательности действий. Хотя можно подумать, что небольшое изменение в порядке этапов никак не влияет, на самом деле для потока интеграции это меняет всё.

В этом посте мы подробно рассмотрим процессы ETL и ELT, а также сравним их по важным критериям, чтобы вы могли понять, какой лучше подходит для вашего конвейера данных.

Читать дальше →

Olga_Mokshina Nov 18 2022 at 13:11

Apache Spark на Kubernetes: какие уроки можно извлечь из запуска миллионов исполнителей Spark

4 min

2.9K

VK corporate blogBig Data*DevOps*Kubernetes*

Translation

Команда VK Cloud перевела конспект доклада с конференции Data+AI Summit 2022. В своём выступлении Чжоу Цзян и Ааруна Годти из Apple описывают, как построили централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает свыше 380 тыс. заданий Spark в день. Такой объем заданий поддерживает аналитические процессы и эксперименты дата-сайентистов компании Apple. Доклад целиком можно посмотреть здесь.

Читать дальше →

+17

volinski Oct 24 2022 at 14:57

Open Source для MLOps: сравнение популярных решений

6 min

4.2K

Open source*VK corporate blogCloud computing*DevOps*Cloud services*

Здравствуй, Хабр! Меня зовут Александр Волынский, я занимаюсь разработкой ML Platform в VK Cloud. Наша ML-платформа стала доступна пользователям совсем недавно, некоторые из её компонентов сейчас находятся на этапе бета-тестирования. В этой статье я расскажу, как мы выбирали Open-Source-инструменты для MLOps-платформы, какие решения сравнивали, на каком варианте остановили выбор и почему.

Читать дальше →

+39

quadcode_team Oct 20 2022 at 19:33

Менторство в команде Ops: внедрение процесса и первые результаты

5 min

1.4K

Studying in ITIT careerQuadcode corporate blog

Привет, Хабр. Меня зовут Юрий Зорин, в Quadcode я руковожу Ops-департаментом. В марте 2022 года мы внедрили в команде внутреннее менторство: теперь у наших junior-инженеров есть наставник, который помогает развивать нужные навыки. В этой статье хочу рассказать, какой путь мы прошли на текущий момент и подвести первые итоги.

4etvegr Oct 21 2022 at 11:34

Как мы используем Greenplum в платформе данных Тинькофф

13 min

6.6K

TINKOFF corporate blogDatabase Administration*

Technotext 2022

Меня зовут Дмитрий Немчин, я руковожу отделом, который отвечает за движки хранения и обработки данных в платформе данных Тинькофф. Несколько лет назад мы поняли, что продукты, на которых работало хранилище, перестали нас устраивать. Объемы росли, понадобилось масштабируемое решение. В этом тексте я расскажу, как мы пришли к Greenplum в качестве ядра хранилища данных и как используем его.

+17

nickmatyukov Jun 7 2022 at 10:11

Apache NiFi: как починить ошибки, которые не гуглятся

16 min

9.1K

Apache*Big Data*Data storage*Группа НЛМК corporate blog

Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.

Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.

Читать дальше →

+18

e11it Sep 21 2022 at 12:11

Kafka как интеграционная платформа: от источников данных к потребителям и в хранилище (часть 2)

9 min

5.8K

System administration*IT Infrastructure*Big Data*Группа НЛМК corporate blog

Привет! Продолжаю рассказ про интеграционную платформу на базе Apache Kafka и про то, как мы постарались гармонично вписать ее в непростую ИТ инфраструктуру группы НЛМК.

Напомню, что в первой части статьи были описаны соглашения об именовании топиков, подход к реализации ролевой модели и соглашение по базовой схеме данных. Здесь расскажу, как сделали универсальное охлаждение для всех данных из Kafka в корпоративное хранилище на базе Hadoop, про сервис доставки сообщений в ИС и про разработанные сервисы, доступные на нашем Self-Service портале.

+14

Epoch8 Sep 16 2022 at 14:52

Как переносить данные откуда угодно куда угодно с помощью Meltano

8 min

2.7K

Data Mining*AGIMA corporate blogBig Data*Data Engineering*

Tutorial

Создание пайплайнов для трансфера данных — рутинная задача Data-инженеров. Чтобы ее решить, многие копируют код коннекторов из одного проекта в другой. Из-за копипаста общая структура ломается, и в перспективе может возникнуть трудность с поддержкой проекта.

Источников данных много — Яндекс.Директ, Google Analytics и другие. По отдельности они не дают нужной картины, — данные всё равно приходится собирать в один Data Warehouse. Тут на помощь приходит Meltano: он позволяет стандартизировать написание коннекторов к различным источникам данных и быстро перенести все нужные данные.

+11

crazyfrogspb1 Aug 31 2022 at 13:20

Концепция Data Mesh. Принципы, идеи, применение на практике

5 min

11K

Data Mining*Machine learning*Artificial IntelligenceData Engineering*

С чего началась наша компания? В первую очередь, конечно, с людей и с идеи. Как это обычно бывает, правильные люди абсолютно случайно познакомились друг с другом, и вот я здесь, сижу и пишу этот пост =) Была, однако, и ещё одна очень важная составляющая - данные...

Любой ML-проект начинается с анализа ландшафта доступных данных - что мы можем скачать, выгрузить, разметить, купить. За четыре года наша культура работы с данными, инструментарий, подходы, процесс разметки претерпели очень большие изменения. Сейчас у нас накоплено почти 100 терабайт медицинских исследований, но количество данных абсолютно не важно, если они плохого качества, и их неудобно изучать, понимать и использовать. Недавно я делал обзорный доклад про разные аспекты качества медицинских данных, а вот наше выступление про технические аспекты пути к качеству. Сегодня же я хочу поговорить об очень интересной концепции (или даже философии), которая в последнее время на слуху, но, судя по разным постам в интернете, её суть понятна далеко не всем. Это Data Mesh.

Впервые я столкнулся с этим понятием в докладе Леруа Мерлен на митапе LeanDS. Доклад любопытный, но суть дата меш мне из него была понятна не до конца, так что недавно я взялся за чтение книги от авторки этой концепции и термина - Data Mesh: Devlivering Data-Driven Value at Scale.

Книга мне очень понравилась - она концептуальная, почти не затрагивает конкретные инструменты и способы реализации, но раскрывает суть идеи целиком и полностью. Полный конспект я могу скинуть в комментариях, если кого-то заинтересует, а в этом посте я поговорю об основных принципах, моей интерпретации и самых интересных моментах для нашей компании.

GlobalSign_admin Aug 26 2022 at 23:11

Флешка Rubber Ducky стала ещё опаснее

4 min

46K

Information Security*GlobalSign corporate blogGadgetsComputer hardwarePeriphery

Rubber Ducky — известное хакерское устройство, давно знакомое специалистам по информационной безопасности (и любителям сериала Mr. Robot). Первая версия вышла более десяти лет назад. С виду обычная флешка при подключении выдаёт себя за USB-клавиатуру и запускает произвольный скрипт. Это позволяет проводить необычные атаки, которые сложно обнаружить с помощью антивируса.

Атака Rubber Ducky — просто последовательность нажатий клавиш (чтобы открыть консоль и ввести в ней некоторые команды).

Читать дальше →

+53

112

ph_piter Aug 16 2022 at 16:29

Книга «Масштабируемые данные. Лучшие шаблоны высоконагруженных архитектур»

12 min

High performance*Big Data*Издательский дом «Питер» corporate blogProfessional literature*Distributed systems*

Хорошего дня, Хаброжители!

Методы управления данными и их интеграции быстро развиваются, хранение данных в одном месте становится все сложнее и сложнее масштабировать. Пора разобраться с тем, как перевести сложный и тесно переплетенный ландшафт данных вашего предприятия на более гибкую архитектуру, готовую к современным задачам.

Архитекторы и аналитики данных, специалисты по соблюдению требований и управлению узнают, как работать с масштабируемой архитектурой и внедрять ее без больших предварительных затрат. Питхейн Стренгхольт поделится с вами идеями, принципами, наблюдениями, передовым опытом и шаблонами.

Читать дальше →

JuLantratova Aug 4 2022 at 12:03

Личные границы при трудоустройстве и в офисе

6 min

5.3K

PVS-Studio corporate blogPersonnel Management*IT career

Границы есть в любых отношениях — и в семейных, и в дружеских, и в деловых. Но в каждом случае они разные. Если в семье принято целовать друг друга в щёчку при встрече, то такие жесты на работе воспримут странно. Очень важно понимать и знать свои границы. Это поможет предотвратить выгорание, избежать конфликтов и недопониманий между коллегами. Так как же огородить себя от недобросовестного работодателя и некомпетентного рекрутера? Как выстроить личные границы с коллегами? Это мы с вами сейчас и узнаем.

3 4 ...

37 38