How to become an author

Пользователь

Profile Publications Comments 23Bookmarks 94

Pak911 Oct 16 2019 at 22:43

Модель футбольных трансферов: копаем глубже

8 min

2.3K

Machine learning*

Настало время продолжить предыдущую статью про исследование футбольных трансферов.

В этот раз вы узнаете почему же ~~Клопп~~ Симеоне такой крутой, кого брать в агенты, если вы футболист и зачем все это читать, если футбол вам неинтересен.

Читать дальше →

+7

BytePace Oct 15 2019 at 12:34

Распознавание текста с помощью OCR

3 min

44K

C++*Image processing*

Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом, является самой популярной и качественной OCR-библиотекой.

OCR использует нейронные сети для поиска и распознавания текста на изображениях.

Tesseract ищет шаблоны в пикселях, буквах, словах и предложениях, использует двухэтапный подход, называемый адаптивным распознаванием. Требуется один проход по данным для распознавания символов, затем второй проход, чтобы заполнить любые буквы, в которых он не был уверен, буквами, которые, скорее всего, соответствуют данному слову или контексту предложения.

Читать дальше →

+4

Matsun Sep 25 2019 at 23:57

Благодаря двухфакторной аутентификации я лишился всех вложенных денег и 3 лет работы

2 min

214K

Information Security*Domain names administrating*

Пост о том, как привязанный к аккаунту сервиса Яндекс.Почта телефон, помог угнать домен созданного мной сетевого издания "Банки Сегодня". Отмечу, что в это издание я вложил все свои накопленные деньги, душу и 3 года кропотливой работы.

Читать дальше →

+309

xcont Sep 26 2019 at 04:38

Эволюционирующие клеточные автоматы

22 min

37K

Abnormal programming*JavaScript*Algorithms*Mathematics*Machine learning*

Соединим клеточные автоматы с генетическим алгоритмом и посмотрим, что из этого получится.

В статье присутствуют Gif (трафик!) и контрастные картинки. У эпилептиков может случиться эпилептический припадок.

Читать дальше →

+128

JetHabr Sep 26 2019 at 14:50

Нейросеть для классификации спутниковых снимков с помощью Tensorflow на Python

9 min

13K

Algorithms*Инфосистемы Джет corporate blogMachine learning*

Tutorial

Translation

Это пошаговая инструкция по классификации мультиспектральных снимков со спутника Landsat 5. Сегодня в ряде сфер глубокое обучение доминирует как инструмент для решения сложных проблем, в том числе геопространственных. Надеюсь, вы знакомы с датасетами спутниковых снимков, в частности, Landsat 5 TM. Если вы немного разбираетесь в работе алгоритмов машинного обучения, то это поможет вам быстро освоить это руководство. А для тех, кто не разбирается, будет достаточным знать, что, по сути, машинное обучение заключается в установлении взаимосвязей между несколькими характеристиками (набором признаков Х) объекта с другим его свойством (значением или меткой, — целевой переменной Y). Мы подаём на вход модели много объектов, для которых известны признаки и значение целевого показателя/класса объекта (размеченные данные) и обучаем ее так, чтобы она могла спрогнозировать значение целевой переменной Y для новых данных (неразмеченных).

Читать дальше →

+24

Jessy_James Sep 26 2019 at 17:53

C/C++ из Python (C API)

7 min

26K

Tutorial

main

Продолжаем тему как вызывать C/C++ из Python3. Теперь используем C API для создания модуля, на этом примере мы сможем разобраться как работает cffi и прочие библиотеки упрощающие нам жизнь. Потому что на мой взгляд это самый трудный способ.

Читать дальше →

+22

Syurmakov Jul 20 2019 at 19:14

Подборка рабочих примеров обработки данных

4 min

13K

Python*Data Mining*Big Data*Machine learning*

Привет, читатель.

По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.

Итак, давайте приступим.

Подборка датасетов с рабочими примерами обработки данных:

Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Примеры обработки:

Читать дальше →

+15

vlstrochkov Jul 22 2019 at 08:38

Поиск контуров лица за одну миллисекунду с помощью ансамбля деревьев регрессии

18 min

6.6K

Big Data*Mathematics*Machine learning*OTUS corporate blog

Translation

Перевод статьи подготовлен для студентов курса «Математика для Data Science»

Аннотация

В этой статье рассматривается задача поиска контуров лица для одного изображения. Мы покажем, как ансамбль деревьев регрессии можно использовать для прогнозирования положения контуров лица непосредственно по рассеянному подмножеству интенсивностей пикселей, достигая супер-производительности в режиме реального времени с предсказаниями высокого качества. Мы представляем общую структуру, основанную на градиентном бустинге, для изучения ансамбля деревьев регрессии, который оптимизирует сумму квадратичных потерь и, естественно, обрабатывает отсутствующие или частично помеченные данные. Мы покажем, как использование соответствующих распределений, учитывающих структуру данных изображения, помогает в эффективном выборе контуров. Также исследуются различные стратегии регуляризации и их важность для борьбы с переобучением. Кроме того, мы анализируем влияние количества обучающих данных на точность прогнозов и исследуем эффект увеличения данных с использованием синтезированных данных.

Читать дальше →

+15

PatientZero Jul 22 2019 at 08:56

Равномерное распределение точек на сфере

8 min

21K

Working with 3D-graphics*Algorithms*Mathematics*

Translation

Как можно более равномерное распределение точек на сфере — невероятно важная задача в математике, науке и компьютерных системах, а наложение сетки Фибоначчи на поверхность сферы при помощи равновеликой проекции — чрезвычайно быстрый и эффективный метод аппроксимации для её решения. Я покажу, как благодаря незначительным изменениям его можно сделать ещё лучше.

Какое-то время назад этот пост появился на главной странице Hacker News. Его обсуждение можно прочитать здесь.

Введение

Задача равномерного распределения точек на сфере имеет очень долгую историю. Это одна из самых хорошо исследованных задач в математической литературе по сферической геометрии. Она имеет критическую важность во многих областях математики, физики, химии, в том числе в вычислительных методах, теории приближений, теории кодирования, кристаллографии, электростатике, компьютерной графике, морфологии вирусов и многих других.

К сожалению, за исключением нескольких особых случаев (а именно платоновых тел) невозможно идеально ровно распределить точки на сфере. Кроме того, решение задачи сильно зависит от критерия, который используется для оценки однородности. На практике используется множество критериев, в том числе:

Упаковка и покрытие
Выпуклые оболочки, ячейки Вороного и треугольники Делоне
Ядра $inline$ -энергии Риса
Кубатура и определители

Очень важно уяснить этот аспект: обычно не существует единственного оптимального решения этой задачи, потому что оптимальное решение, основанное на одном критерии, часто не является оптимальным распределением точек для других. Например, мы также выясним, что оптимизация упаковки необязательно создаёт оптимальную выпуклую оболочку и наоборот.

Ради краткости в этом посте мы рассмотрим только два критерия: минимальное расстояние упаковки и выпуклую оболочку/сетку Делоне (объём и площадь).

Читать дальше →

+48

MarinaTalyzina Jul 22 2019 at 13:30

Взгляд на релокацию в Эстонию изнутри — плюсы, минусы и подводные камни

9 min

41K

Parallels corporate blogPersonnel Management*Reading room

Однажды компания Parallels решила пойти навстречу тем своим сотрудникам, которые уже давно работали в компании и не хотели ее менять, но при этом хотели поменять свое местожительство, чтобы быть ближе к Западу, иметь паспорт ЕС и быть мобильнее и независимее в своих передвижениях.

Так родилась идея расширить географию своего присутствия и открыть R&D центр Parallels в Эстонии.

Почему Эстония?

Изначально рассматривались разные варианты, находящиеся не так далеко от Москвы: Германия, Чехия, Польша, Эстония. В пользу Эстонии было то, что почти половина страны говорит по-русски, а до Москвы можно доехать на любом ночном поезде. Кроме того, в Эстонии функционирует очень продвинутая модель электронного правительства, значительно упрощающая все организационные аспекты, и ведется реальная работа по привлечению инвесторов, стартапов и других перспективных проектов.

Итак, выбор был сделан. А теперь — о релокации в Таллинн устами наших сотрудников, которые рассказывают, какие их ожидания оправдались, а какие – нет, и с какими изначально непрогнозируемыми трудностями им пришлось столкнуться.

Читать дальше →

+19

ldanmer Jul 22 2019 at 14:47

Делать хорошо, делая плохо: написание «злого» кода с помощью Go, часть 2

9 min

3.4K

Tutorial

Translation

Вредные советы для Go-программиста

В первой части публикации я объяснил, как стать «злобным» программистом Go. Зло приходит во многих формах, но в программировании оно заключается в намеренном затруднении понимания и поддержки кода. «Злые» программы игнорируют основные средства языка в пользу техник, которые обеспечивают краткосрочные выгоды, в обмен на долгосрочные проблемы. В качестве краткого напоминания, злые «практики» Go включают в себя:

Плохо названные и организованные пакеты
Неправильно организованные интерфейсы
Передача указателей на переменные в функции для заполнения их значений
Использование паники вместо ошибок
Использование init-функций и пустого импорта для настройки зависимостей
Загрузка файлов конфигурации с использованием init-функций
Использование фреймворков вместо библиотек

Большой клубок зла

Что будет, если собрать все наши злые практики вместе? У нас получился бы фреймворк, который использовала бы множество файлов конфигурации, заполнял поля структур с помощью указателей, определял интерфейсы для описания публикуемых типов, опирался на «магический» код и паниковала всякий раз, когда возникала проблема.

И я сделал такой. Если вы зайдете на https://github.com/evil-go, вы увидите Fall (падение), — DI фреймворк, дающий возможность внедрять любые «злые» практики, которые только захотите. Я спаял Fall с крошечным веб-фреймворком Outboy, который следует тем же принципам.

Вы можете спросить, насколько они злодейские? Давайте посмотрим. Предлагаю пройтись по простой программе Go (написанной с использованием лучших практик), которая предоставляет http endpoint. А затем перепишем ее, используя Fall и Outboy.

Читать дальше →

+2

bashnick Jul 22 2019 at 14:56

Семь раз отмерь, один раз внедри BI инструмент

11 min

29K

Data Mining*Big Data*Data visualization*Open Data Science corporate blogSoftware

Не так давно я столкнулся с задачей по переходу на новую BI-систему для нашей компании. Поскольку мне пришлось погрузиться довольно глубоко и основательно в данный вопрос, я решил поделиться с уважаемым сообществом своими мыслями на этот счет.

На просторах интернета есть немало статей на эту тему, но, к моему большому удивлению, они не ответили на многие мои вопросы по выбору нужного инструмента и были несколько поверхностны. В рамках 3 недель тестирования мы опробовали 4 инструмента: Tableau, Looker, Periscope/Sisense, Mode analytics. Про эти инструменты в основном и пойдет речь в данной статье. Сразу оговорюсь, что предложенная статья — это личное мнение автора, отражающее потребности небольшой, но очень быстро растущей IT-компании :)

Несколько слов о рынке

Сейчас на рынке BI происходят довольно интересные изменения, идёт консолидация, крупные игроки облачных технологий пытаются укрепить свои позиции путем вертикальной интеграции всех аспектов работы с данными (хранение данных, обработка, визуализация). За последние несколько месяцев произошло 5 крупных поглощений: Google купил Looker, Salesforce купил Tableau, Sisense купил Periscope Data, Logi Analytics' купил Zoomdata, Alteryx купил ClearStory Data. Не будем дальше погружаться в корпоративный мир слияний и поглощений, стоит лишь отметить, что можно ожидать дальнейших изменений как в ценовой, так и в протекционистской политике новых обладателей BI-инструментов (как недавно нас обрадовал инструмент Alooma, вскоре после покупки их компанией Google, они перестают поддерживать все источники данных, кроме Google BigQuery :) ).

Читать дальше →

+40

Cloud4Y Jul 22 2019 at 14:58

Что мы будем есть в 2050 году

3 min

7.2K

Cloud4Y corporate blogReading roomPopular scienceThe future is here

Не так давно мы публиковали полусерьёзный прогноз «За что вы будете платить через 20 лет». Это были наши собственные ожидания, базировавшиеся на развивающихся технологиях и научных достижениях. Но в США пошли дальше. Там прошёл целый симпозиум, посвящённый в том числе прогнозированию будущего, которое ждёт человечество в 2050 году.

Организаторы подошли к вопросу со всей серьёзностью: даже ужин готовился с учётом ожиданий учёных от возможных климатических проблем, которые возникнут через 30 лет. Об этом необычном ужине мы и хотим рассказать.

Читать дальше →

+4

germn Jul 22 2019 at 15:44

Почему Senior Developer'ы не могут устроиться на работу

3 min

153K

Programming*IT careerInterviewIT-companies

Translation

Сначала о том, как 5 месяцев назад я проходил собеседование на работу. Меня посоветовал друг, и прошло уже немало времени, с момента как я ответил рекрутеру. Я был поражён, как сильно весь процесс изменился за последние 5 лет.

После первичного созвона меня отправили на сторонний сайт (HackerRank), чтобы я решил три небольших задачки за 1 час. Для меня это был первый подобный опыт. Первые две задачки были простыми, но третья оказалась посложней. Когда время подошло к концу, моё решение не проходило все тесты, а только где-то 8 из 10 необходимых.

Читать дальше →

+137

iskorotkov Jul 22 2019 at 19:50

Указатели сложны, или Что хранится в байте?

9 min

18K

Programming*C++*System Programming*Rust*

Translation

Привет, Хабр! Представляю вашему вниманию перевод статьи "Pointers Are Complicated, or: What's in a Byte?" авторства Ralf Jung.

Этим летом я снова работаю над Rust фуллтайм, и я снова буду работать (помимо прочих вещей) над "моделью памяти" для Rust/MIR. Однако, прежде чем я заговорю о своих идеях, я наконец должен развеять миф, что "указатели просты: они являются просто числами". Обе части этого утверждения ошибочны, по крайней мере в языках с небезопасными фичами, таких как Rust или C: указатели нельзя назвать ни простыми, ни (обычными) числами.

Я бы также хотел обсудить часть модели памяти, которую необходимо затронуть, прежде чем мы можем говорить о более сложных частях: в какой форме данные хранятся в памяти? Память состоит из байтов, минимальных адресуемых единиц и наименьших элементов, к которым можно получить доступ (по крайней мере на большинстве платформ), но каковы возможные значения байта? Опять же, оказывается, что "это просто 8-битное число" не подходит в качестве ответа.

Читать дальше →

+36

DmitryKoterov Jul 22 2019 at 20:23

Ликбез по передаче параметров по значению в конструкторы и сеттеры (современный C++, примеры)

4 min

20K

Programming*System Programming*

Судя по комментам habr.com/ru/post/460831/#comment_20416435 в соседнем посте и развернувшейся там дискуссии, на Хабре не помешает статья, как правильно передавать аргументы в конструктор или сеттер. На StackOverflow подобного материала полно, но тут что-то я не припомню.

Потому что пример в той статье полностью корректен, и автор статьи абсолютно прав. Вот этот пример:

// Хорошо.
struct person {
  person(std::string first_name, std::string last_name)
    : first_name{std::move(first_name)} // верно
    , last_name{std::move(last_name)} // std::move здесь СУЩЕСТВЕНЕН!
  {}
private:
  std::string first_name;
  std::string last_name;
};

Такой код позволяет покрыть все (ну ладно, почти все) возможные варианты использования класса:

Читать дальше →

+44

germn Jul 23 2019 at 10:59

Деплоим ML проект, используя Flask как REST API, и делаем доступным через приложение на Flutter

5 min

9.8K

Python*Programming*Machine learning*Flutter*Flask*

Tutorial

Translation

Введение

Машинное обучение уже везде и, пожалуй, почти невозможно найти софт, не использующий его прямо или косвенно. Давайте создадим небольшое приложение, способное загружать изображения на сервер для последующего распознавания с помощью ML. А после сделаем их доступными через мобильное приложение с текстовым поиском по содержимому.

Мы будем использовать Flask для нашего REST API, Flutter для мобильного приложения и Keras для машинного обучения. В качестве базы данных для хранения информации о содержимом изображений используем MongoDB, а для получения информации возьмём уже натренированную модель ResNet50. При необходимости мы сможем заменить модель, используя методы save_model() и load_model(), доступные в Keras. Последний потребует около 100 Мб при первоначальной загрузке модели. Почитать о других доступных моделях можно в документации.

Читать дальше →

+5

Reptor Oct 31 2018 at 13:53

Интересная задачка на С

2 min

9.4K

Просматривая протоколы собеседований на позицию разработчика, обнаружил такую задачу: "Предложите код, который бы выводил на печать числа в убывающем порядке от n до 0, не используя (скрыто или явно) операторы сравнения (реализация функции вывода на печать не в счет)". Несмотря на то, что ко мне эта задача не имела отношения, она меня заняла и я решил подумать над способами ее решения (хотя, кому и при решении какой задачи может понадобиться такой метод оптимизации кода, мне осталось неизвестно, но тем не менее ).

Первое, что пришло на ум, — попытаться использовать шаблоны. Например так

template<int n> 
void print()
{
    printf("%d\n", n);
    print<n - 1>();
}

template<>
void print<0>()
{
    printf("0\n");
}

int main(int argc, char* argv[])
{
    print<N>();
    return 0;
}

Проблема в том, что программирование это инженерная дисциплина, а не оккультная, и если "что-то" должно в системе происходить, то "оно" должно быть описано и под это должны быть выделены ресурсы, и в данном случае, поскольку отработка шаблонов происходит на этапе компиляции, есть ограницения на вложенность подобного рода конструкций (и это хорошо и правильно, и Слава Богу, что так есть), и компилятор совершенно справедливо выдал "fatal error C1202: recursive type or function dependency context too complex" при размере N больше 2000.

Читать дальше →

+7

SLY_G Oct 12 2018 at 15:00

Титаны от математики схлестнулись над эпичным доказательством abc-гипотезы

10 min

51K

Translation

Два математика утверждают, что нашли дыру в самом сердце доказательства, вот уже шесть лет сотрясающего математическое сообщество

В отчёте, опубликованном в сентябре 2018 в интернете, Петер Шольце из Боннского университета и Якоб Стикс из Университета имени Гёте во Франкфурте описали то, что Стикс называет «серьёзным и невосполнимым разрывом» в огромной серии объёмных работ Синъити Мотидзуки, знаменитого гениального математика из Киотского университета. Опубликованные в интернете в 2012 году работы Мотидзуки якобы доказывают abc-гипотезу, одну из наиболее далеко идущих задач в теории чисел.

Читать дальше →

+59

SLY_G Jan 14 2017 at 23:08

Что такое огонь, и почему он жжёт

10 min

90K

Popular sciencePhysics

Translation

Недавно я разжигал на пляже огонь и понял, что я ничего не знаю про огонь и про то, как он работает. К примеру – что определяет его цвет? Поэтому я изучил этот вопрос, и вот что я узнал.

Огонь

Огонь – устойчивая цепная реакция, включающая горение, которое представляет собой экзотермическую реакцию, в которой окислитель, обычно кислород, окисляет горючее, обычно углерод, в результате чего возникают продукты сгорания, такие как диоксид углерода, вода, тепло и свет. Типичный пример – горение метана:

CH₄ + 2 O₂ → CO₂ + 2 H₂O

Тепло, возникающее при горении, может использоваться для питания самого горения, и в случае, когда этого достаточно и дополнительной энергии для поддержания горения не требуется, возникает огонь. Чтобы остановить огонь, можно удалить горючее (отключить горелку на плите), окислитель (накрыть огонь специальным материалом), тепло (сбрызнуть огонь водой) или саму реакцию.

Горение, в некотором смысле, противоположно фотосинтезу, эндотермической реакции, в которую вступают свет, вода и диоксид углерода, в результате чего возникает углерод.

Читать дальше →

+23

1