Pull to refresh
2
0

Пользователь

Send message

Модель футбольных трансферов: копаем глубже

Reading time8 min
Views2.3K

Настало время продолжить предыдущую статью про исследование футбольных трансферов.


В этот раз вы узнаете почему же Клопп Симеоне такой крутой, кого брать в агенты, если вы футболист и зачем все это читать, если футбол вам неинтересен.


Читать дальше →
Total votes 7: ↑7 and ↓0+7
Comments3

Распознавание текста с помощью OCR

Reading time3 min
Views44K

Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом, является самой популярной и качественной OCR-библиотекой.


OCR использует нейронные сети для поиска и распознавания текста на изображениях.


Tesseract ищет шаблоны в пикселях, буквах, словах и предложениях, использует двухэтапный подход, называемый адаптивным распознаванием. Требуется один проход по данным для распознавания символов, затем второй проход, чтобы заполнить любые буквы, в которых он не был уверен, буквами, которые, скорее всего, соответствуют данному слову или контексту предложения.

Читать дальше →
Total votes 6: ↑5 and ↓1+4
Comments10

Благодаря двухфакторной аутентификации я лишился всех вложенных денег и 3 лет работы

Reading time2 min
Views214K
Пост о том, как привязанный к аккаунту сервиса Яндекс.Почта телефон, помог угнать домен созданного мной сетевого издания "Банки Сегодня". Отмечу, что в это издание я вложил все свои накопленные деньги, душу и 3 года кропотливой работы.
Читать дальше →
Total votes 343: ↑326 and ↓17+309
Comments670

Эволюционирующие клеточные автоматы

Reading time22 min
Views37K


Соединим клеточные автоматы с генетическим алгоритмом и посмотрим, что из этого получится.

В статье присутствуют Gif (трафик!) и контрастные картинки. У эпилептиков может случиться эпилептический припадок.
Читать дальше →
Total votes 130: ↑129 and ↓1+128
Comments34

Нейросеть для классификации спутниковых снимков с помощью Tensorflow на Python

Reading time9 min
Views13K


Это пошаговая инструкция по классификации мультиспектральных снимков со спутника Landsat 5. Сегодня в ряде сфер глубокое обучение доминирует как инструмент для решения сложных проблем, в том числе геопространственных. Надеюсь, вы знакомы с датасетами спутниковых снимков, в частности, Landsat 5 TM. Если вы немного разбираетесь в работе алгоритмов машинного обучения, то это поможет вам быстро освоить это руководство. А для тех, кто не разбирается, будет достаточным знать, что, по сути, машинное обучение заключается в установлении взаимосвязей между несколькими характеристиками (набором признаков Х) объекта с другим его свойством (значением или меткой, — целевой переменной Y). Мы подаём на вход модели много объектов, для которых известны признаки и значение целевого показателя/класса объекта (размеченные данные) и обучаем ее так, чтобы она могла спрогнозировать значение целевой переменной Y для новых данных (неразмеченных).
Читать дальше →
Total votes 26: ↑25 and ↓1+24
Comments8

C/C++ из Python (C API)

Reading time7 min
Views26K
main

Продолжаем тему как вызывать C/C++ из Python3. Теперь используем C API для создания модуля, на этом примере мы сможем разобраться как работает cffi и прочие библиотеки упрощающие нам жизнь. Потому что на мой взгляд это самый трудный способ.

Читать дальше →
Total votes 22: ↑22 and ↓0+22
Comments8

Подборка рабочих примеров обработки данных

Reading time4 min
Views13K
Привет, читатель.

По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.

image

Итак, давайте приступим.

Подборка датасетов с рабочими примерами обработки данных:


Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Примеры обработки:

Читать дальше →
Total votes 17: ↑16 and ↓1+15
Comments0

Поиск контуров лица за одну миллисекунду с помощью ансамбля деревьев регрессии

Reading time18 min
Views6.6K


Перевод статьи подготовлен для студентов курса «Математика для Data Science»




Аннотация


В этой статье рассматривается задача поиска контуров лица для одного изображения. Мы покажем, как ансамбль деревьев регрессии можно использовать для прогнозирования положения контуров лица непосредственно по рассеянному подмножеству интенсивностей пикселей, достигая супер-производительности в режиме реального времени с предсказаниями высокого качества. Мы представляем общую структуру, основанную на градиентном бустинге, для изучения ансамбля деревьев регрессии, который оптимизирует сумму квадратичных потерь и, естественно, обрабатывает отсутствующие или частично помеченные данные. Мы покажем, как использование соответствующих распределений, учитывающих структуру данных изображения, помогает в эффективном выборе контуров. Также исследуются различные стратегии регуляризации и их важность для борьбы с переобучением. Кроме того, мы анализируем влияние количества обучающих данных на точность прогнозов и исследуем эффект увеличения данных с использованием синтезированных данных.

Читать дальше →
Total votes 21: ↑18 and ↓3+15
Comments0

Равномерное распределение точек на сфере

Reading time8 min
Views21K
Как можно более равномерное распределение точек на сфере — невероятно важная задача в математике, науке и компьютерных системах, а наложение сетки Фибоначчи на поверхность сферы при помощи равновеликой проекции — чрезвычайно быстрый и эффективный метод аппроксимации для её решения. Я покажу, как благодаря незначительным изменениям его можно сделать ещё лучше.


Какое-то время назад этот пост появился на главной странице Hacker News. Его обсуждение можно прочитать здесь.

Введение


Задача равномерного распределения точек на сфере имеет очень долгую историю. Это одна из самых хорошо исследованных задач в математической литературе по сферической геометрии. Она имеет критическую важность во многих областях математики, физики, химии, в том числе в вычислительных методах, теории приближений, теории кодирования, кристаллографии, электростатике, компьютерной графике, морфологии вирусов и многих других.

К сожалению, за исключением нескольких особых случаев (а именно платоновых тел) невозможно идеально ровно распределить точки на сфере. Кроме того, решение задачи сильно зависит от критерия, который используется для оценки однородности. На практике используется множество критериев, в том числе:

  • Упаковка и покрытие
  • Выпуклые оболочки, ячейки Вороного и треугольники Делоне
  • Ядра $s$-энергии Риса
  • Кубатура и определители

Очень важно уяснить этот аспект: обычно не существует единственного оптимального решения этой задачи, потому что оптимальное решение, основанное на одном критерии, часто не является оптимальным распределением точек для других. Например, мы также выясним, что оптимизация упаковки необязательно создаёт оптимальную выпуклую оболочку и наоборот.

Ради краткости в этом посте мы рассмотрим только два критерия: минимальное расстояние упаковки и выпуклую оболочку/сетку Делоне (объём и площадь).
Читать дальше →
Total votes 48: ↑48 and ↓0+48
Comments27

Взгляд на релокацию в Эстонию изнутри — плюсы, минусы и подводные камни

Reading time9 min
Views41K
Однажды компания Parallels решила пойти навстречу тем своим сотрудникам, которые уже давно работали в компании и не хотели ее менять, но при этом хотели поменять свое местожительство, чтобы быть ближе к Западу, иметь паспорт ЕС и быть мобильнее и независимее в своих передвижениях.

Так родилась идея расширить географию своего присутствия и открыть R&D центр Parallels в Эстонии.

Почему Эстония?


Изначально рассматривались разные варианты, находящиеся не так далеко от Москвы: Германия, Чехия, Польша, Эстония. В пользу Эстонии было то, что почти половина страны говорит по-русски, а до Москвы можно доехать на любом ночном поезде. Кроме того, в Эстонии функционирует очень продвинутая модель электронного правительства, значительно упрощающая все организационные аспекты, и ведется реальная работа по привлечению инвесторов, стартапов и других перспективных проектов.

image

Итак, выбор был сделан. А теперь — о релокации в Таллинн устами наших сотрудников, которые рассказывают, какие их ожидания оправдались, а какие – нет, и с какими изначально непрогнозируемыми трудностями им пришлось столкнуться.
Читать дальше →
Total votes 39: ↑29 and ↓10+19
Comments217

Делать хорошо, делая плохо: написание «злого» кода с помощью Go, часть 2

Reading time9 min
Views3.4K
Вредные советы для Go-программиста

image

В первой части публикации я объяснил, как стать «злобным» программистом Go. Зло приходит во многих формах, но в программировании оно заключается в намеренном затруднении понимания и поддержки кода. «Злые» программы игнорируют основные средства языка в пользу техник, которые обеспечивают краткосрочные выгоды, в обмен на долгосрочные проблемы. В качестве краткого напоминания, злые «практики» Go включают в себя:

  • Плохо названные и организованные пакеты
  • Неправильно организованные интерфейсы
  • Передача указателей на переменные в функции для заполнения их значений
  • Использование паники вместо ошибок
  • Использование init-функций и пустого импорта для настройки зависимостей
  • Загрузка файлов конфигурации с использованием init-функций
  • Использование фреймворков вместо библиотек

Большой клубок зла


Что будет, если собрать все наши злые практики вместе? У нас получился бы фреймворк, который использовала бы множество файлов конфигурации, заполнял поля структур с помощью указателей, определял интерфейсы для описания публикуемых типов, опирался на «магический» код и паниковала всякий раз, когда возникала проблема.

И я сделал такой. Если вы зайдете на https://github.com/evil-go, вы увидите Fall (падение), — DI фреймворк, дающий возможность внедрять любые «злые» практики, которые только захотите. Я спаял Fall с крошечным веб-фреймворком Outboy, который следует тем же принципам.

Вы можете спросить, насколько они злодейские? Давайте посмотрим. Предлагаю пройтись по простой программе Go (написанной с использованием лучших практик), которая предоставляет http endpoint. А затем перепишем ее, используя Fall и Outboy.
Читать дальше →
Total votes 6: ↑4 and ↓2+2
Comments1

Семь раз отмерь, один раз внедри BI инструмент

Reading time11 min
Views29K
Не так давно я столкнулся с задачей по переходу на новую BI-систему для нашей компании. Поскольку мне пришлось погрузиться довольно глубоко и основательно в данный вопрос, я решил поделиться с уважаемым сообществом своими мыслями на этот счет.

image
На просторах интернета есть немало статей на эту тему, но, к моему большому удивлению, они не ответили на многие мои вопросы по выбору нужного инструмента и были несколько поверхностны. В рамках 3 недель тестирования мы опробовали 4 инструмента: Tableau, Looker, Periscope/Sisense, Mode analytics. Про эти инструменты в основном и пойдет речь в данной статье. Сразу оговорюсь, что предложенная статья — это личное мнение автора, отражающее потребности небольшой, но очень быстро растущей IT-компании :)

Несколько слов о рынке


Сейчас на рынке BI происходят довольно интересные изменения, идёт консолидация, крупные игроки облачных технологий пытаются укрепить свои позиции путем вертикальной интеграции всех аспектов работы с данными (хранение данных, обработка, визуализация). За последние несколько месяцев произошло 5 крупных поглощений: Google купил Looker, Salesforce купил Tableau, Sisense купил Periscope Data, Logi Analytics' купил Zoomdata, Alteryx купил ClearStory Data. Не будем дальше погружаться в корпоративный мир слияний и поглощений, стоит лишь отметить, что можно ожидать дальнейших изменений как в ценовой, так и в протекционистской политике новых обладателей BI-инструментов (как недавно нас обрадовал инструмент Alooma, вскоре после покупки их компанией Google, они перестают поддерживать все источники данных, кроме Google BigQuery :) ).
Читать дальше →
Total votes 44: ↑42 and ↓2+40
Comments20

Что мы будем есть в 2050 году

Reading time3 min
Views7.2K

Не так давно мы публиковали полусерьёзный прогноз «За что вы будете платить через 20 лет». Это были наши собственные ожидания, базировавшиеся на развивающихся технологиях и научных достижениях. Но в США пошли дальше. Там прошёл целый симпозиум, посвящённый в том числе прогнозированию будущего, которое ждёт человечество в 2050 году.

Организаторы подошли к вопросу со всей серьёзностью: даже ужин готовился с учётом ожиданий учёных от возможных климатических проблем, которые возникнут через 30 лет. Об этом необычном ужине мы и хотим рассказать.
Читать дальше →
Total votes 16: ↑10 and ↓6+4
Comments8

Почему Senior Developer'ы не могут устроиться на работу

Reading time3 min
Views153K


Сначала о том, как 5 месяцев назад я проходил собеседование на работу. Меня посоветовал друг, и прошло уже немало времени, с момента как я ответил рекрутеру. Я был поражён, как сильно весь процесс изменился за последние 5 лет.


После первичного созвона меня отправили на сторонний сайт (HackerRank), чтобы я решил три небольших задачки за 1 час. Для меня это был первый подобный опыт. Первые две задачки были простыми, но третья оказалась посложней. Когда время подошло к концу, моё решение не проходило все тесты, а только где-то 8 из 10 необходимых.

Читать дальше →
Total votes 165: ↑151 and ↓14+137
Comments909

Указатели сложны, или Что хранится в байте?

Reading time9 min
Views18K

Привет, Хабр! Представляю вашему вниманию перевод статьи "Pointers Are Complicated, or: What's in a Byte?" авторства Ralf Jung.


Этим летом я снова работаю над Rust фуллтайм, и я снова буду работать (помимо прочих вещей) над "моделью памяти" для Rust/MIR. Однако, прежде чем я заговорю о своих идеях, я наконец должен развеять миф, что "указатели просты: они являются просто числами". Обе части этого утверждения ошибочны, по крайней мере в языках с небезопасными фичами, таких как Rust или C: указатели нельзя назвать ни простыми, ни (обычными) числами.


Я бы также хотел обсудить часть модели памяти, которую необходимо затронуть, прежде чем мы можем говорить о более сложных частях: в какой форме данные хранятся в памяти? Память состоит из байтов, минимальных адресуемых единиц и наименьших элементов, к которым можно получить доступ (по крайней мере на большинстве платформ), но каковы возможные значения байта? Опять же, оказывается, что "это просто 8-битное число" не подходит в качестве ответа.

Читать дальше →
Total votes 40: ↑38 and ↓2+36
Comments37

Ликбез по передаче параметров по значению в конструкторы и сеттеры (современный C++, примеры)

Reading time4 min
Views20K
Судя по комментам habr.com/ru/post/460831/#comment_20416435 в соседнем посте и развернувшейся там дискуссии, на Хабре не помешает статья, как правильно передавать аргументы в конструктор или сеттер. На StackOverflow подобного материала полно, но тут что-то я не припомню.

Потому что пример в той статье полностью корректен, и автор статьи абсолютно прав. Вот этот пример:

// Хорошо.
struct person {
  person(std::string first_name, std::string last_name)
    : first_name{std::move(first_name)} // верно
    , last_name{std::move(last_name)} // std::move здесь СУЩЕСТВЕНЕН!
  {}
private:
  std::string first_name;
  std::string last_name;
};

Такой код позволяет покрыть все (ну ладно, почти все) возможные варианты использования класса:
Читать дальше →
Total votes 46: ↑45 and ↓1+44
Comments76

Деплоим ML проект, используя Flask как REST API, и делаем доступным через приложение на Flutter

Reading time5 min
Views9.8K


Введение


Машинное обучение уже везде и, пожалуй, почти невозможно найти софт, не использующий его прямо или косвенно. Давайте создадим небольшое приложение, способное загружать изображения на сервер для последующего распознавания с помощью ML. А после сделаем их доступными через мобильное приложение с текстовым поиском по содержимому.


Мы будем использовать Flask для нашего REST API, Flutter для мобильного приложения и Keras для машинного обучения. В качестве базы данных для хранения информации о содержимом изображений используем MongoDB, а для получения информации возьмём уже натренированную модель ResNet50. При необходимости мы сможем заменить модель, используя методы save_model() и load_model(), доступные в Keras. Последний потребует около 100 Мб при первоначальной загрузке модели. Почитать о других доступных моделях можно в документации.

Читать дальше →
Total votes 9: ↑7 and ↓2+5
Comments5

Интересная задачка на С

Reading time2 min
Views9.4K

Просматривая протоколы собеседований на позицию разработчика, обнаружил такую задачу: "Предложите код, который бы выводил на печать числа в убывающем порядке от n до 0, не используя (скрыто или явно) операторы сравнения (реализация функции вывода на печать не в счет)". Несмотря на то, что ко мне эта задача не имела отношения, она меня заняла и я решил подумать над способами ее решения (хотя, кому и при решении какой задачи может понадобиться такой метод оптимизации кода, мне осталось неизвестно, но тем не менее ).


Первое, что пришло на ум, — попытаться использовать шаблоны. Например так


template<int n> 
void print()
{
    printf("%d\n", n);
    print<n - 1>();
}

template<>
void print<0>()
{
    printf("0\n");
}

int main(int argc, char* argv[])
{
    print<N>();
    return 0;
}

Проблема в том, что программирование это инженерная дисциплина, а не оккультная, и если "что-то" должно в системе происходить, то "оно" должно быть описано и под это должны быть выделены ресурсы, и в данном случае, поскольку отработка шаблонов происходит на этапе компиляции, есть ограницения на вложенность подобного рода конструкций (и это хорошо и правильно, и Слава Богу, что так есть), и компилятор совершенно справедливо выдал "fatal error C1202: recursive type or function dependency context too complex" при размере N больше 2000.

Читать дальше →
Total votes 19: ↑13 and ↓6+7
Comments95

Титаны от математики схлестнулись над эпичным доказательством abc-гипотезы

Reading time10 min
Views51K

Два математика утверждают, что нашли дыру в самом сердце доказательства, вот уже шесть лет сотрясающего математическое сообщество




В отчёте, опубликованном в сентябре 2018 в интернете, Петер Шольце из Боннского университета и Якоб Стикс из Университета имени Гёте во Франкфурте описали то, что Стикс называет «серьёзным и невосполнимым разрывом» в огромной серии объёмных работ Синъити Мотидзуки, знаменитого гениального математика из Киотского университета. Опубликованные в интернете в 2012 году работы Мотидзуки якобы доказывают abc-гипотезу, одну из наиболее далеко идущих задач в теории чисел.
Читать дальше →
Total votes 65: ↑62 and ↓3+59
Comments97

Что такое огонь, и почему он жжёт

Reading time10 min
Views90K
image

Недавно я разжигал на пляже огонь и понял, что я ничего не знаю про огонь и про то, как он работает. К примеру – что определяет его цвет? Поэтому я изучил этот вопрос, и вот что я узнал.

Огонь


Огонь – устойчивая цепная реакция, включающая горение, которое представляет собой экзотермическую реакцию, в которой окислитель, обычно кислород, окисляет горючее, обычно углерод, в результате чего возникают продукты сгорания, такие как диоксид углерода, вода, тепло и свет. Типичный пример – горение метана:

CH4 + 2 O2 → CO2 + 2 H2O

Тепло, возникающее при горении, может использоваться для питания самого горения, и в случае, когда этого достаточно и дополнительной энергии для поддержания горения не требуется, возникает огонь. Чтобы остановить огонь, можно удалить горючее (отключить горелку на плите), окислитель (накрыть огонь специальным материалом), тепло (сбрызнуть огонь водой) или саму реакцию.

Горение, в некотором смысле, противоположно фотосинтезу, эндотермической реакции, в которую вступают свет, вода и диоксид углерода, в результате чего возникает углерод.
Читать дальше →
Total votes 57: ↑40 and ↓17+23
Comments60

Information

Rating
Does not participate
Registered
Activity