vladpriv Nov 26 2019 at 17:49

Наблюдения о применении ML в бизнесе на акции ŽijemeIT

4 min

1.3K

Несколько недель назад я посетил акцию для студентов Технического университета в Брно (Чехия) под названием ŽijemeIT. Это ежегодная миниконференция для студентов, на которой ряд крупных и известных ИТ компаний города Брно представляют обзорные презентации о своей деятельности, интересных направлениях и проектах. В этом году была заметна тенденция компаний по использованию машинного обучения и искусственного интеллекта для решения различных бизнес задач. В этом кратком обзоре я бы хотел поделиться некоторыми интересными наблюдениями на эту тему. Кому интересно, прошу под кат

Акция проводится в формате презентаций компаний и информационных стендов с рекламными раздаточными материалами. На презентации можно получить общее представление о деятельности компании, а в перерыве можно задать докладчикам интересующие вопросы либо пообщаться с представителями компаний около стендов и узнать больше о проектах и открытых вакансиях. Целью акции является познакомить студентов с потенциальными работодателями и возможно найти будущую работу.

Где машинное обучение нашло свое применение

В этом году много презентаций было посвящено темам машинного обучения и искусственного интеллекта. Эти технологии находят применение в самых разных направлениях и сферах ИТ.

Например, американская компания Mavenir занимается анализом безопасности сетей мобильных операторов и выявлением мошеннических операций (т. н. аудит уязвимостей в сети). Для анализа спам-сообщений и выявления мошеннических атак в Mavenir применяют классические методы машинного обучения.

В начале специалисты компании собирают данные операторов мобильной связи, в частности данные о телефонных звонках и СМС сообщениях (длительность звонка, номер звонившего, номер отправителя сообщения, текст сообщений). Затем на их основе строят статистические графики и применяют различные методы аналитики: социальные графы, семантический анализ. Целью является выявление любой подозрительной активности в сети. Анализ статистических данных позволяет построить текстовый классификатор сообщений. В конечном итоге, на основе проведенных исследований специалисты Mavenir представляют провайдеру мобильной связи детальный отчет и прогноз потенциальной возможности возникновения любой мошеннической деятельности в его мобильной сети.

Здесь существует проблема получения данных о звонках и сообщениях в разных странах. Для анализа уязвимостей в сети необходимы реальные данные оператора. В разных странах действуют различные регуляторы контроля персональных данных: в Европе действует GDPR, в штатах собственные законы.

С точки зрения технологий используются Keras и scikit-learn. Касательно Python есть ограничение на многопоточность — известное ограничение Global Interpret Locker (GIL), что является критичным ограничением при обработке больших объемов данных. Ранее использовался C++ XGBoost. Он позволяет получить очень маленькую задержку (менее 0.1 мс).

Другой пример — Y Soft. Компания разрабатывает пользовательские интерфейсы для принтеров. Здесь одной из важных задач является тестирование готовой программы. Ручное тестирование довольно трудоемкое, затратное по времени и не исключает возможности ошибки. Поэтому компания автоматизировала ручное тестирование пользовательского интерфейса программы с помощью компьютерного зрения и робота-манипулятора (проект RQA, можно прочитать здесь и здесь).

Робот-манипулятор авторизуется в терминале с помощью учетных данных, переходит на целевой экран, выбирает нужную задачу (скан, печать), проверяет успешность и наконец переходит на главный экран.

За роботом следит камера, которая записывает его действия на видео. Здесь решаются задачи детекции экрана и распознавания элементов в приложении. Изначально использовались классические методы компьютерного зрения: дескрипторы признаков, OCR. Одной из проблем был так называемый эффект Moiré — появление череды горизонтальных полос на экране монитора, которое часто возникает при взгляде на экран монитора через камеру. В результате экспериментов проблемы удалось решить с помощью нового классификатора изображений на основе гистограмм локальных кумулятивных искаженных краев. В этом случае применение ИИ позволяет в разы повысить скорость выполнения операции (около секунды против 20 с. при традиционных методах обработки изображений).

В плане технологий изначально использовали CNTK (враппер над C++) и Accord. У CNTK сложный API, а Accord больше не поддерживается и имеет низкую параллелизованность. В конечном итоге используется библиотека ML .NET в связке с технологиями .NET (ASP .NET).

Где машинное обучение пока не применимо

В некоторых случаях традиционные методы решения задач без использования машинного обучения все-таки остаются самым оптимальным вариантом. Так например, компания Thermo Fisher Scientific разрабатывает программу визуализации для электронного микроскопа с предварительной обработкой изображения. Для обработки изображения используются традиционные методы компьютерного зрения.

Это обусловлено несколькими факторами. Во-первых, методы машинного обучения не могут дать 100-процентную точность, даже ничтожная ошибка всегда имеет место. В данном случае, когда заказчиком является научная организация (например, исследовательские лаборатории, занимающиеся производством микрочипов), для клиента критически важным фактором приемки является предельная точность. Во-вторых, для достижения максимальной эффективности предсказания те же модели губокого обучения требуют для обучения огромное количество данных, желательно максимально подобных тем, на которых их точность будут оценивать. В случае Thermo Fisher Scientific клиент не готов предоставить свои данные для тестирования эффективности.

Наконец, результат, полученный инференсом нейронной сети, сложно объяснить (известный феномен нейронных сетей как «black box»). Это тот случай, когда предельная точность и понимание процесса принятия решения имеет больший приоритет, чем выполнение поставленной задачи и скорость выполнения.

Пока на этом все. Всем удачи и до новых встреч!

Tags:

Hubs:

Machine learning

If this publication inspired you and you want to support the author, do not hesitate to click on the button