Pull to refresh
66
0
Дмитрий Ейбоженко @Meroving

User

Send message

Извлечение данных или знаний?

Reading time3 min
Views11K
Приветствую!

Стало любопытно, насколько представлена тема Data Mining на хабре. Увидел лишь одну статью, посвященную данной тематике. Хочу сделать свой небольшой вклад в развитие данной темы.

Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода:
  • извлечение данных
  • извлечение знаний, интеллектуальный анализ данных

Если говорить о способах реализации, то первый вариант относиться к прикладной области, второй — к математике и науке, и, как правило, они мало пересекаются. Если говорить о возможности применения — тут вариантов очень много. Так получилось, что я работал как с первым вариантом (в университете — научная работа), так и с другим (работа, фриланс). Рассмотрим подробнее.

Извлечение данных


Извлечение данных — это процесс нахождения, сбора информации, а также сохранения (конвертация) их в разных форматах. По простому, программы для извлечения данных называют парсерами (parser), граберами (grabber), спайдерами (spider), кроулерами (crawler) и т.д. Фактически, такие программы существенно облегчают всем жизнь, так как позволяют систематизировать данные (именно данные, а не знания!). Такие программы могут собирать адреса компаний в вашей отрасли, ссылки из нужных форумов, парсить целые каталоги, также могут служить отличным средством для составления баз данных.

Читать дальше →
Total votes 59: ↑57 and ↓2+55
Comments30

System.Addin или «Игры с надёжными плагинами». Часть 1

Reading time4 min
Views3.5K
Введение.

Доброго времени суток. Я думаю, что абсолютное большинство из вас сталкивалось с проблемой расширяемости приложений. Точно также я думаю, что многим из вас приходилось копать Reflection для выяснения того, является ли сборка плагином к вашей программе. Многим не нравилось то, что в .NET сборки по умолчанию загружаются в один домен с приложением, а затем их нельзя было выгрузить. Многие, конечно, создавали объекты в отдельных доменах через CreateInstanceAndUnwrap, но всё это приходилось делать руками. В общем «мыши плакали и кололись…». С появлением System.Addin разработчики получили в свои руки инструмент для создания расширяемого приложения, который лишён этих проблем, что называется, «из коробки». Об этой технологии я и расскажу в нескольких статьях.
Читать дальше →
Total votes 39: ↑36 and ↓3+33
Comments53

IronPython как движок для макросов в .NET приложениях

Reading time6 min
Views11K
Подозреваю, многие из вас задумывались — как можно в .NET приложение добавить поддержку макросов — чтобы можно было расширять возможности программы без ее перекомпиляции и предоставить сторонним разработчикам возможность легко и просто получить доступ к API вашего приложения? В статье рассмотрено, как в качестве основы для выполнения макросов использовать IronPython — реализацию языка Python на платформе .NET.
Читать
Total votes 34: ↑33 and ↓1+32
Comments38

Учебник по языку программирования Python (хабраиндекс)

Reading time1 min
Views313K

Серия статей «Основы Python»


I, Начало
II, Строки
III, Списки, кортежи, файлы
IV, Генераторы списков
V, Определение функций, основы
VI, Расширенное определение функций

Об основах языка Python в сжатой форме

Продвинутый уровень


Сила и красота декораторов Короткий экскурс в метапрограммирование.
Итерируем все и вся Специфика циклов в Питоне.
Как я учился работать с XML
Консервация объектов в Python Использование модуля Pickle.
Memoization в Python Оптимизация работы программ.
Простейшее рисование с помощью PIL
Regexp и Python: извлечение токенов из текста
Как писать маленькие приложения на python с графическим интерфейсом (библиотека Qt).

http://netsago.org/ru/docs/1/12/
Одеваем скрипты Python с помощью EasyGui (добавляем простой диалоговый интерфейс)

http://djbook.ru/
Учебник по Django (Python-фреймворк для веб-приложений)

Читать дальше →
Total votes 164: ↑161 and ↓3+158
Comments61

Owlread — клиент для Твиттера в Google Apps стиле

Reading time2 min
Views518
OwlRead logoДостаточно давно начал пользоваться Твиттером и обнаружил, что это просто прекрасное средство быстрого получение информации, позволяет буквально каждую секунду быть в курсе событий и новостей. Проблема была одна — я не нашел (на тот момент), приятных и удобных клиентов, подходящих под мои требования:
  1. Клиент должен быть онлайн. Я давний сторонник приложений в онлайне, поэтому активно пользуюсь Google Apps. Ведь так удобно сесть за любое компьютер, подключенный к интернету, и получить свою любимую рабочую среду.
  2. Клиент должен уметь разбивать друзей в Твиттере на группы. Вы пробовали когда-нибудь читать ленту сообщений в твиттере от 50 друзей? А от 100? Забегая вперёд скажу, что разбитые по тематикам они читаются гораздо лучше.
  3. Клиент должен уметь работать с несколькими аккаунтами. Я веду несколько аккаунтов в Твиттере и хотелось постить и отвечать с одного места.
  4. Клиент должен уметь работать с ветками в Твиттере. Да, в Твиттере есть возможность ветвистых дискуссий, такие же как комментарии на Хабре.
  5. Клиент должен иметь удобный интерфейс. На мой взгляд, Google Reader имеет замечательный интерфейс, удобный для чтения новостей.

Итак, решение было принято сразу — необходимо создать свой велосипедклиент для Твиттера.
Что получилось
Total votes 66: ↑53 and ↓13+40
Comments48

Windows Azure + WPF + Wikipedia = Wikipedia Explorer

Reading time1 min
Views1.2K
Dot Net Solutions, совместно с командой евангелистов Microsoft из Рэдмонда и Monochrome выпустили новую версию WPF-приложения Wikipedia Explorer, активно использующего Windows Azure.

Что из себя представляет Wikipedia Explorer?
Это приложение для визуализации связей между статьями Википедии, построенное на мощной технологии Windows Presentation Foundation.

Причем здесь Windows Azure?
Оригинальная версия приложения подгружала информацию с Википедии налету. Это оказалось довольно медленным процессом. Теперь же нагрузку можно разделить на большое число мощных серверов, что заметно увеличивает быстродействие. На данный момент используется 50 серверов. Операция, которая на одной машине заняла бы 6 месяцев, в Windows Azure занимает около 4 дней.
Узнать больше
Total votes 24: ↑19 and ↓5+14
Comments10

Вступление

Reading time2 min
Views4.1K
Был удивлён, не обнаружив подобного блога на Хабре. Ничего, постараемся восполнить этот пробел. В этом блоге я планирую как можно проще описать работу регулярных выражений, более склоняясь к полному разбору часто используемых примеров. Так же, в планах, рассказать об особенностях разных движков выражений, и их реализации в популярных языках программирования.

Для начала, поговорим о том, что такое регулярные выражения, и каково их практическое применение.
Читать дальше →
Total votes 125: ↑94 and ↓31+63
Comments61

Parallel Extensions для .net 3.5

Reading time8 min
Views5.8K
Aquafresh :-)Количество ядер у процессоров растет год от года. Но многие программы до сих пор умеют использовать только одно. В небольшой заметке хочу рассказать о дополнении к библиотеке System.Threading, которое называется Parallel Extensions. Это дополнение позволяет на высоком уровне выполнять задачи на всех доступных ядрах/процессорах.

Данная статья является лишь кратким вводным обзором в Parallel Extensions. Так же в конце статьи вы найдете ссылки на ресурсы, которые раскрывают тему во всех деталях.

Если интересно, то смело ныряем под кат.
Читать дальше →
Total votes 67: ↑62 and ↓5+57
Comments69

Влюбляемся в F#: Доза 0.1: Как установить F#

Reading time2 min
Views5.1K

Дорогие Хабраколлеги!


Благодарю за теплый прием моих заметок по F#. Откровенно говоря, не ожидал такого количества интересных и полезных комментариев! Заранее прошу простить, если я не успеваю отвечать на все — буду стараться.


Прежде чем начать влюбляться в F# по этим заметкам, я рекомендую вам установить себе соответствующую среду программирования. Заранее прошу прощения у тех, кто уже установил себе F# и ждет от меня более продвинутых постов: я стараюсь излагать все по порядку, так что первое время может быть скучно.


Существует несколько возможностей установить F# (на текущий момент, последняя версия – 1.9.6.2):


Читать дальше →
Total votes 43: ↑35 and ↓8+27
Comments34

Влюбляемся в F#: Доза 1: Дух функционального программирования

Reading time4 min
Views7.9K
Дорогие Хабраколлеги!

Наконец-то я приступаю к некоторому изложению идей функционального программирования вместе с основами языка F#. Сегодня нам нужно будет сделать самое главное – понять основные принципы функционального программирования и проникнуться его духом. Заранее прошу прощения у тех гуру-функциональщиков, кто ждет более содержательных уроков – но мне хотелось начать с начала. Соответственно, для начала, история из жизни:

Когда я был молодым и преподавал программирование на первом курсе факультета Прикладной математики МАИ, один из студентов никак не мог понять, что значит X:=X+1. “Как же так, как X может быть равен X+1?”. Мне пришлось объяснить ему, как такое возможно, и в этот момент в нем умер функциональный программист…


Почему? Давайте разберемся.

Читать дальше →
Total votes 47: ↑32 and ↓15+17
Comments27

Information

Rating
Does not participate
Location
Санкт-Петербург и область, Россия
Works in
Date of birth
Registered
Activity