dmvcm Aug 28 2016 at 10:54

Scrapy: собираем данные и сохраняем в базу данных

5 min

69K

Python*

From sandbox

+16

Comments 14

nikitasius Aug 28 2016 at 14:04

regexp, не?

-6

Akhristenko Aug 28 2016 at 17:49

Ну и легендарный уже ответ на этот вопрос

nikitasius Aug 28 2016 at 20:30

Я спрашиваю потому, что сам парсю и html и xml для выдергивания данных через регулярки и не понимаю, на кой черт сие парсить отдельным фреймворком.
Вот JSON… его парсинг мне мозг ломает и я просто использую библиотеку.

-4

okeld Aug 28 2016 at 16:21

Beautiful Soup

-2

alan008 Aug 28 2016 at 16:27

А суп кроулить по ссылкам умеет?

alan008 Aug 28 2016 at 22:30

Вот интересно, какие умники минусят?
Человек в статье описывает фреймворк, который, судя по описанию, умеет делать XPath запросы к HTML-содержимому, а также перемещаться автоматически по ссылкам на другие страницы сайта, чтобы обойти его весь (crawling). okeld предложил альтернативу — библиотеку Beautiful Soup. В этой библиотеке тоже можно делать запросы к HTML-содержиму, только не XPath, а несколько другого вида (на мой взгляд, менее гибкого и менее удобного). Я хотел узнать, умеет ли Beatiful Soup осуществлять какой-либо crawling или там нужно самому закачивать содержимое других страниц по ссылкам.
Я сам ни с Beautiful Soup, ни со Scrapy не работал, я даже не Pyhton-программист. Тем не менее, ответ мне интересен, т.к. заниматься парсингом сайтов мне также приходится (используя другие технологии и инструменты).

dmvcm Aug 28 2016 at 23:16

Beautiful Soup можно использовать вместо xpath для разбора html/xml. Насколько я могу судить Beatiful Soup не может осуществлять crawling. Данную библиотеку можно использовать совместно со scrapy при необходимости.

ilBEastli Aug 29 2016 at 06:32

В Scrapy используется своя библиотека Parsel для извлечения данных, основанная на lxml и cssselect. Но можно использовать непосредственно lxml или BeautifulSoup.

andjel Aug 29 2016 at 12:44

Для парсинга можно. Можно даже Selenium прикрутить, но мееедленно.

Crait Aug 28 2016 at 19:47

А что насчет JavaScript? Есть ли какое-то общее решение, которое позволит запускать паука, который будет находить все реквесты, которые может послать JavaScript со страницы?

dorsett Aug 28 2016 at 20:27

Возможно поможет замечательная npm-библиотека X-ray.
Либо Webdriver.io, по сути обертка над Selenium для Node.js.

XenoAura Aug 29 2016 at 11:06

Scrapy как минимум умеет работать с PhantomJS и Splash(self-hosted сервис рендеринга страниц c js)

GaroRobe Aug 29 2016 at 13:32

Мы решили вопрос с JS при помощи Splash (взяли готовый docker) + scrapy-splash.

estin Sep 2 2016 at 13:12

При записи сразу в БД главное не забывать об особенностях различных реляционных СУБД при конкурентной работе с одной и той же БД, так как возможны блокировки и долгие инсерты, которые будут тормозить асинхронного паука синхронной записью в БД (часто используют синхронные коннекты/сокеты)

Лучше избегать работу с реляционным БД напрямую из паука, а данные писать асинхронно в файл или другое хранилище заточенное для быстрого приема данных, а уже потом отдельно импортировать данные в целевую БД.

Но для простейших вещей можно и сразу в БД что бы было меньше звеньев )

Show the best of all time