NewTechAudit Mar 21 2022 at 10:14

Парсинг сайта с помощью PYTHON + SELENIUM

5 min

60K

Python*Programming*

Comments 11

kalombo Mar 21 2022 at 15:36

Разработанный парсинг не могут забанить по ip, поскольку демонстрируется реклама

Могут. Достаточно посмотреть, что с одного ip очень много запросов на разные VIN-ы

В ходе анализа я обнаружил библиотеку «requests» для передачи POST
запросов, но понял, что она не подходит, поскольку на сайте «ГИБДД.РФ»
есть элементы JS, а значит, что VIN номер не передать через адресную
строку.

Зайдите в браузер, откройте инструементы разработчика, вкладку сеть, нажмите на кнопку проверки VIN. Увидите, что отправляется запрос с url https://сервис.гибдд.рф/proxy/check/auto/history и телом {vin: 'vin', checkType: 'history'} Повторяете такой же запрос с помощью requests или может scrapy, распараллелив запросы при этом, чтобы они запускались одновременно, и проверяете все 70 тысяч VIN-ов за 10 минут, а не за:

количество полученных VIN-номеров в день – 7-8 тысяч. То есть на 10
компьютерах 70 тысяч VIN -номеров можно пропарсить за один день.

NewTechAudit Mar 22 2022 at 11:26

По ip не забанили, думаю им не выгодно, так как я просматриваю рекламу при каждом её появлении. Может позже это пофиксят. Через request вполне могут забанить, но стоит попробовать, спасибо!

eliseev_pv Apr 3 2022 at 15:55

requests - не получиться, на сайте reCaptcha v3 которое и при каждом запросе анализируются отправленные данные и если score < 0.7 то в ответе будет информация что вы не прошли проверку. Так что за 10 минут распарсить 70 тысяч винов я уверен что будет не так просто и не за 10 мин тем более...

igorzakhar Mar 21 2022 at 15:53

Открывается новое окно webdriver, после чего запускается сайт со следующим содержанием:

После этого предложения, возможно, должен быть какой-то скриншот, но в статье его нет.

DrunkenMasrer Mar 22 2022 at 10:52

Скриншот перед текстом, видимо, съехал

igorzakhar Mar 22 2022 at 10:57

Кстати, да, упустил этот момент. Уже исправлено.

eliseev_pv Mar 23 2022 at 19:30

Geminix Mar 21 2022 at 18:32

Scrapy не пробовали?

NewTechAudit Mar 22 2022 at 11:27

Не пробовал.

El_Romario Mar 29 2023 at 10:26

Объясните дилетанту, пожалуйста, для чего совместно использовать selenium и beautifullSoup? Ведь у них пересекающийся функционал.

PanDubls Jul 20 2023 at 13:44

Прошло 4 месяца, но вдруг ещё актуально: по крайней мере поиск элемента по содержимому страницы в selenium существенно медленнее, чем в beautifullSoup. То есть, если вам надо достать пару сотен нод с одной страницы, то быстрее будет её открыть селениумом, потом передать в суп и уже там искать содержимое. К тому же, страница в selenium изменяется в режиме реального времени, и если у вас есть опасение, что содержимое страницы может измениться до того, как вы из него достанете нужную информацию (например, там какая-нибудь обновляющаяся лента висит), то надёжнее передать в суп, где она будет зафиксирована, и уже там препарировать.

Show the best of all time