Python - "спим" при парсинге сайтов



При парсинге, самое важное, что-бы вас не забанили. Для этого программа должна вести себя как человек.


Задача:
Стянуть информацию с разных страниц одного сайта и не поймать бан.

Решение:
Создаём несколько команд с обращение к странице. Количество команд равна количеству страниц. Между запросами отправляем нашего Питона немного поспать.

Прикручиваем нужные библиотеки:
import requests from time import sleep from random import randint


Requests - Чтобы собрать информацию с сайта
Sleep - Чтобы "усыпить" Питона
Randint - Для рандомального времени

Пример кода:
import requests from time import sleep from random import randint collected_data_1 = requests.get("http://zlomorda.net/test1.html") sleep(randint(3, 8)) collected_data_2 = requests.get("http://zlomorda.net/test2.html") sleep(randint(3, 8)) collected_data_3 = requests.get("http://zlomorda.net/test3.html")

- Обращаемся к первой странице
- Спим от 3-х до 8-и секунд
- Обращаемся ко второй странице
- Спим от 3-х до 8-и секунд
- Обращаемся к третьей странице

Всё, дальше обрабатываем данные.

Всем удачи!!

Комментариев нет:

Отправка комментария