При парсинге, самое важное, что-бы вас не забанили. Для этого программа должна вести себя как человек.
Задача:
Стянуть информацию с разных страниц одного сайта и не поймать бан.
Решение:
Создаём несколько команд с обращение к странице. Количество команд равна количеству страниц. Между запросами отправляем нашего Питона немного поспать.
Прикручиваем нужные библиотеки:
import requests
from time import sleep
from random import randint
Requests - Чтобы собрать информацию с сайта
Sleep - Чтобы "усыпить" Питона
Randint - Для рандомального времени
Пример кода:
import requests
from time import sleep
from random import randint
collected_data_1 = requests.get("http://zlomorda.net/test1.html")
sleep(randint(3, 8))
collected_data_2 = requests.get("http://zlomorda.net/test2.html")
sleep(randint(3, 8))
collected_data_3 = requests.get("http://zlomorda.net/test3.html")
- Обращаемся к первой странице
- Спим от 3-х до 8-и секунд
- Обращаемся ко второй странице
- Спим от 3-х до 8-и секунд
- Обращаемся к третьей странице
Всё, дальше обрабатываем данные.
Всем удачи!!
Комментариев нет:
Отправить комментарий