python Гайд Ваш первый парсер на python. Ч3. Работа с либой Selenium. Продвинутый обход защиты от роботов

sunilia · 21.09.2024

Всем привет
Это третья часть гайда по парсеру на пайтон.
Сегодня расскжу про селениум, т.к. именно использование драйвера браузера помогает обходить ещё больше блокировок.

Установка Selenium
Для начала работы с Selenium необходимо установить библиотеку. Используйте следующую команду:

Bash:

 pip install selenium

Также вам понадобится драйвер для выбранного браузера (например, ChromeDriver для Google Chrome). Для установки ChromeDriver на Ubuntu или MacOS можно воспользоваться командой:

Bash:

 sudo apt-get install chromium-chromedriver

Для Windows загрузите ChromeDriver с официального сайта и добавьте его в переменную окружения PATH.

Простой пример использования Selenium
Допустим, вы хотите автоматизировать открытие страницы Google и ввод поискового запроса. Пример кода:

Python:

 from selenium import webdriver
 from selenium.webdriver.common.keys import Keys

#Указываем путь к драйверу, если он не в PATH
driver = webdriver.Chrome()

#Открываем страницу Google
driver.get("https://www.google.com")

#Находим поле для ввода текста по его имени
search_box = driver.find_element("name", "q")

#Вводим запрос
search_box.send_keys("Selenium Python") search_box.send_keys(Keys.RETURN)

#Закрываем браузер
driver.quit()

В этом примере мы:

Открыли браузер и перешли на сайт Google.
Нашли элемент поля ввода по его атрибуту name="q".
Ввели текст в поле и отправили запрос.
Закрыли браузер.
Управление элементами на странице
Selenium предоставляет широкий набор методов для взаимодействия с элементами веб-страницы, такими как кнопки, чекбоксы, выпадающие списки и т.д. Например, чтобы кликнуть по кнопке:

Python:

 from selenium import webdriver

driver = webdriver.Chrome()

#Открываем страницу
driver.get("https://www.example.com")

#Находим кнопку по её ID и кликаем по ней
button = driver.find_element("id", "submit_button") button.click()

driver.quit()

Ожидание загрузки элементов
Иногда необходимо подождать, пока элемент появится на странице, например, при динамической подгрузке данных. Selenium поддерживает явные и неявные ожидания.

Неявные ожидания
Неявные ожидания позволяют Selenium подождать заданное количество времени перед тем, как выбросить исключение при отсутствии элемента:

Python:

 from selenium import webdriver

driver = webdriver.Chrome()

#Устанавливаем неявное ожидание на 10 секунд
driver.implicitly_wait(10)

driver.get("https://www.example.com") search_box = driver.find_element("name", "q")

driver.quit()

Явные ожидания
Явные ожидания позволяют ожидать конкретного условия, например, когда элемент станет кликабельным:

Python:

 from selenium import webdriver
 from selenium.webdriver.common.by import By
 from selenium.webdriver.support.ui import WebDriverWait
 from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()

driver.get("https://www.example.com")

# Ожидаем, пока элемент не станет кликабельным (максимум 10 секунд)
element = WebDriverWait(driver, 10).until( EC.element_to_be_clickable((By.ID, "submit_button")) ) element.click()

driver.quit()

Скриншоты страницы
Selenium также позволяет делать скриншоты страницы, что полезно для тестирования:

Python:

 from selenium import webdriver

driver = webdriver.Chrome() driver.get("https://www.example.com")

# Делаем скриншот и сохраняем его
driver.save_screenshot("screenshot.png")

driver.quit()

Работа с выпадающими списками
Для работы с выпадающими списками можно использовать класс Select. Пример:

Python:

 from selenium import webdriver
 from selenium.webdriver.support.ui import Select

driver = webdriver.Chrome() 
driver.get("https://www.example.com")

# Находим выпадающий список по его ID
dropdown = Select(driver.find_element("id", "dropdown"))

# Выбираем опцию по видимому тексту
dropdown.select_by_visible_text("Option 1")

driver.quit()

Эти методы помогут вам обойти "активную" защиты от роботов, такую как проверка js скриптов

mistral · 21.09.2024

Спасибо за гайды!
Очень жду гайдов для обхода более сложной защиты
по типу CAPTCHA от google

NilatB · 22.09.2024

Гайд топ. Ни раз сталкивался с защитой и приходилось кастылять что-то, а тут сразу нашел то что мне было еще давно нужно!

TBoU_[b]aTR · 22.09.2024

Базированный гайд по selenium, для большей конфиденциальности можно заменить chromedriver на geckodriver и накачать расширений типа uBlock

aniflagg · 22.09.2024

Интересный гайд. Буду ждать ещё

fffffefv · 22.09.2024

Гайд топ очень понравился

marci2907 · 23.09.2024

sunilia сказал(а):
Всем привет
Это третья часть гайда по парсеру на пайтон.
Сегодня расскжу про селениум, т.к. именно использование драйвера браузера помогает обходить ещё больше блокировок.

Установка Selenium
Для начала работы с Selenium необходимо установить библиотеку. Используйте следующую команду:

Bash:

pip install selenium

Также вам понадобится драйвер для выбранного браузера (например, ChromeDriver для Google Chrome). Для установки ChromeDriver на Ubuntu или MacOS можно воспользоваться командой:

Bash:

sudo apt-get install chromium-chromedriver

Для Windows загрузите ChromeDriver с официального сайта и добавьте его в переменную окружения PATH.

Простой пример использования Selenium
Допустим, вы хотите автоматизировать открытие страницы Google и ввод поискового запроса. Пример кода:

Python:

from selenium import webdriver from selenium.webdriver.common.keys import Keys #Указываем путь к драйверу, если он не в PATH driver = webdriver.Chrome() #Открываем страницу Google driver.get("https://www.google.com") #Находим поле для ввода текста по его имени search_box = driver.find_element("name", "q") #Вводим запрос search_box.send_keys("Selenium Python") search_box.send_keys(Keys.RETURN) #Закрываем браузер driver.quit()

В этом примере мы:

Открыли браузер и перешли на сайт Google.
Нашли элемент поля ввода по его атрибуту name="q".
Ввели текст в поле и отправили запрос.
Закрыли браузер.
Управление элементами на странице
Selenium предоставляет широкий набор методов для взаимодействия с элементами веб-страницы, такими как кнопки, чекбоксы, выпадающие списки и т.д. Например, чтобы кликнуть по кнопке:

Python:

from selenium import webdriver driver = webdriver.Chrome() #Открываем страницу driver.get("https://www.example.com") #Находим кнопку по её ID и кликаем по ней button = driver.find_element("id", "submit_button") button.click() driver.quit()

Ожидание загрузки элементов
Иногда необходимо подождать, пока элемент появится на странице, например, при динамической подгрузке данных. Selenium поддерживает явные и неявные ожидания.

Неявные ожидания
Неявные ожидания позволяют Selenium подождать заданное количество времени перед тем, как выбросить исключение при отсутствии элемента:

Python:

from selenium import webdriver driver = webdriver.Chrome() #Устанавливаем неявное ожидание на 10 секунд driver.implicitly_wait(10) driver.get("https://www.example.com") search_box = driver.find_element("name", "q") driver.quit()

Явные ожидания
Явные ожидания позволяют ожидать конкретного условия, например, когда элемент станет кликабельным:

Python:

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Chrome() driver.get("https://www.example.com") # Ожидаем, пока элемент не станет кликабельным (максимум 10 секунд) element = WebDriverWait(driver, 10).until( EC.element_to_be_clickable((By.ID, "submit_button")) ) element.click() driver.quit()

Скриншоты страницы
Selenium также позволяет делать скриншоты страницы, что полезно для тестирования:

Python:

from selenium import webdriver driver = webdriver.Chrome() driver.get("https://www.example.com") # Делаем скриншот и сохраняем его driver.save_screenshot("screenshot.png") driver.quit()

Работа с выпадающими списками
Для работы с выпадающими списками можно использовать класс Select. Пример:

Python:

from selenium import webdriver from selenium.webdriver.support.ui import Select driver = webdriver.Chrome() driver.get("https://www.example.com") # Находим выпадающий список по его ID dropdown = Select(driver.find_element("id", "dropdown")) # Выбираем опцию по видимому тексту dropdown.select_by_visible_text("Option 1") driver.quit()

Эти методы помогут вам обойти "активную" защиты от роботов, такую как проверка js скриптов

Спасибо, очень полезно и информативно

sunilia · 26.09.2024

TBoU_[b]aTR сказал(а):
Базированный гайд по selenium, для большей конфиденциальности можно заменить chromedriver на geckodriver и накачать расширений типа uBlock

Что подразумеваете под большей конфиденциальностью?
Лучший вариант - использовать прокси/впн
А так у вас никакие данные ниоткуда не подтянутся, драйвер же открывается сессионно
Или это не так работает?

TBoU_[b]aTR · 26.09.2024

sunilia сказал(а):
Что подразумеваете под большей конфиденциальностью?
Лучший вариант - использовать прокси/впн
А так у вас никакие данные ниоткуда не подтянутся, драйвер же открывается сессионно
Или это не так работает?

Если драйвер одновременно используется для парсинга разных сайтов или сайтов с обилием рекламных метрик, притом требуется оставлять как можно меньше информации о себе, то неплохо бы подключать различные "конфиденциальные" расширения Firefox, например, uBlock, Canvas Defender или Switch UserAgent. Более того, почти никто не пользуется браузерами без расширений, их наличие в парсере — дополнение робота, и так великолепно имитирующего поведение человека в интернете, до состояния, почти неотличимого от человеческого

duddos33 · 26.09.2024

полезная инфа, автору респект

kadattal · 05.10.2024

Так это получается можно еще и ботов делать, которые не просто запросы шлют. Круто круто!

megamegadandan · 06.10.2024

Спасибо за гайд! Интересно

slava_e · 24.02.2025

кто смотрел, напишите, пожалуйста, рассмотрен ли в гайде обход cloudflare

sunilia · 25.02.2025

slava_e сказал(а):
кто смотрел, напишите, пожалуйста, рассмотрен ли в гайде обход cloudflare

да, обходит, это же селениум
установите корректный payload

deddDD2ww · 02.03.2025

Спасибо за гайд, очень полезный, жду еще

python Гайд Ваш первый парсер на python. Ч3. Работа с либой Selenium. Продвинутый обход защиты от роботов

sunilia

Последние темы в этом разделе:

mistral

NilatB

TBoU_[b]aTR

aniflagg

fffffefv

marci2907

sunilia

TBoU_[b]aTR

duddos33

kadattal

megamegadandan

slava_e

sunilia

deddDD2ww

Поиск по форуму

Похожие темы:

python Гайд Ваш первый парсер на python. Ч3. Работа с либой Selenium. Продвинутый обход защиты от роботов

Последние темы в этом разделе:

Поиск по форуму

Похожие темы:

Privacy & Transparency

Privacy & Transparency