Selenium 全面指南

Selenium 是一个强大的 Web 自动化工具，支持多种浏览器和语言绑定。

1. Selenium 的基本概念

WebDriver：Selenium 提供的核心接口，用于控制浏览器操作。
显式等待：等待特定条件满足后再执行操作。
隐式等待：全局设置一个等待时间，针对所有操作生效。
定位器（Locators）：用于定位页面元素的方法，如 ID、XPath、CSS 选择器等。

2. Selenium 的主要模块及 API

2.1 WebDriver

WebDriver 是 Selenium 的核心，用于与浏览器进行交互。

2.1.1 初始化浏览器

from selenium import webdriver

# 启动 Chrome 浏览器
driver = webdriver.Chrome()

# 打开指定网址
driver.get("https://www.example.com")

# 最大化窗口
driver.maximize_window()

# 关闭浏览器
driver.quit()

2.1.2 浏览器导航

driver.get("https://www.example.com")  # 打开网址
driver.back()  # 后退
driver.forward()  # 前进
driver.refresh()  # 刷新页面

2.2 定位元素

Selenium 提供多种方法来定位网页中的元素：

2.2.1 使用 `find_element` 和 `find_elements`

from selenium.webdriver.common.by import By

# 定位单个元素
element = driver.find_element(By.ID, "element_id")

# 定位多个元素
elements = driver.find_elements(By.CLASS_NAME, "class_name")

2.2.2 常用定位器

定位器	用法示例
ID	`driver.find_element(By.ID, "element_id")`
Name	`driver.find_element(By.NAME, "name")`
Class	`driver.find_element(By.CLASS_NAME, "class")`
Tag	`driver.find_element(By.TAG_NAME, "tag")`
CSS	`driver.find_element(By.CSS_SELECTOR, ".class")`
XPath	`driver.find_element(By.XPATH, "//tag[@attr='value']")`

2.3 操作页面元素

2.3.1 输入内容

element = driver.find_element(By.ID, "username")
element.send_keys("test_user")

2.3.2 点击按钮

button = driver.find_element(By.ID, "submit_button")
button.click()

2.3.3 清空输入框

input_field = driver.find_element(By.ID, "input_field")
input_field.clear()

2.3.4 获取元素属性

element = driver.find_element(By.ID, "logo")
print(element.get_attribute("src"))

2.3.5 获取元素文本

element = driver.find_element(By.ID, "welcome_message")
print(element.text)

2.4 等待

Selenium 提供显式等待和隐式等待来处理动态加载页面。

2.4.1 隐式等待

隐式等待是全局设置，等待元素加载完成。

driver.implicitly_wait(10)  # 全局等待 10 秒

2.4.2 显式等待

显式等待针对特定元素或条件设置。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待元素可见
element = WebDriverWait(driver, 10).until(
    EC.visibility_of_element_located((By.ID, "element_id"))
)

2.4.3 常用条件

条件	描述
`presence_of_element_located`	元素出现在 DOM 中，但不一定可见。
`visibility_of_element_located`	元素出现在 DOM 且可见。
`element_to_be_clickable`	元素可点击。
`url_changes`	页面 URL 发生变化。
`alert_is_present`	弹窗出现。

2.5 页面操作

2.5.1 窗口操作

# 获取当前窗口句柄
current_window = driver.current_window_handle

# 获取所有窗口句柄
all_windows = driver.window_handles

# 切换到新窗口
driver.switch_to.window(all_windows[1])

2.5.2 iframe 切换

# 切换到 iframe
driver.switch_to.frame("iframe_name")

# 返回主页面
driver.switch_to.default_content()

2.5.3 滚动页面

# 滚动到页面底部
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

2.6 Cookie 和 JavaScript

2.6.1 操作 Cookie

# 获取所有 Cookies
print(driver.get_cookies())

# 添加 Cookie
driver.add_cookie({"name": "test", "value": "123"})

# 删除 Cookie
driver.delete_cookie("test")

2.6.2 执行 JavaScript

driver.execute_script("alert('Hello, Selenium!')")

2.7 处理弹窗

# 等待弹窗出现
alert = WebDriverWait(driver, 10).until(EC.alert_is_present())

# 获取弹窗文本
print(alert.text)

# 接受弹窗
alert.accept()

3. 进阶技巧

3.1 动态 XPath

动态页面的元素属性可能变化，可以使用包含或正则表达式的 XPath：

element = driver.find_element(By.XPATH, "//button[contains(@class, 'submit')]")

3.2 验证页面加载完成

WebDriverWait(driver, 10).until(
    lambda d: d.execute_script("return document.readyState") == "complete"
)

4. 常见问题和解决方案

元素未找到
- 使用显式等待。
- 检查选择器是否正确。
元素不可交互
- 检查是否需要滚动或切换到 iframe。
- 确保元素可见。
动态加载内容
- 使用 WebDriverWait 处理延迟加载的内容。

5. 总结

Selenium 提供了丰富的 API，涵盖了浏览器操作、页面元素交互、动态等待等场景。熟练掌握这些 API，可以帮助我们轻松应对；爬虫、 Web 自动化测试的各种挑战。

1. Selenium 的基本概念

2. Selenium 的主要模块及 API

2.1 WebDriver

2.1.1 初始化浏览器

2.2 定位元素

2.2.1 使用 `find_element` 和 `find_elements`

2.2.2 常用定位器

2.3 操作页面元素

2.3.1 输入内容

2.3.2 点击按钮

2.3.3 清空输入框

2.3.4 获取元素属性

2.3.5 获取元素文本

2.4 等待

2.4.1 隐式等待

2.4.2 显式等待

2.4.3 常用条件

2.5 页面操作

2.5.1 窗口操作

2.5.2 iframe 切换

2.5.3 滚动页面

2.6 Cookie 和 JavaScript

2.6.1 操作 Cookie

2.6.2 执行 JavaScript

2.7 处理弹窗

3. 进阶技巧

3.1 动态 XPath

4. 常见问题和解决方案

5. 总结

Latest comments

Categories

1. Selenium 的基本概念

2. Selenium 的主要模块及 API

2.1 WebDriver

2.1.1 初始化浏览器

2.2 定位元素

2.2.1 使用 find_element 和 find_elements

2.2.2 常用定位器

2.3 操作页面元素

2.3.1 输入内容

2.3.2 点击按钮

2.3.3 清空输入框

2.3.4 获取元素属性

2.3.5 获取元素文本

2.4 等待

2.4.1 隐式等待

2.4.2 显式等待

2.4.3 常用条件

2.5 页面操作

2.5.1 窗口操作

2.5.2 iframe 切换

2.5.3 滚动页面

2.6 Cookie 和 JavaScript

2.6.1 操作 Cookie

2.6.2 执行 JavaScript

2.7 处理弹窗

3. 进阶技巧

3.1 动态 XPath

4. 常见问题和解决方案

5. 总结

Latest comments

2.2.1 使用 `find_element` 和 `find_elements`