当前位置：首页 > article >正文

Python 爬虫selenium

article 2026/4/13 2:26:04

1.selenium自动化

selenium可以操作浏览器，在浏览器页面上实现：点击、输入、滑动等操作。

不同于selenium自动化，逆向本质是：

分析请求，例如：请求方法、请求参数、加密方式等。
用代码模拟请求去实现同等功能。

逆向 vs 自动化Selenium

Selenium，【优】简单不需要逆向，只需要控制浏览器去执行预设的操作即可；【缺点】性能差，不利于批量实现
逆向，【优】算法逆向出来后，性能好且利于批量实现；【缺点】语法难搞的js加密算法，不容易逆向

2.必备操作

2.1 模块 & 驱动

安装模块
```
pip install selenium
```

下载驱动

Selenium想要控制谷歌、火狐、IE、Edage等浏览器，必须要使用对应的驱动才行。【Selenium】->【驱动】->【浏览器】【Selenium】->【火狐驱动】->【火狐浏览器】【Selenium】->【谷歌驱动】->【谷歌浏览器】谷歌驱动的下载：114及之前版本： http://chromedriver.storage.googleapis.com/index.html117/118/119版本： https://googlechromelabs.github.io/chrome-for-testing/浏览器版本的获取：在谷歌浏览器上访问 chrome://version/   例如：119.0.6045.200 (正式版本) （64 位） (cohort: Stable)

快速使用

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Serviceservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://passport.bilibili.com/login')time.sleep(5)
driver.close()

2.2 寻找标签

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import Byservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('打开网址')# find_element  find_elements
tag = driver.find_element(By.ID, "user")
tag = driver.find_element(By.CLASS_NAME, "c1")
tag = driver.find_element(By.TAG_NAME, "div")
tag = driver.find_element(By.XPATH, "/html/body/div[1]/div/div[2]/div[3]/div[3]/div/div/div/div[1]/span[2]")
tag = driver.find_element(By.XPATH, '//*[@id="geetest-wrap"]//input[@name="tel"]')tag_list = driver.find_elements(By.XPATH, "/html/body/div/div[2]/div/div[2]/div/div[2]/div[2]/div/div/div/div/div[2]/a")
for tag in tag_list:print(tag)time.sleep(5)
driver.close()

示例：5xclass.cn

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import Byservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://www.5xclass.cn/')# 根据ID寻找
tag = driver.find_element(By.ID, "bs-example-navbar-collapse-1")
print(tag.text)
print(10 * "-")# 根据类名寻找
tags = driver.find_elements(By.CLASS_NAME, "panel-heading")
for tag in tags:print(tag.text)
print(10 * "-")# 根据标签名称寻找
tags = driver.find_elements(By.TAG_NAME, "li")
for tag in tags:print(tag.text)
print(10 * "-")# 根据XPATH寻找
tag = driver.find_element(By.XPATH, "/html/body/div/div[2]/div/div[2]/div/div[2]/div[1]")
print(tag.text)
print(10 * "-")# 根据XPATH寻找
tag = driver.find_element(By.XPATH, '//*[@id="bs-example-navbar-collapse-1"]/ul[1]/li[1]/a')
print(tag.text)
print(10 * "-")# 根据XPATH寻找多个
tags = driver.find_elements(By.XPATH, '/html/body/div/div[2]/div/div[2]/div/div[2]/div[2]/div/div/div/div/div[2]/a')
for tag in tags:print(tag.text)
print(10 * "-")# 根据父子关系嵌套寻找
parent = driver.find_element(By.XPATH, '/html/body/div/div[2]/div/div[2]/div/div[2]/div[2]/div/div/div/div')
tags = parent.find_elements(By.XPATH, "div[@class='course']/a")
for tag in tags:print(tag.text)time.sleep(5)
driver.close()

2.3 执行操作

常见的执行操作：点击、输入

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import Byservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://passport.bilibili.com/login')# 1.点击短信登录
time.sleep(3)
sms_btn = driver.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
)
sms_btn.click()  # 点击# 2.输入账号
phone_txt = driver.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[2]/div[1]/div[1]/input'
)
phone_txt.send_keys("18630087660")  # 输入time.sleep(55)
driver.close()

2.4 执行JavaScript

如果【选择标签】【执行操作】这种操作起来比较繁琐，也可以直接在页面上去执行js代码实现功能。

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import Byservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://passport.bilibili.com/login')# #############  1.点击短信登录 #############
time.sleep(3)
sms_btn = driver.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
)
sms_btn.click()# #############  2.输入账号 #############
phone_txt = driver.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[2]/div[1]/div[1]/input'
)
phone_txt.send_keys("18630087660")# ############# 3.选择国家 #############
time.sleep(2)
driver.execute_script('document.querySelector(".area-code-select").children[18].click()')# ############# 4.读取cookie #############
data_string = driver.execute_script('return document.cookie;')   # return document.title;
print(data_string)# ############# 5.读取cookie #############
cookie_list = driver.get_cookies()
print(cookie_list)time.sleep(2550)
driver.close()

2.5 等待

如果页面加载比较慢，需要等待某个元素加载成功后，再执行某些操作。

示例1：基于lambda表达式

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.wait import WebDriverWaitservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://passport.bilibili.com/login')# #############  方式1：点击短信登录 #############
time.sleep(3)
sms_btn = driver.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
)
sms_btn.click()# #############  方式2：点击短信登录（推荐） #############
sms_btn = WebDriverWait(driver, 30, 0.5).until(lambda dv: dv.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
))
sms_btn.click()

示例2：自定义函数

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.wait import WebDriverWaitservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://passport.bilibili.com/login')def func(dv):print("无返回值，则间隔0.5s执行一次此函数；如有返回值，则复制给sms_btn变量")# <div xxx="123" id="uuu"></div># <img src="..."/>tag = dv.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]')img_src = tag.get_attribute("xxx")if img_src:return tagreturnsms_btn = WebDriverWait(driver, 30, 0.5).until(func)
sms_btn.click()time.sleep(250)
driver.close()

2.4 执行JavaScript

如果【选择标签】【执行操作】这种操作起来比较繁琐，也可以直接在页面上去执行js代码实现功能。

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import Byservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://passport.bilibili.com/login')# #############  1.点击短信登录 #############
time.sleep(3)
sms_btn = driver.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
)
sms_btn.click()# #############  2.输入账号 #############
phone_txt = driver.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[2]/div[1]/div[1]/input'
)
phone_txt.send_keys("18630087660")# ############# 3.选择国家 #############
time.sleep(2)
driver.execute_script('document.querySelector(".area-code-select").children[18].click()')# ############# 4.读取cookie #############
data_string = driver.execute_script('return document.cookie;')   # return document.title;
print(data_string)# ############# 5.读取cookie #############
cookie_list = driver.get_cookies()
print(cookie_list)time.sleep(2550)
driver.close()

2.5 等待

如果页面加载比较慢，需要等待某个元素加载成功后，再执行某些操作。

示例1：基于lambda表达式

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.wait import WebDriverWaitservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://passport.bilibili.com/login')# #############  方式1：点击短信登录 #############
time.sleep(3)
sms_btn = driver.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
)
sms_btn.click()# #############  方式2：点击短信登录（推荐） #############
sms_btn = WebDriverWait(driver, 30, 0.5).until(lambda dv: dv.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]'
))
sms_btn.click()

示例2：自定义函数

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.wait import WebDriverWaitservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://passport.bilibili.com/login')def func(dv):print("无返回值，则间隔0.5s执行一次此函数；如有返回值，则复制给sms_btn变量")# <div xxx="123" id="uuu"></div># <img src="..."/>tag = dv.find_element(By.XPATH,'//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]')img_src = tag.get_attribute("xxx")if img_src:return tagreturnsms_btn = WebDriverWait(driver, 30, 0.5).until(func)
sms_btn.click()time.sleep(250)
driver.close()

示例3：全局配置

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import Byservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)# 后续找元素时，没找到时则等待10去寻找（一旦找到则继续）
driver.implicitly_wait(30)driver.get('https://passport.bilibili.com/login')sms_btn = driver.find_element(By.XPATH,# '//*[@id="app"]/div[2]/div[2]/div[3]/div[1]/div[3]''//*[@id="xxxxxxxxxapp"]/div[2]/div[2]/div[3]/div[1]/div[3]'
)
sms_btn.click()
print("找到了")
time.sleep(250)
driver.close()

2.6 获取值

当找到某个标签之后，想要获取标签内部值。

示例1：文本和属性

例如：<a id='x1' class="info mine" href="5xclass.cn">武沛齐</a>

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
service = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.implicitly_wait(10)driver.get('https://www.5xclass.cn')tag = driver.find_element(By.XPATH,'/html/body/div/div[2]/div/div[2]/div/div[2]/div[2]/div/div/div/div/div[2]/a[1]'
)
print(tag.text)
print(tag.get_attribute("target"))
print(tag.get_attribute("data-toggle"))driver.close()

示例2：获取值

例如：<input type='text' value="?" placeholder="?" />

例如：<select ><option value='1'>北京</option> </option value='2'>上海</option> </select> ，获取select标签的value属性

import timefrom selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import Byservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.implicitly_wait(10)driver.get('https://www.bilibili.com/')time.sleep(10)tag = driver.find_element(By.XPATH,'//*[@id="nav-searchform"]/div[1]/input'
)
print(tag)
print(tag.text)
print(tag.get_attribute("placeholder"))
print(tag.get_attribute("value"))time.sleep(1000)
driver.close()

示例3：选择相关

<input type="radio" name="findcar" value="1" checked="">新车
<input type="radio" name="findcar" value="2">二手机

import timefrom selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import Byservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.implicitly_wait(10)driver.get('https://www.autohome.com.cn/beijing/')# ############### 1.单独找到每一个 ###############
tag = driver.find_element(By.XPATH,'/html/body/div[1]/div[11]/div[2]/div[1]/div[1]/label[1]/span/input'
)
print(tag.get_property("checked")) # Truetag = driver.find_element(By.XPATH,'/html/body/div[1]/div[11]/div[2]/div[1]/div[1]/label[2]/span/input'
)
print(tag.get_property("checked")) # False# ############### 2.循环找到每一个 ###############
parent = driver.find_element(By.XPATH,'/html/body/div[1]/div[11]/div[2]/div[1]/div[1]'
)tag_list = parent.find_elements(By.XPATH,'label/span/input'
)
for tag in tag_list:print( tag.get_property("checked"), tag.get_attribute("value") )driver.close()

2.7 源码+bs4

打开页面后，如果基于selenium不太容易定位和寻找，也可以结合bs4来进行寻找。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoupservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)
driver.implicitly_wait(10)driver.get('https://car.yiche.com/')html_string = driver.page_sourcesoup = BeautifulSoup(html_string, features="html.parser")
tag_list = soup.find_all(name="div", attrs={"class": "item-brand"})
for tag in tag_list:child = tag.find(name='div', attrs={"class": "brand-name"})print(child.text)driver.close()

2.8 携带Cookie

driver.add_cookie({'name': 'foo', 'value': 'bar'})

import timefrom selenium import webdriver
from selenium.webdriver.chrome.service import Serviceservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)# 注意：一定要先访问，不然Cookie无法生效
driver.get('https://dig.chouti.com/about')# 加cookie
driver.add_cookie({'name': 'token','value': 'eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNDU3OTI2NDUxNTUiLCJleHBpcmUiOiIxNzA0MzI5NDY5OTMyIn0.8n_tWcEHXsBSXWIY9rBoGWwaLPF8iWIruryhKTe5_ks'
})# 再访问
driver.get('https://dig.chouti.com/')time.sleep(2000)
driver.close()

2.9 IP检测和代理

如果网站进行了IP访问限制，例如：每个IP每天只能操作5次。此时可以选择购买IP，然后在请求时添加代理IP即可，具体步骤：

购买IP
登录购买IP渠道的后台，配置自己IP白名单
代码携带代理

import time
import requests
from selenium import webdriver
from selenium.webdriver.chrome.service import Service# 换成自己生成的代理
res = requests.get(url="https://dps.kdlapi.com/api/getdps/?secret_id=o60wwtxvs5ukaqqz18ai&num=1&signature=i6s9shfjfiogat5ijecbyfwwc5grwrzj&pt=1&format=json&sep=1")
proxy_string = res.json()['data']['proxy_list'][0]
print(f"获取代理：{proxy_string}") # "182.106.136.218:40192"service = Service("driver/chromedriver.exe")opt = webdriver.ChromeOptions()
# opt.add_argument(f'--proxy-server=222.89.70.40:40001')  # 代理
opt.add_argument(f'--proxy-server={proxy_string}')  # 代理
driver = webdriver.Chrome(service=service, options=opt)driver.get('https://myip.ipip.net/')time.sleep(2000)
driver.close()

2.10 特征检测

有些网站为了防止selenium，会检测特征，并禁止访问。

如果想要正常使用selenium访问，那就需要隐藏浏览器相关的特征。

import time
import requests
from selenium import webdriver
from selenium.webdriver.chrome.service import Serviceservice = Service("driver/chromedriver.exe")opt = webdriver.ChromeOptions()opt.add_argument('--disable-infobars')
opt.add_experimental_option("excludeSwitches", ["enable-automation"])
opt.add_experimental_option('useAutomationExtension', False)driver = webdriver.Chrome(service=service, options=opt)# Selenium在打开任何页面之前，先运行这个Js文件。
with open('driver/hide.js') as f:driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": f.read()})driver.get('https://www.5xclass.cn')time.sleep(2000)
driver.close()

2.11 无头和其他

如果不想显示展示在浏览器上的操作，只想偷偷的在后台运行。

opt.add_argument('--headless')

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Serviceservice = Service("driver/chromedriver.exe")
opt = webdriver.ChromeOptions()
opt.add_argument('--headless')
driver = webdriver.Chrome(service=service, options=opt)driver.get('https://www.5xclass.cn')
tag = driver.find_element(By.XPATH,'/html/body/div/div[2]/div/div[2]/div/div[2]/div[2]/div/div/div/div/div[2]/a[1]'
)
print(tag.text)
print(tag.get_attribute("target"))
print(tag.get_attribute("data-toggle"))driver.close()

其他配置：

opt.add_argument('--disable-infobars')                    # 禁止策略化
opt.add_argument('--no-sandbox')                          # 解决DevToolsActivePort文件不存在的报错
opt.add_argument('window-size=1920x3000')                 # 指定浏览器分辨率
opt.add_argument('--disable-gpu')                         # 谷歌文档提到需要加上这个属性来规避bug
opt.add_argument('--incognito')                           # 隐身模式（无痕模式）
opt.add_argument('--disable-javascript')                  # 禁用javascript
opt.add_argument('--start-maximized')                     # 最大化运行（全屏窗口）,不设置，取元素会报错
opt.add_argument('--hide-scrollbars')                     # 隐藏滚动条, 应对一些特殊页面
opt.add_argument('lang=en_US')                            # 设置语言
opt.add_argument('blink-settings=imagesEnabled=false')    # 不加载图片, 提升速度
opt.add_argument('User-Agent=Mozilla/5.0 (Linux; U; Androi....')      # 设置User-Agent
opt.binary_location = r"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe"  # 手动指定使用的浏览器位置

2.12 截屏

找到某个标签后，可以通过截图的形式保存图片。

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Serviceservice = Service("driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)driver.get('https://www.5xclass.cn')
tag = driver.find_element(By.XPATH,'/html/body/div/div[2]/div/div[2]/div/div[2]'
)# 截图&保存
tag.screenshot("demo.png")# 截图&图片内容
body = tag.screenshot_as_png
print(body)# 截图&Base64编码格式图片内容
b64_body = tag.screenshot_as_base64
print(b64_body)driver.close()

3.案例：x东搜索

import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service# 换成自己生成的代理
res = requests.get(url="https://dps.kdlapi.com/api/getdps/?secret_id=o60wwtxvs5ukaqqz18ai&num=1&signature=i6s9shfjfiogat5ijecbyfwwc5grwrzj&pt=1&format=json&sep=1")
proxy_string = res.json()['data']['proxy_list'][0]
print(f"获取代理：{proxy_string}")service = Service("driver/chromedriver.exe")
opt = webdriver.ChromeOptions()opt.add_argument(f'--proxy-server={proxy_string}')  # 代理
opt.add_argument('blink-settings=imagesEnabled=false') # 不加载图片opt.add_argument('--disable-infobars')
opt.add_experimental_option("excludeSwitches", ["enable-automation"])
opt.add_experimental_option('useAutomationExtension', False)driver = webdriver.Chrome(service=service, options=opt)driver.implicitly_wait(10)with open('driver/hide.js') as f:driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": f.read()})# 1.打开京东
driver.get('https://www.jd.com/')# 2.搜索框+输入
tag = driver.find_element(By.XPATH,'//*[@id="key"]'
)
tag.send_keys("iphone手机")# 3.点击搜索
tag = driver.find_element(By.XPATH,'//*[@id="search"]/div/div[2]/button'
)
tag.click()# 4.查询列表
tag_list = driver.find_elements(By.XPATH,'//*[@id="J_goodsList"]/ul/li'
)
for tag in tag_list:# title = tag.find_element(By.XPATH, 'div/div[@class="p-name p-name-type-2"]//em').texttitle = tag.find_element(By.XPATH, 'div/div[@class="p-name p-name-type-2"]/a/em').textprint(title)driver.close()

4.案例：x麦网

import timeimport requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service# 换成自己生成的代理
res = requests.get(url="https://dps.kdlapi.com/api/getdps/?secret_id=o60wwtxvs5ukaqqz18ai&num=1&signature=i6s9shfjfiogat5ijecbyfwwc5grwrzj&pt=1&format=json&sep=1")
proxy_string = res.json()['data']['proxy_list'][0]
print(f"获取代理：{proxy_string}")service = Service("driver/chromedriver.exe")
opt = webdriver.ChromeOptions()
opt.add_argument(f'--proxy-server={proxy_string}')  # 代理
opt.add_argument('blink-settings=imagesEnabled=false')
opt.add_argument('--disable-infobars')
opt.add_experimental_option("excludeSwitches", ["enable-automation"])
opt.add_experimental_option('useAutomationExtension', False)
driver = webdriver.Chrome(service=service, options=opt)
driver.implicitly_wait(10)
with open('driver/hide.js') as f:driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": f.read()})# 1.打开大麦网
driver.get('https://www.damai.cn/')# 2.搜索框+输入
tag = driver.find_element(By.XPATH,'//input[@class="input-search"]'
)
tag.send_keys("周杰伦")# 3.点击搜索
tag = driver.find_element(By.XPATH,'//div[@class="btn-search"]'
)
tag.click()# 4.查询列表
tag_list = driver.find_elements(By.XPATH,'//div[@class="search__itemlist"]//div[@class="items"]'
)
for tag in tag_list:title = tag.find_element(By.XPATH, 'div[@class="items__txt"]/div[1]/a').textprint(title)time.sleep(2000)
driver.close()

如果不加代理，访问频繁时会提示验证码

Python 爬虫selenium

1.selenium自动化 selenium可以操作浏览器，在浏览器页面上实现：点击、输入、滑动等操作。不同于selenium自动化，逆向本质是： 分析请求，例如：请求方法、请求参数、加密方式等。用代码模拟请求去实现同等…...

编程日记 2025/6/19 3:23:23

基础导出模板 const html <html><head><style>body {font-family: Times New Roman;}h1 {text-align: center;}table {border-collapse: collapse;width: 100%;color: #1118FF;font-weight: 600;}th,td {border: 1px solid black;padding: 8px;text-align: …...

编程日记 2026/4/7 8:21:03

【复现DeepSeek-R1之Open R1实战】系列8：混合精度训练、DeepSpeed、vLLM和LightEval介绍

这里写目录标题 1 混合精度训练1.1 FP16和FP321.2 优点1.3 存在的问题1.4 解决办法 2 DeepSpeed3 vLLM3.1 存在的问题3.2 解决方法3.2.1 PagedAttention3.2.2 KV Cache Manager3.2.3 其他解码场景 3.3 结论 4 LightEval4.1 主要功能4.2 使用方法4.3 应用场景本文继续深入了解O…...

编程日记 2026/4/10 0:25:56

从面试中的“漏掉步骤”谈自我表达与思维方式的转变

在今天的面试中，我遇到了一个让我深刻反思自己思维方式的问题。当面试官问到如何应对用户量和请求量逐渐增加时，我的回答遗漏了一些基础步骤，导致我给出了“我暂时想不出更好的反思”的回答。这一经历让我意识到，在面对问题时&…...

编程日记 2025/8/6 0:41:49

大模型面经：SFT和RL如何影响模型的泛化或记忆能力？

监督微调 (SFT) 和强化学习 (RL)都是目前大模型的基础模型后训练技术，像DeepSeek-R1、kimi等的训练方法都将两种技术应用到了极致。如何去设计训练步骤（先SFT再RL，还是直接RL）都需要对SFT和RL的能力有较深刻的了解。本篇就以面…...

编程日记 2026/4/8 14:46:07

力扣-回溯-17 电话号码的字母组合

思路和之前的回溯不同的是，要遍历完所有的数字，并且在单层递归逻辑里需要遍历一整个字符串代码 class Solution { public:vector<string> letters {"", "", "abc", "def", "ghi", "…...

编程日记 2025/6/21 11:09:39

大模型幻觉

1.什么是大模型幻觉？在语言模型的背景下，幻觉指的是一本正经的胡说八道：看似流畅自然的表述，实则不符合事实或者是错误的。幻觉现象的存在严重影响LLM应用的可靠性，本文将探讨大型语言模型(LLMs)的幻觉问题，以及解决幻觉现象的一些常见方法。 2.为什么需要解决LLM的…...

编程日记 2025/8/19 4:31:03

2025-02-20 学习记录--C/C++-PTA 7-27 冒泡法排序

一、题目描述 ⭐️ 二、代码（C语言）⭐️ /** * 冒泡法实现升序 */#include <stdio.h>int main() {int N, // 整数个数 6K, // 扫描遍数 2num, // 待排序的整数 2 3 5 1 6 4numArr[100], // 待排序的整数合集 2 3 5 1…...

编程日记 2026/4/10 17:37:34

RK3588配置成为路由器

文章目录前言一、配置netplan二、安装hostapd1.创建hostapd.conf文件2.安装软件3.修改启动文件4.修改/etc/default/hostapd 文件三、安装dnsmasq服务四、配置NET及重启验证五、常见问题总结前言 RK3588开发板有两个网口，一个无线网卡。我需要配置为家用路由器模…...

编程日记 2026/4/10 0:47:32

【数据挖掘】--算法

【数据挖掘】--算法目录：1. 缺失值和数值属性处理1缺失值处理： 2. 用于文档分类的朴素贝叶斯3. 分治法：建立决策树4. 覆盖算法建立规则5. 挖掘关联规则6. 线性模型有效寻找最近邻暴力搜索（Brute-Force Search）kd树&am…...

编程日记 2026/4/9 0:02:58

Huatuo热更新--如何使用

在安装完huatuo热更新插件后就要开始学习如何使用了。 1.创建主框渐Main 新建文件夹Main（可自定义），然后按下图创建文件，注意名称与文件夹名称保持一致然后新建场景（Init场景），添加3个空物体…...

编程日记 2026/4/9 22:02:33

基于Django快递物流管理可视化分析系统（完整系统源码+数据库+详细开发文档+万字详细论文+答辩PPT+详细部署教程等资料）

文章目录基于Django快递物流管理可视化分析系统（完整系统源码数据库详细开发文档万字详细论文答辩PPT详细部署教程等资料）一、项目概述二、项目说明三、研究意义四、系统设计技术架构五、功能实现六、完整系统源码数据库详细开发文档万字详细论文答辩P…...

编程日记 2026/4/9 22:48:03

基于射频开关选择的VNA校准设计

活动发起人小虚竹想对你说： 这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧&#xff01…...

编程日记 2026/4/12 10:34:58

解决本地模拟IP的DHCP冲突问题

解决 DHCP 冲突导致的多 IP 绑定失效问题前言续接上一篇在本机上模拟IP地址。在实际操作中，如果本机原有 IP（如 192.168.2.7）是通过 DHCP 自动获取的，直接添加新 IP（如 10.0.11.11）可能会导致 DHCP 服…...

编程日记 2026/4/11 12:52:33

ChromeDriver下载

平时为了下个驱动，到处找挺麻烦，收集了很多无偿分享给需要的人，仅供学习和交流。 ChromeDriver 102.0.5005.61 ChromeDriver 105.0.5195.102 ChromeDriver 108.0.5359.71 ChromeDriver 111.0.5563.64 ChromeDriver 116.0.5845.97 Chrom…...

编程日记 2025/11/6 17:50:32

springboot pagehelper分页插件封装

封装插件： 可自定义返回的Pages实体类参数 package com.wm.common;import com.github.pagehelper.ISelect; import com.github.pagehelper.Page; import com.github.pagehelper.PageHelper; import lombok.Data; import java.util.List;/*** 分页封装* param <…...

编程日记 2025/6/21 17:22:37

Elasticsearch7.1.1 配置密码和SSL证书

生成SSL证书 ./elasticsearch-certutil ca -out config/certs/elastic-certificates.p12 -pass 我这里没有设置ssl证书密码，如果需要设置密码，需要再配置给elasticsearch 在之前的步骤中，如果我们对elastic-certificates.p12 文件配置了密码…...

编程日记 2026/4/12 16:50:11

让win11右键默认显示更多选项

cmd / powershell 右键默认显示更多选项 reg.exe add "HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServer32" /f /ve 刷新，使配置生效（该命令需要cmd执行，powershell不行） …...

编程日记 2025/11/6 1:16:08

毕业项目推荐：基于yolov8/yolo11的100种中药材检测识别系统（python+卷积神经网络）

文章目录概要一、整体资源介绍技术要点功能展示：功能1 支持单张图片识别功能2 支持遍历文件夹识别功能3 支持识别视频文件功能4 支持摄像头识别功能5 支持结果文件导出（xls格式）功能6 支持切换检测到的目标查看二、数据集三、算法介绍1. YO…...

编程日记 2026/4/9 8:22:14

kill -9 结束某个用户所有进程的方式-linux019

1. 使用 pkill 命令 pkill 命令可以通过用户名直接终止该用户的所有进程。加上 -9 参数，表示强制结束进程。 pkill -9 -u XXXX 说明：这个命令会使用 SIGKILL 信号（即 kill -9）强制终止 ttlsa 用户的所有进程。 2. 使用 killal…...

编程日记 2025/12/24 13:33:50

自用题库---面试使用

1、css中如何实现水平垂直居中方法一：flex： display: flex; justify-content: center; align-item: center;方法二：绝对定位margin:auto: position: absolute; left: 0; right: 0; top: 0; bottom: 0; margin:auto;方法三：已…...

编程日记 2026/4/9 17:06:31

蓝桥杯好数

样例输入： 24 输出：7 输入：2024 输出： 150 思路：本题朴素方法的时间复杂度是O(n * log10(n)) ，不超时。主要考察能否逐位取数，注意细节pi，这样不会改变i,否则会导致循环错误。 #in…...

编程日记 2026/4/10 0:49:15

Jenkins 配置 Credentials 凭证

Jenkins 配置 Credentials 凭证一、创建凭证 Dashboard -> Manage Jenkins -> Manage Credentials 在 Domain 列随便点击一个 (global) 二、添加凭证点击左侧 Add Credentials 四、填写凭证 Kind：凭证类型 Username with password： 配置用…...

编程日记 2026/4/11 1:20:47

用openresty和lua实现壁纸投票功能

背景之前做了一个随机壁纸接口，但是不知道大家喜欢对壁纸的喜好，所以干脆在实现一个投票功能，让用户给自己喜欢的壁纸进行投票。原理说明 1.当访问http://demo.com/vote/时，会从/home/jobs/webs/imgs及子目录下获取图片列表&…...

编程日记 2026/4/11 16:38:34

Vue 监听属性（watch）

Vue 渐进式JavaScript 框架基于Vue2的学习笔记 - Vue 监听属性（watch） 目录监听属性监听值改变使用watch实现区别总结监听属性通过watch来响应数据的变化。虽然大多数情况计算属性都可以满足需要，但有时还是需要使用侦听器。…...

编程日记 2026/4/6 15:33:06

mysql查看binlog日志

mysql 配置、查看binlog日志： 示例为MySQL8.0 1、检查binlog开启状态 SHOW VARIABLES LIKE ‘log_bin’; 如果未开启，修改配置my.ini 开启日志安装目录配置my.ini(mysql8在data目录) log-binmysql-bin（开启日志并指定日志前缀&#xff…...

编程日记 2026/4/9 13:26:21

BiRefNet C++ TensorRT （二分类图像分割）

BiRefNet C TensorRT （二分类图像分割） 利用TensorRT和CUDA的双边参考网络（BiRefNet）的高性能c实现，针对实时高分辨率二分类图像分割进行了优化。 BiRefNet c TENSORRT旨在有效地在GPU上运行双边参考分割任务。通过利…...

编程日记 2026/4/9 21:40:53

蓝桥杯篇---IAP15F2K61S2矩阵键盘

文章目录前言简介矩阵键盘的工作原理1.行扫描2.检测列状态3.按键识别硬件连接1.行线2.列线矩阵键盘使用步骤1.初始化IO口2.扫描键盘3.消抖处理4.按键识别示例代码：4x4矩阵键盘扫描示例代码：优化后的矩阵键盘扫描注意事项1.消抖处理2.扫描频率3.IO口配…...

编程日记 2025/6/20 17:14:59

【ARM】MDK在编译 i.MXRT1芯片的时候出现报错Error: L6079E

1、文档目标解决MDK在编译 i.MXRT1芯片的时候出现报错Error: L6079E 2、问题场景客户在使用NXP 的NXP i.MXRT1050的芯片进行工程构建的时候出现下面的报错信息： Error: L6079E: Subtool invocation error: Error executing armcc. The system could not find…...

编程日记 2026/4/11 1:01:43

论文笔记（七十二）Reward Centering（二）

Reward Centering（二） 文章概括摘要2 简单的奖励中心文章概括引用： article{naik2024reward,title{Reward Centering},author{Naik, Abhishek and Wan, Yi and Tomar, Manan and Sutton, Richard S},journal{arXiv preprint arXiv:2405.0…...

编程日记 2026/4/10 7:43:07

1.selenium自动化

2.必备操作

2.1 模块 & 驱动

2.2 寻找标签

2.3 执行操作

2.4 执行JavaScript

2.5 等待

2.4 执行JavaScript

2.5 等待

2.6 获取值

2.7 源码+bs4

2.8 携带Cookie

2.9 IP检测和代理

2.10 特征检测

2.11 无头和其他

2.12 截屏

3.案例：x东搜索

4.案例：x麦网

相关文章：