当前位置：首页 > news >正文

使用Python selenium爬虫领英数据，并进行AI岗位数据挖掘

news 2026/5/12 5:47:07

随着OpenAI大火，从事AI开发的人趋之若鹜，这次使用Python selenium抓取了领英上几万条岗位薪资数据，并使用Pandas、matplotlib、seaborn等库进行可视化探索分析。

但领英设置了一些反爬措施，对IP进行限制封禁，因此会用到IP代理，用不同的IP进行访问，我这里用的是亮数据的IP代理。

亮数据是一家提供网络数据采集解决方案的网站，它拥有全球最大的代理IP网络，覆盖超过195个国家和地区，拥有超过7200万个不重复的真人IP地址。

这些IP地址可以用于匿名浏览网页、绕过IP封锁、抓取网页数据等。

亮数据官网地址：

https://get.brightdata.com/weijun

另外，亮数据提供各种数据采集工具，帮助企业轻松采集网页数据。这些工具包括Web Scraper IDE、亮数据浏览器、SERP API等等。

下面是关于Python爬取领英的步骤和代码。

1、爬虫采集AI岗位数据-selenium&亮数据
2、处理和清洗数据-pandas
3、可视化数据探索-matplotlib seaborn

1、爬虫采集AI岗位数据-selenium&亮数据

# 导入相关库
import random
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import requests
import pandas as pd
from scripts.helpers import strip_val, get_value_by_path# 选择Edge浏览器
BROWSER = 'edge'# 创建网络会话，登录Linkedin
# create_session函数用于创建一个自动化的浏览器会话，并使用提供的电子邮件和密码登录LinkedIn。
# 它首先根据BROWSER变量选择相应的浏览器驱动程序（Chrome或Edge），然后导航到LinkedIn的登录页面，自动填写登录表单，并提交。
# 登录成功后，它会获取当前会话的cookies，并创建一个requests.Session对象来保存这些cookies，以便后续的HTTP请求可以保持登录状态。最后，它返回这个会话对象。
def create_session(email, password):if BROWSER == 'chrome':driver = webdriver.Chrome()elif BROWSER == 'edge':driver = webdriver.Edge()# 登录信息driver.get('https://www.linkedin.com/checkpoint/rm/sign-in-another-account')time.sleep(1)driver.find_element(By.ID, 'username').send_keys(email)driver.find_element(By.ID, 'password').send_keys(password)driver.find_element(By.XPATH, '//*[@id="organic-div"]/form/div[3]/button').click()time.sleep(1)input('Press ENTER after a successful login for "{}": '.format(email))driver.get('https://www.linkedin.com/jobs/search/?')time.sleep(1)cookies = driver.get_cookies()driver.quit()session = requests.Session()for cookie in cookies:session.cookies.set(cookie['name'], cookie['value'])return session# 获取登录账号和密码
def get_logins(method):logins = pd.read_csv('logins.csv')logins = logins[logins['method'] == method]emails = logins['emails'].tolist()passwords = logins['passwords'].tolist()return emails, passwords# JobSearchRetriever类用于检索LinkedIn上的职位信息。
# 它初始化时设置了一个职位搜索链接，并获取登录凭证来创建多个会话。
# 它还定义了一个get_jobs方法，该方法通过会话发送HTTP GET请求到LinkedIn的职位搜索API，获取职位信息，并解析响应以提取职位ID和标题。
# 如果职位被标记为赞助（即广告），它也会记录下来。
class JobSearchRetriever:def __init__(self):self.job_search_link = 'https://www.linkedin.com/voyager/api/voyagerJobsDashJobCards?decorationId=com.linkedin.voyager.dash.deco.jobs.search.JobSearchCardsCollection-187&count=100&q=jobSearch&query=(origin:JOB_SEARCH_PAGE_OTHER_ENTRY,selectedFilters:(sortBy:List(DD)),spellCorrectionEnabled:true)&start=0'emails, passwords = get_logins('search')self.sessions = [create_session(email, password) for email, password in zip(emails, passwords)]self.session_index = 0self.headers = [{'Authority': 'www.linkedin.com','Method': 'GET','Path': 'voyager/api/voyagerJobsDashJobCards?decorationId=com.linkedin.voyager.dash.deco.jobs.search.JobSearchCardsCollection-187&count=25&q=jobSearch&query=(origin:JOB_SEARCH_PAGE_OTHER_ENTRY,selectedFilters:(sortBy:List(DD)),spellCorrectionEnabled:true)&start=0','Scheme': 'https','Accept': 'application/vnd.linkedin.normalized+json+2.1','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'en-US,en;q=0.9','Cookie': "; ".join([f"{key}={value}" for key, value in session.cookies.items()]),'Csrf-Token': session.cookies.get('JSESSIONID').strip('"'),# 'TE': 'Trailers','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36',# 'X-Li-Track': '{"clientVersion":"1.12.7990","mpVersion":"1.12.7990","osName":"web","timezoneOffset":-7,"timezone":"America/Los_Angeles","deviceFormFactor":"DESKTOP","mpName":"voyager-web","displayDensity":1,"displayWidth":1920,"displayHeight":1080}''X-Li-Track': '{"clientVersion":"1.13.5589","mpVersion":"1.13.5589","osName":"web","timezoneOffset":-7,"timezone":"America/Los_Angeles","deviceFormFactor":"DESKTOP","mpName":"voyager-web","displayDensity":1,"displayWidth":360,"displayHeight":800}'} for session in self.sessions]# self.proxies = [{'http': f'http://{proxy}', 'https': f'http://{proxy}'} for proxy in []]# 添加亮数据代理IP# get_jobs函数用于发送HTTP请求到LinkedIn的职位搜索API，获取职位信息# 它使用当前会话索引来选择一个会话，并发送带有相应请求头的GET请求。如果响应状态码是200（表示请求成功）# 它将解析JSON响应，提取职位ID、标题和赞助状态，并将这些信息存储在一个字典中。def get_jobs(self):results = self.sessions[self.session_index].get(self.job_search_link, headers=self.headers[self.session_index]) #, proxies=self.proxies[self.session_index], timeout=5)self.session_index = (self.session_index + 1) % len(self.sessions)if results.status_code != 200:raise Exception('Status code {} for search\nText: {}'.format(results.status_code, results.text))results = results.json()job_ids = {}for r in results['included']:if r['$type'] == 'com.linkedin.voyager.dash.jobs.JobPostingCard' and 'referenceId' in r:job_id = int(strip_val(r['jobPostingUrn'], 1))job_ids[job_id] = {'sponsored': False}job_ids[job_id]['title'] = r.get('jobPostingTitle')for x in r['footerItems']:if x.get('type') == 'PROMOTED':job_ids[job_id]['sponsored'] = Truebreakreturn job_ids

2、处理和清洗数据-pandas

# 导入相关库
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud# 导入职位数据
job_postings = pd.read_csv('./archive/job_postings.csv')
job_postings# 根据AI岗位关键词筛选AI相关岗位
keywords = ['data scientist', 'machine learning', 'data science', 'data analyst', 'ml engineer',' data engineer','ai engineer','ai/ml','ai/nlp','ai reasearcher','ai consultant','artificial intelligence','computer vision','deep learning']# 新增一列，标注职位是否包含关键字
def check_keywords(description):for keyword in keywords:if keyword in str(description).lower():return 'AI岗位'return '非AI岗位'job_postings['is_programmer'] = job_postings['description'].apply(check_keywords)
# 保存AI岗位新表
job_ai = job_postings[(job_postings['is_programmer']=='AI岗位') & (job_postings['pay_period']=='YEARLY') & (job_postings['max_salary']>10000) ]
job_others = job_postings[(job_postings['is_programmer']=='非AI岗位') & (job_postings['pay_period']=='YEARLY') & (job_postings['max_salary']>10000) & (job_postings['max_salary']<200000) ]
job_ai

处理好的数据如下：

3、可视化数据探索-matplotlib seaborn

AI岗位中位数年薪18W美金，最高50w以上

# 设置Seaborn样式和调色板
sns.set_style("whitegrid")
palette = ["skyblue"]
# palette = ["#87CEEB"]  # 使用颜色代码或者其他有效的颜色名称，这里使用天蓝色的颜色代码# 箱线图
plt.figure(figsize=(8, 6))
sns.boxplot(y='max_salary', data=job_ai, palette=palette)
plt.ylabel('Yearly Salary')
plt.title('AI Yearly Salary Boxplot')# 添加分位数标注
quantiles = job_ai['max_salary'].quantile([0.25, 0.5, 0.75])
for q, label in zip(quantiles, ['Q1', 'Median', 'Q3']):plt.text(0, q, f'{label}: {int(q)}', horizontalalignment='center', verticalalignment='bottom', fontdict={'size': 10})
# 添加平均值、最大最小值标注
avg_value = job_ai['max_salary'].mean()  
max_value = job_ai['max_salary'].max()  
min_value = job_ai['max_salary'].min()  
plt.text(0.2, avg_value, f'Avg: {int(avg_value)}', ha='left', va='bottom', fontdict={'size': 10})  
plt.text(0, max_value, f'Max: {int(max_value)}', ha='center', va='bottom', fontdict={'size': 10})  
plt.text(0, min_value, f'Min: {int(min_value)}', ha='center', va='top', fontdict={'size': 10})  # 显示图形  
plt.show()

AI岗位年薪主要集中在15-30w美金

# 1. 直方图
plt.figure(figsize=(10, 6))
plt.hist(job_ai['max_salary'], bins=30, color='skyblue', edgecolor='black')
plt.xlabel('Yearly Salary')
plt.ylabel('Frequency')
plt.title('Yearly Salary Distribution')
plt.show()

AI大多需要高级岗，对软件开发、机器学习、数据科学要求较多

# 词云
stopwords = set(["Manager"]) 
job_titles_text = ' '.join(job_ai['title'])
wordcloud = WordCloud(width=800, height=400, background_color='white',stopwords=stopwords).generate(job_titles_text)# 显示词云
plt.figure(figsize=(10, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.title('AI Job Title Word Cloud')
plt.axis('off')
plt.tight_layout()
plt.show()

在这里插入图片描述
数据发现，AI岗位平均年薪竟高达18万美金，远超普通开发岗，而且AI岗位需求也在爆发性增长。

这次使用的是亮数据IP服务，质量还是蛮高的，大家可以试试。

亮数据官网地址：

https://get.brightdata.com/weijun

使用Python selenium爬虫领英数据，并进行AI岗位数据挖掘

随着OpenAI大火，从事AI开发的人趋之若鹜，这次使用Python selenium抓取了领英上几万条岗位薪资数据，并使用Pandas、matplotlib、seaborn等库进行可视化探索分析。但领英设置了一些反爬措施，对IP进行限制封禁，因此会用到…...

编程日记 2024/6/28 21:37:51

如何在Android应用程序中实现高效的图片加载和缓存机制。

在Android应用程序中实现高效的图片加载和缓存机制一、技术难点在Android应用程序中实现高效的图片加载和缓存机制，主要面临以下几个技术难点： 内存管理：Android设备的内存资源有限，如果加载大量高清图片而不进行适当的内存管…...

编程日记 2024/6/28 21:35:44

【机器学习项目实战（二）】基于朴素贝叶斯的中文垃圾短信分类

完整代码、数据集和相应的报告链接已经放在了正文最下方，供大家参考学习摘要本文探讨了中文垃圾短信分类的问题，通过收集实际数据集，运用多种机器学习算法进行分类，并对比了不同算法在垃圾短信分类任务上的性能。本研究旨在提高中文垃圾短信的识别准确率，为构建更…...

编程日记 2024/6/28 21:34:41

当用户需求不详细时，如何有效应对

在项目沟通时，用户对需求说明不详细，可能是由于多种原因。以下是一些可能的原因及如何应对这些问题的建议： 1. 用户不完全理解自己的需求原因： 用户对技术细节不了解，不知道如何具体描述需求。用户对项目的全局和…...

编程日记 2024/6/28 21:33:39

[图解]SysML和EA建模住宅安全系统-02-现有运营领域-块定义图

1 00:00:00,840 --> 00:00:02,440 首先我们来看画在哪里 2 00:00:02,570 --> 00:00:08,310 你看，这是图的类型，图里面内容 3 00:00:08,320 --> 00:00:10,780 这是元素类型 4 00:00:10,790 --> 00:00:14,900 这是位置，哪个包 …...

编程日记 2024/6/28 21:31:33

【vuejs】首次页面加载时触发那些声明周期钩子函数

1. 首次页面加载触发的钩子在Vue.js中，页面或组件的首次加载会触发一系列预定义的生命周期钩子函数，这些钩子函数按照特定的顺序执行，允许开发者在组件的不同阶段执行代码。以下是首次页面加载时触发的钩子及其作用： 2.1 befor…...

编程日记 2024/6/28 21:30:23

模拟器连接AndroidStudio 解决：adb server version (36) doesnt match this client (40); killing... 1.G:\ProgramFils\android-sdk\platform-tools adb --version 2.H:\yeshen\Nox\bin adb --version 3.把G:\ProgramFils\android-sdk\platform-…...

编程日记 2024/6/28 21:28:19

Nuxt 的路由结构系统（七）

基本路由配置在 Nuxt.js 中，每个 .vue 文件在 pages/ 目录下都会自动成为一个路由。文件名决定了路由的路径。例如： pages/ |-- index.vue # 映射到根路径 / |-- about.vue # 映射到路径 /about |-- contact.vue # 映射到路径 /conta…...

编程日记 2024/6/28 21:26:10

不使用AMap.DistrictSearch，通过poi数据绘制省市县区块

个人申请高德地图key时无法使用AMap.DistrictSearch，可以通过poi数据绘制省市县区块 1.进入POI数据网站找到需要的省市县，下载对应的GeoJson文件 ，此处为poi数据网站链接 2. 处理geoJson数据，可以直接新建json文件，…...

编程日记 2024/6/28 21:20:57

vue+webpack子应用嵌入乾坤框架

首先！不建议用vite，改了两天，无果。乾坤本就不支持vite，后续要改插件改配置追加前缀，乾坤只能挂载基础节点，但是静态资源以及接口都挂载不上，或许有实现办法，但时间节点很紧&#…...

编程日记 2024/6/28 21:18:53

Oracle中常用内置函数

一、字符串函数 CONCAT(s1, s2)：连接两个字符串s1和s2。 SELECT CONCAT(Hello, World) FROM DUAL-- 结果：Hello World --或者使用 || 操作符 SELECT Hello || World FROM DUAL -- 结果：Hello World INITCAP(s)：将字符串s…...

编程日记 2024/6/28 21:16:49

餐饮冷库安全守护神：可燃气体报警器检定的科学性与有效性

随着餐饮业的快速发展，冷库成为储存食材、保证食品质量的重要场所。然而，由于冷库环境的特殊性，如密封性强、温度低、湿度大等，一旦冷库内发生可燃气体泄露，后果将不堪设想。因此，在餐饮冷库中安装并合理…...

编程日记 2024/6/28 21:15:47

中国能源统计年鉴（1986-2023年）

数据年份：1986-2023年，无1987、1988、1990三年，1991-2023年齐数据格式：pdf、excel 数据内容：《中国能源统计年鉴》是一部反映中国能源建设、生产、消费、供需平衡的权威性资料书。共分为7个篇章：1.综合&a…...

编程日记 2024/6/28 21:14:45

摄像头画面显示于unity场景

🐾 个人主页 🐾 🪧阿松爱睡觉，横竖醒不来 🏅你可以不屠龙，但不能不磨剑🗡 目录一、前言二、UI画面三、显示于场景四、结语一、前言由于标题限制，这篇文章主要是讲在unity中调用摄…...

编程日记 2024/6/28 21:12:40

Double 4 VR智能仿真教学系统在国际邮轮乘务管理专业课堂上的应用

随着科技的不断发展，虚拟现实技术（VR）在教育领域的应用越来越广泛。国际邮轮乘务管理专业作为一门实践性较强的专业，传统的课堂教学方法已经无法满足学生的需求。因此，将Double 4 VR智能仿真教学系统应用于国际邮轮乘务…...

编程日记 2024/6/28 21:11:38

QSPI四线SPI：D0、D1、D2、D3

在SPI（串行外设接口）通信中，D0、D1、D2、D3通常指的是数据线，也叫做数据引脚或通道。这些引脚的使用可能会根据具体设备或配置的不同而有所变化。标准的SPI通信接口通常包含以下四个主要引脚： MOSI（Master…...

编程日记 2024/6/28 21:08:34

vue3通过vue-video-player实现视频倍速、默认全屏、拖拽进度条等功能

效果图： 1、场景： js原生的video标签在不同浏览器及不同型号手机上都展示的不一样，一部分没有倍速，一部分没有全屏等功能，为了统一视频播放的交互功能，使用vue-video-player插件来完成，vue-vid…...

编程日记 2024/6/28 21:06:31

微信小程序点击左上角返回弹窗提示

业务需求：当页面表单没有提交直接返回时，要提示用户是否保存当前信息，如果已经提交就不提示了。由于微信小程序是无法监听右上角按钮返回事件。所以就换个思路小程序提供了如下两个Api wx.enableAlertBeforeUnload(Object object)&…...

编程日记 2024/6/28 21:05:29

openEuler 22.03 (LTS-SP1)服务器用ntpd同步GPS时间服务器的案例

本文记录了openEuler 22.03 (LTS-SP1)的二级时间服务器用chronyd不能自动同步GPS时间服务器，改用ntpd同步GPS时间服务器成功的案例一、环境简述 1、本环境中有两台GPS一级时间服务器，IP如下： 192.168.188.66 192.168.188.74 2、有一台o…...

编程日记 2024/6/28 21:03:25

MCP协议实践：构建AI助手与IDE间的通信中继

1. 项目概述：IDE与AI助手间的“通信中继”最近在折腾AI编程助手时，发现一个挺有意思的痛点：像Cursor、Claude Desktop这类IDE插件或独立应用，它们内置的AI助手能力很强，但很多时候我们希望能让它们访问到IDE之外的一些…...

编程新知 2026/5/12 5:18:51

Blender 3MF插件终极指南：从设计到3D打印的完整工作流解决方案

Blender 3MF插件终极指南：从设计到3D打印的完整工作流解决方案【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 你是否曾因3D打印文件格式转换而头疼&#xff…...

编程新知 2026/5/12 4:35:15

Cadence-OS深度解析：Uber Cadence增强发行版的生产实践指南

1. 项目概述与核心价值最近在梳理工作流自动化工具时，又翻出了paulophl94/cadence-os这个项目。它不是一个全新的轮子，而是基于 Uber 开源的 Cadence 工作流引擎，进行深度定制和增强的一个发行版。如果你正在为微服务架构下的复杂业务流程编排…...

编程新知 2026/5/12 4:00:10

别再默认用E1000了！VMware虚拟机网卡选VMXNET3还是E1000E？实测数据告诉你答案

VMware虚拟机网卡性能实战：从理论到选型决策树在虚拟化环境中，网络性能往往是决定整体系统效率的关键瓶颈之一。作为一名长期奋战在VMware运维一线的技术专家，我见过太多因为网卡选型不当导致的性能问题——从莫名其妙的网络延迟到令人抓狂的…...

编程新知 2026/5/12 3:50:04

第六篇：《JMeter逻辑控制器：循环、条件和交替执行》

在实际业务测试中，并非只是简单的顺序执行。有时需要重复执行某些操作（循环），有时需要根据条件决定执行哪个分支（条件），有时需要模拟多个用户的交替行为（交替）。JMeter 提…...

编程新知 2026/5/12 3:16:34

避坑指南：在CentOS 7.5上成功安装Ansys 19.2的完整流程（附字体问题终极解决方案）

CentOS 7.5与Ansys 19.2黄金组合：工业仿真环境搭建实战手册在工程仿真领域，Ansys作为行业标准工具链的核心组件，其Linux环境部署一直是技术人员的痛点。经过长达三个月的多版本交叉测试，我们意外发现CentOS 7.5与Ansys 19.2的组合…...

编程新知 2026/5/12 2:55:22

3步掌握League Akari：高效智能的英雄联盟本地自动化工具

3步掌握League Akari：高效智能的英雄联盟本地自动化工具【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于英…...

编程新知 2026/5/12 2:39:00

ZonyLrcToolsX：轻松获取完美歌词的跨平台解决方案

ZonyLrcToolsX：轻松获取完美歌词的跨平台解决方案【免费下载链接】ZonyLrcToolsX ZonyLrcToolsX 是一个能够方便地下载歌词的小软件。项目地址: https://gitcode.com/gh_mirrors/zo/ZonyLrcToolsX 你是否曾经为音乐播放器缺少歌词而烦恼？是否厌…...

编程新知 2026/5/12 0:43:16

深度解析：HS2-HF Patch如何通过模块化架构彻底重塑游戏体验

深度解析：HS2-HF Patch如何通过模块化架构彻底重塑游戏体验【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch HS2-HF Patch作为《Honey Select 2》最全…...

编程新知 2026/5/11 23:21:34

终极ROFL播放器指南：如何免费快速解锁英雄联盟回放文件分析

终极ROFL播放器指南：如何免费快速解锁英雄联盟回放文件分析【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player 还在为无法查看英…...

编程新知 2026/5/11 21:10:29

使用Python selenium爬虫领英数据，并进行AI岗位数据挖掘

1、爬虫采集AI岗位数据-selenium&亮数据

2、处理和清洗数据-pandas

3、可视化数据探索-matplotlib seaborn

相关文章：

使用Python selenium爬虫领英数据，并进行AI岗位数据挖掘

如何在Android应用程序中实现高效的图片加载和缓存机制。

【机器学习项目实战（二）】基于朴素贝叶斯的中文垃圾短信分类

当用户需求不详细时，如何有效应对

最新AI智能聊天对话问答系统源码（图文搭建部署教程）+AI绘画，文生图，TTS语音识别输入，文档分析

[图解]SysML和EA建模住宅安全系统-02-现有运营领域-块定义图

【vuejs】首次页面加载时触发那些声明周期钩子函数

adb热更新

Nuxt 的路由结构系统（七）

不使用AMap.DistrictSearch，通过poi数据绘制省市县区块

vue+webpack子应用嵌入乾坤框架

Oracle中常用内置函数

餐饮冷库安全守护神：可燃气体报警器检定的科学性与有效性

中国能源统计年鉴（1986-2023年）

摄像头画面显示于unity场景

Double 4 VR智能仿真教学系统在国际邮轮乘务管理专业课堂上的应用

QSPI四线SPI：D0、D1、D2、D3

vue3通过vue-video-player实现视频倍速、默认全屏、拖拽进度条等功能

微信小程序点击左上角返回弹窗提示

openEuler 22.03 (LTS-SP1)服务器用ntpd同步GPS时间服务器的案例

MCP协议实践：构建AI助手与IDE间的通信中继

Blender 3MF插件终极指南：从设计到3D打印的完整工作流解决方案

Cadence-OS深度解析：Uber Cadence增强发行版的生产实践指南

别再默认用E1000了！VMware虚拟机网卡选VMXNET3还是E1000E？实测数据告诉你答案

第六篇：《JMeter逻辑控制器：循环、条件和交替执行》

避坑指南：在CentOS 7.5上成功安装Ansys 19.2的完整流程（附字体问题终极解决方案）

3步掌握League Akari：高效智能的英雄联盟本地自动化工具

ZonyLrcToolsX：轻松获取完美歌词的跨平台解决方案

深度解析：HS2-HF Patch如何通过模块化架构彻底重塑游戏体验

终极ROFL播放器指南：如何免费快速解锁英雄联盟回放文件分析