当前位置：首页 > news >正文

Python实现招聘数据采集，并做可视化分析

news 2026/5/13 3:27:05

转眼秋招快到了，今天来学习一下如何用Python采集全网招聘数据，并进行可视化分析，为就业准备~

话不多说开始造

源码和详细的视频讲解我都打包好了，文末名片自取

准备工作

首先你需要准备这些

环境

Python 3.10
Pycharm

模块
DrissionPage -> pip install DrissionPage
csv

新建一个临时 py 文件，并输入以下代码，填入您电脑里的 Chrome 浏览器可执行文件路径，然后运行。

from DrissionPage import ChromiumOptionspath = r'D:\Chrome\Chrome.exe' # 请改为你电脑内Chrome可执行文件路径
ChromiumOptions().set_browser_path(path).save()

爬虫实现的基本流程

一、数据来源分析

1.明确需求

明确采集的网站以及数据内容

网址: https://****/web/geek/job?query=python&city=100010000
数据: 职位信息

2.抓包分析

通过浏览器开发者工具分析对应的数据位置

打开开发者工具
- F12 / 右键点击检查选择 network (网络)
刷新网页
通过关键字搜索找到对应的数据位置
- 关键字: 需要什么数据就搜什么数据

数据包地址:
https://***/wapi/zpgeek/search/joblist.json?scene=1&query=pyth
on&city=100010000&experience=&payType=&partTime=°ree=&industry=&scale=&stage=&p
osition=&jobType=&salary=&multiBusinessDistrict=&multiSubway=&page=1&pageSize=30

二、代码实现步骤

requests基本实现步骤基本步骤分为四步:

1.发送请求: 模拟浏览器对于url地址发送请求
2.获取数据: 获取服务器返回响应数据
3.解析数据: 提取我们需要的数据内容
4.保存数据: 提取的数据保存表格/文本/数据库/json文件中

为什么不选择使用requests去请求获取数据呢?

某些网站数据内容(请求), 存在加密内容->需要JS逆向
比如: 今晚案例boss -> cookie 中 zp_stoken 时效性

drissionpage 自动化模块

模拟人的行为操作浏览器

点击输入拖拽获取数据

1.可以直接通过元素面板, 进行元素定位获取相关数据内容

2.可以直接监听数据, 获取响应数据
监听数据->在执行动作之前

注意细节:

a.需要配置浏览器可执行文件路径
b.通过抓包分析找到的数据包链接地址进行的监听, 并且监听数据->在执行动作之前

3.解析数据: 提取我们需要的数据内容
4.保存数据: 提取的数据保存表格/文本/数据库/json文件中

点击下一页按钮:

1.定位按钮元素
2.进行相关操作

dp.ele(‘css:.ui-icon-arrow-right’).click()
-dp.ele() 通过元素定位
-css:.ui-icon-arrow-right 使用css语法查找元素
-click() 点击操作

数据可视化

简单使用可视化

# 导入数据处理模块
import pandas as pd
# 导入配置项
from pyecharts import options as opts
# 导入图形
from pyecharts.charts import Pie, Bar, Line
# 导入数据(随机生成数据)
from pyecharts.faker import Faker# 读取csv文件
df = pd.read_csv('data.csv')
# print(df.head())
# 获取x轴数据内容
x_city = df['城市'].value_counts().index.to_list()
# 获取y轴数据内容
y_city = df['城市'].value_counts().to_list()c = (Pie().add("",[list(z)for z in zip(x_city, # x轴数据y_city, # y轴数据)],center=["40%", "50%"],).set_global_opts(# 设置可视化标题title_opts=opts.TitleOpts(title="Python招聘城市分布情况"),legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))# 导出可视化效果: 保存html文件.render("pie_Python招聘城市分布情况.html")
)
# 获取x轴数据内容
x_edu = df['学历'].value_counts().index.to_list()
# 获取y轴数据内容
y_edu = df['学历'].value_counts().to_list()
c_bar = (Bar().add_xaxis(x_edu).add_yaxis("学历", y_edu, stack="stack1").set_series_opts(label_opts=opts.LabelOpts(is_show=False)).set_global_opts(title_opts=opts.TitleOpts(title="Bar-Python招聘学历要求分布情况")).render("bar_Python招聘学历要求分布情况.html")
)# 获取x轴数据内容
x_exp = df['经验'].value_counts().index.to_list()
# 获取y轴数据内容
y_exp = df['经验'].value_counts().to_list()
c_Line = (Line().add_xaxis(x_exp).add_yaxis("经验", y_exp, is_connect_nones=True).set_global_opts(title_opts=opts.TitleOpts(title="Line-Python招聘经验要求分布")).render("line_Python招聘经验要求分布.html")
)

效果展示

Python实现招聘数据采集，并做可视化分析

转眼秋招快到了， 今天来学习一下如何用Python采集全网招聘数据，并进行可视化分析，为就业准备~ 话不多说开始造源码和详细的视频讲解我都打包好了，文末名片自取准备工作首先你需要准备这些环境 Python 3.10 Pycharm 模块…...

编程日记 2024/7/23 5:48:01

ES中的数据类型学习之Aggregate metric(聚合计算)

Aggregate metric field type | Elasticsearch Guide [7.17] | Elastic 对于object类型的字段来说，可以存子字段为 min/max/sum/value_count PUT my-index {"mappings": {"properties": {"my-agg-metric-field": { -- 字段名"ty…...

编程日记 2024/7/23 5:45:59

看准JS逆向案例：webpack逆向解析

🔍 逆向思路与步骤抓包分析与参数定位首先，我们通过抓包工具对看准网的请求进行分析。发现请求中包含加密的参数b和kiv。为了分析这些加密参数，我们需要进一步定位JS加密代码的位置。扣取JS加密代码定位到JS代码中的加密实现后&a…...

编程日记 2024/7/23 5:44:56

【C语言】利用栈完成十进制转二进制（分文件编译，堆区申请空间malloc）

利用栈先进后出的特性，在函数内部，进行除二取余的操作，把每次的余数存入栈内，最后输出刚好就是逆序输出，为二进制数学习过程中，对存储栈进行堆区的内存申请时候，并不是很熟练，一开始…...

编程日记 2024/7/23 5:43:55

如何解决ChromeDriver 126找不到chromedriver.exe问题

引言在使用Selenium和ChromeDriver进行网页自动化时，ChromeDriver与Chrome浏览器版本不匹配的问题时有发生。最近，许多开发者在使用ChromeDriver 126时遇到了无法找到chromedriver.exe文件的错误。本文将介绍该问题的原因，并提供详细的解决…...

编程日记 2024/7/23 5:42:54

Anaconda下安装配置Jupyter 1、安装 conda activate my_env #激活虚拟环境 pip install jupyter #安装 jupyter notebook --generate-config #生成配置文件提示配置文件的位置： Writing default config to: /root/.jupyter/jupyter_notebook_config.py检查版本&am…...

编程日记 2024/7/23 5:41:53

蓝队黑名单IP解封提取脚本

应用场景：公司给蓝队人员一个解封IP列表，假如某个IP满足属于某某C段，则对该IP进行解封。该脚本则是进行批量筛选出符合条件的白名单IP 实操如下：公司给了一个已经封禁了的黑名单IP列表如下（black） 公司要求…...

编程日记 2024/7/23 5:40:52

共享充电桩语音ic方案，展现它的“说话”的能力

随着电动汽车的普及，充电设施的便捷性、智能化需求日益凸显，共享充电桩语音IC应运而生，成为连接人与机器、实现智能交互的桥梁。本文将为大家介绍共享充电桩语音ic的概述、应用词条以及优势，希望能够帮助您。一、NV170D语音ic概述…...

编程日记 2024/7/23 5:39:51

ARM 单片机裸机任务调度框架

前言： 在没有使用操作系统的情况下，一个合理的裸机任务调度方式，可以更好的提供数据的处理，和用户体验，有多种任务调度的方式。方案 1： 从上到下的任务调度方式，C语言程序的代码是在main函数…...

编程日记 2024/7/23 5:38:50

.Net 8 控制台程序部署(Linux篇)

在无流量Linux环境下部署.NET8开发的控制台程序写在前面准备远程访问安装环境程序部署1.下载并导入2.解压并配置3.发布程序4.创建Systemd服务单元文件5.启用并启动服务写在结尾写在前面好久没更新文章了，今天给大家带来的是在在无流量的Linux工控机上部署.Net8…...

编程日记 2024/7/23 5:37:49

LeetCode：x的平方根（C语言）

1、问题概述：给你一个非负整数 x，计算并返回 x 的算术平方根 ，返回类型得是一个整数，小数舍弃 2、示例示例 1： 输入：x 4 输出：2 示例 2： 输入：x 8 输出：…...

编程日记 2024/7/23 5:36:48

深入浅出WebRTC—DelayBasedBwe

WebRTC 中的带宽估计是其拥塞控制机制的核心组成部分，基于延迟的带宽估计是其中的一种策略，它主要基于延迟变化推断出可用的网络带宽。 1. 总体架构 1.1. 静态结构 1）DelayBasedBwe 受 GoogCcNetworkController 控制，接收其输入…...

编程日记 2024/7/23 5:35:47

JAVA开发工具IDEA如何连接操作数据库

一、下载驱动下载地址：【免费】mysql-connector-j-8.2.0.jar资源-CSDN文库二、导入驱动鼠标右击下载到IDEA中的jar包，选择Add as Library选项如图就导入成功三、加载驱动 Class.forName("com.mysql.cj.jdbc.Driver"); 四、驱动管理…...

编程日记 2024/7/23 5:33:45

简化AI模型：PyTorch量化技术在边缘计算中的应用

引言在资源受限的设备上部署深度学习模型时，模型量化技术可以显著提高模型的部署效率。通过将模型的权重和激活从32位浮点数转换为更低位数的值，量化可以减少模型的大小，加快推理速度，同时降低能耗。模型量化概述定义与优势…...

编程日记 2024/7/23 5:32:44

拥抱AI时代：解锁Prompt技术的无限潜力与深远影响

拥抱AI时代：解锁Prompt技术的无限潜力与深远影响引言在人工智能的浩瀚星空中，自然语言处理（NLP）无疑是最耀眼的星辰之一。随着技术的不断演进，NLP已经从最初的简单问答系统发展成为能够生成复杂文本、理解人类情感与…...

编程日记 2024/7/23 5:31:44

第123天：内网安全-域防火墙入站出站规则不出网隧道上线组策略对象同步

目录案例一： 单机-防火墙-限制端口\协议出入站案例二：不出网的解决思路入站连接隧道技术案例三：域控-防火墙-组策略对象同步案例四：域控-防火墙-组策略不出网上线 msf cs 案例一： 单机-防火墙-限制端口\…...

编程日记 2024/7/23 5:30:41

博客建站4 - ssh远程连接服务器

1. 什么是SSH?2. 下载shh客户端3. 配置ssh密钥4. 连接服务器5. 常见问题 5.1. IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY! 1. 什么是SSH? SSH（Secure Shell）是一种加密的网络协议，用于在不安全的网络中安全地远程登录到其他…...

编程日记 2024/7/23 5:29:40

MySQL--索引(3)

1.索引创建注意点选择合适的字段 1.不为 NULL 的字段索引字段的数据应该尽量不为 NULL，因为对于数据为 NULL 的字段，数据库较难优化。如果字段频繁被查询，但又避免不了为 NULL，建议使用 0,1,true,false 这样语义较为清晰的短值或…...

编程日记 2024/7/23 5:28:39

sql_exporter通过sql收集业务数据并通过prometheus+grafana展示

下载并解压安装sql_exporter wget https://github.com/free/sql_exporter/releases/download/0.5/sql_exporter-0.5.linux-amd64.tar.gz #解压 tar xvf sql_exporter-0.5.linux-amd64.tar.gz -C /usr/local/修改主配置文件 cd /usr/local/ mv sql_exporter-0.5.linux-amd64 s…...

编程日记 2024/7/23 5:27:38

pytorch 笔记：torch.optim.Adam

torch.optim.Adam 是一个实现 Adam 优化算法的类。Adam 是一个常用的梯度下降优化方法，特别适合处理大规模数据集和参数的深度学习模型 torch.optim.Adam(params, lr0.001, betas(0.9, 0.999), eps1e-08, weight_decay0, amsgradFalse, *, foreachNone, maximizeFa…...

编程日记 2024/7/23 5:26:37

Python开发进阶之路：探索异步编程与高性能应用

在当今快节奏的软件开发环境中，构建高性能、可扩展的应用程序已成为开发者的首要任务。随着互联网应用的普及，用户对响应速度和并发处理能力的要求越来越高。Python，作为一种广泛使用的高级编程语言，凭借其简洁的语法和强大的生态…...

编程新知 2026/5/13 2:25:37

高速SerDes设计中BER预测的智能应力输入方法

1. 高速串行链路设计中的BER预测挑战在当今高速数字系统设计中，SerDes（串行器/解串器）技术已成为主流接口方案，数据传输速率已突破10Gbps大关。随着速率提升，信号完整性(SI)问题日益突出，其中误码率(BER)预…...

编程新知 2026/5/13 1:56:48

Steam成就管理神器：如何在5分钟内解锁所有成就的终极完整指南

Steam成就管理神器：如何在5分钟内解锁所有成就的终极完整指南【免费下载链接】SteamAchievementManager A manager for game achievements in Steam. 项目地址: https://gitcode.com/gh_mirrors/st/SteamAchievementManager 还在为Steam游戏中那些遥不可及的…...

编程新知 2026/5/13 1:52:38

模块二-数据选择与索引——06. 列选择与操作

06. 列选择与操作 1. 概述数据选择是 Pandas 最常用的操作之一。掌握列选择与操作，可以高效地提取、添加、修改和删除数据列。 import pandas as pd import numpy as np# 创建示例数据 df pd.DataFrame({姓名: [张三, 李四, 王五, 赵六, 钱七],年龄: [25, 30, 28,…...

编程新知 2026/5/13 1:45:41

3PEAK思瑞浦 TPA3532-VS1R MSOP8 运算放大器

特性超低输入偏置电流: -在TA25C时最大士1pA(实验室测试限值) 安 -在-40C至125C(实验室测试限值)下，最大30皮低输入失调电压:250V(最大值) 集成保护缓冲器，最大偏移电压为200V 低电压噪声密度:18nV/vHz(在1kHz时) 宽带宽:2.1MHz 供电电压:4.5V至16V(2.…...

编程新知 2026/5/13 1:41:37

观察taotoken用量看板如何清晰呈现各模型token消耗

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度观察taotoken用量看板如何清晰呈现各模型token消耗对于使用大模型API的开发者或团队管理者而言，成本的可观测性与可控…...

编程新知 2026/5/13 0:30:24

企业微信消息发送踩坑实录：.NET Core下处理AccessToken过期与消息安全的最佳实践

企业微信消息发送实战：.NET Core中的AccessToken管理与消息安全策略当企业微信API集成到生产环境时，开发者常会遇到两个看似简单却暗藏玄机的问题：AccessToken突然失效导致消息发送失败，以及敏感信息传输时的安全风险。本文将分享…...

编程新知 2026/5/12 23:42:33

2026年邵阳高复机构大揭秘，哪家才是学子的理想之选？

高考失利后，复读成为许多学子重新追逐梦想的途径。在邵阳，众多高复机构如繁星般闪耀，而湘郡铭志学校高复部无疑是其中一颗璀璨的明星。接下来，让我们深入了解湘郡铭志学校高复部，同时对比其他知名高复机构，…...

编程新知 2026/5/12 23:23:17

开源情报工具Openeir：自动化资产发现与关联分析实战指南

1. 项目概述：一个开源情报（OSINT）工具的诞生与使命在信息爆炸的时代，数据本身不再是稀缺品，如何从海量、异构、碎片化的公开信息中，精准、高效地提取出有价值的情报，才是真正的挑战。无论是安全…...

编程新知 2026/5/12 21:40:51

终极指南：如何一键下载国家智慧教育平台电子课本PDF

终极指南：如何一键下载国家智慧教育平台电子课本PDF 【免费下载链接】tchMaterial-parser 国家中小学智慧教育平台电子课本下载工具，帮助您从智慧教育平台中获取电子课本的 PDF 文件网址并进行下载，让您更方便地获取课本内容。项目地址: …...

编程新知 2026/5/12 21:01:37