当前位置: 首页 > news >正文

招不到人?用C语言采集系统批量采集简历

虽说现在大环境不太好,很多人面临着失业再就业风险,包括企业则面临着招人人,找对口专业难得问题。想要找到适合自己公司的人员,还要得通过爬虫获取筛选简历才能从茫茫人海中找到公司得力干将。废话不多说,直接开整。

在这里插入图片描述

1、导入所需的库:

import requests
from bs4 import BeautifulSoup
import re

这行代码导入了requests库,该库用于向网站发出HTTP请求;BeautifulSoup库,该库用于解析HTML文档;re库,该库用于处理正则表达式。

2、设置代理信息:

proxy_host = 'www.duoip.cn'
proxy_port = 8000
proxy = {'http': 'http://{}:{}'.format(proxy_host, proxy_port),'https': 'https://{}:{}'.format(proxy_host, proxy_port)'获取免费ip:jshk.com.cn/mb/reg.asp?kefu=xjy&csdn)
}

这行代码定义了代理的主机名和端口号,并将它们存储在proxy字典中。然后,我们使用format()函数将这些值拼接为代理URL。

3、发出HTTP请求:

response = requests.get('https://www.zhaopin.com/', proxies=proxy)

这行代码使用requests.get()函数向www.zhaopin.com发送GET请求。 proxies参数指定了代理服务器。

4、解析HTML文档:

soup = BeautifulSoup(response.text, 'html.parser')

这行代码使用BeautifulSoup库解析response.text(即HTTP响应的文本内容)。

5、获取招聘信息的HTML元素:

job_info = soup.find_all('div', attrs={'class': 'job-item'})

这行代码使用BeautifulSoup库的find_all()函数查找所有class为’job-item’的div元素(即招聘信息的HTML元素)。

6、循环遍历招聘信息:

for info in job_info:job_title = info.find('h2', attrs={'class': 'job-title'}).textcompany_name = info.find('span', attrs={'class': 'company'}).textlink = info.find('a')['href']print('职位名称:', job_title)print('公司名称:', company_name)print('链接:', link)print('-------------------------')

这行代码循环遍历job_info列表中的每一个元素,并使用find()函数查找职位名称、公司名称和链接。text参数用于获取元素的文本内容,而[‘href’]参数用于获取链接。然后,我们打印出这些信息。

7、整个爬虫程序的运行:

if __name__ == '__main__':proxy_host = 'www.duoip.cn'proxy_port = 8000proxy = {'http': 'http://{}:{}'.format(proxy_host, proxy_port),'https': 'https://{}:{}'.format(proxy_host, proxy_port)}response = requests.get('https://www.zhaopin.com/', proxies=proxy)soup = BeautifulSoup(response.text, 'html.parser')job_info = soup.find_all('div', attrs={'class': 'job-item'})for info in job_info:job_title = info.find('h2', attrs={'class': 'job-title'}).textcompany_name = info.find('span', attrs={'class': 'company'}).textlink = info.find('a')['href']print('职位名称:', job_title)print('公司名称:', company_name)print('链接:', link)print('-------------------------')

这行代码为整个爬虫程序的入口。当程序运行时,它会首先设置代理信息,然后发出HTTP请求,解析HTML文档,获取招聘信息的HTML元素,循环遍历招聘信息,并打印出这些信息。

以上就是爬取智联、无忧简历采集系统内容的Python代码。请注意,这只是一个基本的爬虫程序,实际的爬虫程序需要处理更多的复杂情况,例如处理网站的反爬虫策略、处理可能存在的网页结构变化、处理可能存在的错误等。因此,在编写实际的爬虫程序时,需要根据实际情况进行适当的调整和优化。

上面就是有关爬虫获取招聘信息的一些简易的代码,虽说过程很复杂,一旦跑通了,使用还是非常的方便。如果各位大佬有更好的建议,欢迎评论区交流讨论。

相关文章:

招不到人?用C语言采集系统批量采集简历

虽说现在大环境不太好,很多人面临着失业再就业风险,包括企业则面临着招人人,找对口专业难得问题。想要找到适合自己公司的人员,还要得通过爬虫获取筛选简历才能从茫茫人海中找到公司得力干将。废话不多说,直接开整。 1…...

HXDSP2441-Demo板

板卡图示 下图为HXDSP2441DEMO板,HXDSP2441DEMO板是围绕HXDSP2441构建的芯片演示验证平台。 板卡简介 除了为HXDSP2441芯片提供供电、时钟、储存、网络及调试电路,来实现芯片最基本的功能,也添加了相关模块以搭建HXDSP2441的典型应用场景…...

静态路由的原理和配置

一.路由器的工作原理 首先我们知道路由器是工作在网络层的,那就是三层设备。网络层的功能主要为:不同网段之间通信、最佳路径选择也就是逻辑地址(ip地址)寻址、转发数据。 1.路由器是什么 路由器是能将数据包转发到正确的目的地…...

Ubuntu20.04降低linux版本到5.4.0-26-generic

前言 试用ubuntu20.04安装昇腾的驱动和cann的时,出现如下问题: (base) rootubuntu:/home/work# ./Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run --full Verifying archive integrity... 100% SHA256 checksums are OK. All good. Uncompr…...

C++ 类型萃取

什么是 type_traits 在C中,类型萃取(type_traits)是一种编译时技术,用于在编译期间获取和操作类型的信息。 主要用于泛型编程以及在编译时做出决策。 类型萃取可以帮我们检查和处理类型特性,从而优化代码、避免错误或…...

【JVM从入门到实战】(四)类的生命周期

什么是类的生命周期 类的生命周期描述了一个类加载、连接、初始化、使用、卸载的整个过程 一个类完整的生命周期如下: 加载阶段 加载阶段第一步是类加载器根据类的全限定名通过不同的渠道以二进制流的方式获取字节码信息。 程序员可以使用Java代码拓展的不同的渠道…...

2023年度美食关键词-葱油花卷

2023年即将过去了,总结这一年的美食关键词,对于我来就,应该就是-大葱了。 前一周,朋友送了我5大葱,在北方,大葱是家家户户必不可少的食材,尤其对于面食爱好者来说,大葱的加入无疑让…...

「Verilog学习笔记」简易秒表

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点,刷题网站用的是牛客网 timescale 1ns/1nsmodule count_module(input clk,input rst_n,output reg [5:0]second,output reg [5:0]minute);always (posedge clk or negedge rst_n) begin if (~rst…...

《每天一个Linux命令》 -- (12) file命令

欢迎阅读《每天一个Linux命令》系列 !在本篇文章中,将说明file命令用法。 概念 file命令是Linux系统下的文件类型识别命令,用于识别文件的类型。 命令操作 file命令的语法如下: file [选项] 文件命令详细解释 以下是 file 命…...

如何使用ArcGIS Pro制作类似CAD的尺寸注记

经常使用CAD制图的朋友应该比较熟悉CAD内的尺寸标注,这样的标注看起来直观且简洁,那么在ArcGIS Pro内能不能制作这样尺寸注记呢,答案是肯定的,这里为大家介绍一下制作的方法,希望能对你有所帮助。 数据来源 本教程所…...

Go语言bufio包的使用

准备文本文件 rpc_intro.txt RPC(Remote Procedure Call,远程过程调用)是一种计算机通信协议, 允许调用不同进程空间的程序。RPC 的客户端和服务器可以在一台机器上,也可以在不同的机器上。程序员使用时,就像调用本地程序一样&…...

计算机网络之IP篇

来源自小林Coding博客,阅读后部分精简笔记 目录 一、IP 的基本认识 二、DNS 三、ARP 四、DHCP 五、NAT 六、ICMP 七、IGMP 七、ping 的工作原理 ping-----查询报文的使用 traceroute —— 差错报文类型的使用 八、断网了还能 ping 通 127.0.0.1 吗&…...

Java中JDK类库常用的6种设计模式

Java中JDK类库常用的6种设计模式:1、抽象工厂。2、建造者模式。3、工厂模式。4、原型模式。5、单例模式。6、适配器模式。 1、抽象工厂 javax.xml.parsers.DocumentBuilderFactory抽象类。 public static DocumentBuilderFactory newInstance()方法。 类功能&…...

C++ 用法全面剖析

我们知道,参数的传递本质上是一次赋值的过程,赋值就是对内存进行拷贝。所谓内存拷贝,是指将一块内存上的数据复制到另一块内存上。 对于像 char、bool、int、float 等基本类型的数据,它们占用的内存往往只有几个字节,对…...

数据库结构

三级结构 内模式:也称为物理模式,它是数据库中数据的物理存储表示,描述了数据在存储介质上的存储方式和物理结构,通常由数据库管理员进行定义。 概念模式:也称为逻辑模式,它是对数据库中全体数据的逻辑表示…...

什么是HTML以及超链接,特殊符号转义的简单使用

目录 什么是HTML🌸 HTML版本 版本说明🌸 XHTML和HTML的区别 超链接🌸基本语法🌸链接的分类 特殊符号 什么是HTML HTML 不是编程语言,没有逻辑处理能力,没有计算能力,不能动态地生成内容&#x…...

汽车销售技巧培训应该学习哪些内容

汽车销售技巧培训应该学习哪些内容 随着汽车市场的竞争日益激烈,汽车销售技巧培训对于提高销售人员的销售能力和服务水平至关重要。本文将介绍汽车销售技巧培训应该学习哪些内容,并结合案例进行分析。 一、产品知识 作为销售人员,了解所销售…...

机器学习---Adaboost算法

1. Adaboost算法介绍 Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然 后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。Adaboost算法本身…...

Java网络编程,使用UDP实现TCP(三), 基本实现四次挥手

简介 四次挥手示意图 在四次挥手过程中,第一次挥手中的Seq为本次挥手的ISN, ACK为 上一次挥手的 Seq1,即最后一次数据传输的Seq1。挥手信息由客户端首先发起。 实现步骤: 下面是TCP四次挥手的步骤: 第一次挥手&…...

“百里挑一”AI原生应用亮相,百度智能云千帆AI加速器首个Demo Day来了!

作者简介: 辭七七,目前大二,正在学习C/C,Java,Python等 作者主页: 七七的个人主页 文章收录专栏: 七七的闲谈 欢迎大家点赞 👍 收藏 ⭐ 加关注哦!💖&#x1f…...

为什么92.7%的临床研究者用错Perplexity药物检索?——2024年真实审计案例暴露的4个致命盲区

更多请点击: https://intelliparadigm.com 第一章:Perplexity药物信息检索的临床价值与审计背景 在精准医疗快速演进的当下,临床决策对实时、可信、上下文感知的药物信息依赖日益加深。Perplexity作为基于推理增强型大语言模型的信息检索系统…...

EC35编码器驱动踩坑实录:从波形分析到稳定读取,我的GD32调试笔记

EC35编码器驱动踩坑实录:从波形分析到稳定读取的GD32调试笔记 1. 问题初现:那些让人抓狂的"玄学"现象 第一次把EC35编码器接到GD32F303开发板上时,我天真地以为这不过是个简单的GPIO中断应用。按照常规思路配置了三个引脚的中断&am…...

Perplexity估值从3B美元缩水至1.8B?华尔街分析师闭门会议纪要首度流出(含5条未公开预警红线)

更多请点击: https://intelliparadigm.com 第一章:Perplexity估值缩水事件全景速览 2024年第三季度,AI搜索初创公司Perplexity在完成新一轮融资后,其内部估值从2023年底的10亿美元迅速回调至约7.5亿美元,引发全球科技…...

SAP PP实战解析:MPS(主生产计划)如何成为供需平衡的“定海神针”?

1. 为什么企业需要MPS这根"定海神针"? 想象一下你正在经营一家汽车制造厂。周一销售部突然接到500辆车的加急订单,周三又被告知原定300辆的订单要取消。如果直接根据这些波动安排生产,车间可能周一忙到通宵,周三却闲置停…...

别再让烙铁头‘烧死’了!手把手教你电烙铁日常保养与复活术(附温度设置建议)

电烙铁头养护全攻略:从氧化原理到实战修复技巧 1. 烙铁头氧化背后的科学原理 烙铁头氧化并非单纯由高温引起,而是高温与氧气共同作用的结果。当烙铁头暴露在空气中时,高温会加速金属表面与氧气的化学反应,形成一层致密的氧化层。这…...

避坑指南:在Docker里部署OpenWrt做软路由,这几个macvlan和网络配置的坑你别踩

DockerOpenWrt软路由避坑实战:macvlan网络疑难解析与高阶配置 当你在双网口服务器上尝试用Docker部署OpenWrt软路由时,是否经历过这样的绝望时刻:所有配置看似正确,但客户端设备就是无法上网;宿主机与容器仿佛身处平行…...

ABB机器人通过Socket实现ModbusTCP通信:Float浮点数解析与PLC数据交换实战

1. ABB机器人与PLC通信的基础原理 在工业自动化领域,设备间的数据交换是核心需求之一。ABB机器人作为客户端与PLC(可编程逻辑控制器)进行通信时,最常用的方式就是ModbusTCP协议。但这里有个关键点需要注意:ABB机器人的…...

告别RGB控制混乱:用ChromaControl打造统一灯光生态

告别RGB控制混乱:用ChromaControl打造统一灯光生态 【免费下载链接】ChromaControl 3rd party device lighting support for Razer Synapse. 项目地址: https://gitcode.com/gh_mirrors/ch/ChromaControl 你是否曾经面对桌上五颜六色的RGB设备感到困惑&#…...

scanf/fscanf/sscanf和printf/fprintf/sprintf的对比

目录 摘要: 一:函数的对比 二:函数的使用 1:printf 2:scanf 3:fprintf 4:fscanf 5:sprintf 6:sscanf 摘要: 本博客从函数参数到具体使用过程去对比这…...

告别黑盒:手把手教你用VTK在QT中‘组装’并驱动SolidWorks导出的机械臂模型

从STL零件到可交互机械臂:VTKQT三维可视化开发实战 机械臂的数字化仿真一直是工业自动化与机器人教学中的核心课题。想象一下,当你从SolidWorks中导出一堆零散的STL文件,如何在代码中让它们"活"起来——每个关节都能独立旋转&#…...