当前位置：首页 > news >正文

⌈ 传知代码 ⌋ 利用scrapy框架练习爬虫

news 2025/7/14 8:40:44

💛前情提要💛

本文是传知代码平台中的相关前沿知识与技术的分享~

接下来我们即将进入一个全新的空间，对技术有一个全新的视角~

本文所涉及所有资源均在传知代码平台可获取

以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦！！！

以下内容干货满满，跟上步伐吧~

📌导航小助手📌

💡本章重点
🍞一. 概述
🍞二. 演示效果
🍞三.核心逻辑
🫓总结

💡本章重点

利用scrapy框架练习爬虫

🍞一. 概述

运用Python语言编程知识及实现网络数据采集的各种Python第三方库、Scrapy框架等实现技术爬取网页信息，要求爬取的网页信息至少包括两种类型：标题列表页（该页要包括分页功能）和详情页。

在这里插入图片描述

🍞二. 演示效果

整体框架

在这里插入图片描述

文件导出

在这里插入图片描述

数据库导出

在这里插入图片描述

🍞三.核心逻辑

编写对应蜘蛛程序

    def start_requests(self):# 爬列表页 只爬1页for page in range(1, 2):yield Request(url="https://jobs.51job.com/beijing/p{}".format(page), callback=self.parse)def parse(self, response: HtmlResponse, **kwargs):# time.sleep(3)# 查看网页内容# print(response.text)sel = Selector(response)# 浏览器F12 选中目标，鼠标右击copy selector# 得到原始css选择器 body > div.maincenter > div.mcon > div.left > div.detlist.gbox > div:nth-child(7)title_text = sel.css('title::text').extract_first()# title_text = sel.xpath('//title/text()').extract_first()# 测试一下标题能不能获取到，如果不能，几乎可以肯定有问题print("title_text:", title_text)list_items = sel.css('div.detlist.gbox > div')for list_item in list_items:job_item = JobItem()job_id = list_item.css('input::attr(value)').extract_first()title = list_item.css('p.info > span.title > a::text').extract_first()location = list_item.css('p.info > span.location.name::text').extract_first()salary = list_item.css('p.info > span.location:not(.name)::text').extract_first()# 得到的是 '学历要求：本科' , 需要处理一下得到 '本科'degree = list_item.css('p.order::text').extract_first().split('：')[1].strip()# 详情页面detail_url = list_item.css('p.info > span.title > a::attr(href)').extract_first()print("test:", job_id, title, location, salary, degree, detail_url)job_item['job_id'] = job_idjob_item['title'] = titlejob_item['location'] = locationjob_item['salary'] = salaryjob_item['degree'] = degreeyield Request(url=detail_url,callback=parse_detail,cb_kwargs={'item': job_item})def parse_detail(response: HtmlResponse, **kwargs):job_item = kwargs['item']sel = Selector(response)# 原始css选择器 div.tCompany_main > div.tBorderTop_box> div.tmsg.inboxcompany_detail = sel.css('div.tmsg.inbox::text').extract_first()print('company_detail:', company_detail)job_item['company_detail'] = company_detailyield job_item

构造Items

class JobItem(scrapy.Item):job_id = scrapy.Field()title = scrapy.Field()location = scrapy.Field()salary = scrapy.Field()degree = scrapy.Field()company_detail = scrapy.Field()

编写文件管道（Excel）

class ExcelPipeline:def __init__(self):self.wb = openpyxl.Workbook()self.ws = self.wb.activeself.ws.title = 'Jobs'self.ws.append(['职位ID', '职位','工作地点', '薪资范围','学历要求', '公司详情'])def open_spider(self, spider):passdef close_spider(self, spider):self.wb.save('51jobs.xlsx')def process_item(self, item, spider):company_detail, degree, job_id, location, salary, title = get_infos(item)# self.ws.append([job_id, title, location, salary, degree, company_detail])self.ws.append((job_id, title, location, salary, degree, company_detail))return item

编写数据库管道及建表

class DbPipeline:def __init__(self):self.conn = pymysql.connect(host='localhost', port=3306, user='root', password='root',db='spyder', charset='utf8mb4')self.cursor = self.conn.cursor()def close_spider(self, spider):print('commit------------------------------')self.conn.commit()self.conn.close()def process_item(self, item, spider):company_detail, degree, job_id, location, salary, title = get_infos(item)self.cursor.execute('insert into tb_51job_items (job_id, title, location, salary, degree, company_detail) ''values (%s,%s,%s,%s,%s,%s)',(job_id, title, location, salary, degree, company_detail))return item

CREATE TABLE spyder.tb_51job_items (job_id varchar(100) NULL COMMENT '职位ID',title varchar(100) NULL COMMENT '职位',location varchar(100) NULL COMMENT '工作地点',salary varchar(100) NULL COMMENT '薪资范围',`degree` varchar(100) NULL COMMENT '学历要求',company_detail varchar(2000) NULL COMMENT '公司详情'
)
ENGINE=InnoDB
DEFAULT CHARSET=utf8mb4
COLLATE=utf8mb4_0900_ai_ci;

配置管道及优先级

ITEM_PIPELINES = {"spider51job.pipelines.ExcelPipeline": 300,"spider51job.pipelines.DbPipeline": 400
}

编写中间件代码

    def __init__(self):self.browser = create_chrome_driver(headless=False)self.browser.get('https://jobs.51job.com')# 初始化时, 先访问主页, 得到cookie信息cookie_file = '51job_cookies.json'# 这边也可以先人工运行test_generate_cookies.py提前生成好cookies信息,下面直接add_cookies使用就可以了generate_cookies(self.browser, cookie_file)add_cookies(self.browser, cookie_file)def __del__(self):# 爬完关闭浏览器self.browser.close()def process_request(self, request, spider):# Called for each request that goes through the downloader# middleware.# Must either:# - return None: continue processing this request# - or return a Response object# - or return a Request object# - or raise IgnoreRequest: process_exception() methods of#   installed downloader middleware will be calledself.browser.get(request.url)# time.sleep(5)if request.url.startswith('https://jobs.51job.com/beijing/p'):wait_obj = WebDriverWait(self.browser, 10)wait_obj.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, '#searchForm')))print('爬的时候可能也被反爬，需要人工滑块!')# page_source这个可以获取到动态页面的源代码return HtmlResponse(url=request.url, body=self.browser.page_source,encoding='utf-8', request=request)

🫓总结

综上，我们基本了解了“一项全新的技术啦” 🍭 ~~

恭喜你的内功又双叒叕得到了提高！！！

感谢你们的阅读😆

后续还会继续更新💓，欢迎持续关注📌哟~

💫如果有错误❌，欢迎指正呀💫

✨如果觉得收获满满，可以点点赞👍支持一下哟~✨

【传知科技 – 了解更多新知识】

⌈ 传知代码 ⌋ 利用scrapy框架练习爬虫

💛前情提要💛 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间，对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…...

编程日记 2024/7/31 17:13:11

深入了解 Python 面向对象编程（最终篇）

大家好！今天我们将继续探讨 Python 中的类及其在面向对象编程（OOP）中的应用。面向对象编程是一种编程范式，它使用“对象”来模拟现实世界的事务，使代码更加结构化和易于维护。在上一篇文章中，我们详细了解了…...

编程日记 2024/7/31 17:11:09

手把手教你实现基于丹摩智算的YoloV8自定义数据集的训练、测试。

摘要 DAMODEL（丹摩智算）是专为AI打造的智算云，致力于提供丰富的算力资源与基础设施助力AI应用的开发、训练、部署。官网链接：https://damodel.com/register?source6B008AA9 平台的优势 💡 超友好！ …...

编程日记 2024/7/31 17:10:02

SSH相关

前言这篇是K8S及Rancher部署的前置知识。因为项目部署测试需要，向公司申请了一个虚拟机做服务器用。此前从未接触过服务器相关的东西，甚至命令也没怎么接触过（接触最多的还是git命令，但我日常用sourceTree）。本篇SSH…...

编程日记 2024/7/31 17:09:01

mysql超大分页问题处理~

大家好，我是程序媛雪儿，今天咱们聊mysql超大分页问题处理。超大分页问题是什么？ 数据量很大的时候，在查询中，越靠后，分页查询效率越低例如 select * from tb_sku limit 0,10; select * from tb_sku lim…...

编程日记 2024/7/31 17:06:59

Gitlab以及分支管理

一、概述 Git 是一个分布式版本控制系统，用于跟踪文件的变化，尤其是源代码的变化。它由 Linus Torvalds 于 2005 年开发，旨在帮助管理大型软件项目的开发过程。二、Git 的功能特性 Git 是关注于文件数据整体的变化，直接会将文件…...

编程日记 2024/7/31 17:05:57

探索Axure在数据可视化原型设计中的无限可能

在当今数字化浪潮中，产品设计不仅关乎美观与功能的平衡，更在于如何高效、直观地传达复杂的数据信息。Axure RP，作为原型设计领域的佼佼者，其在数据可视化原型设计中的应用，正逐步揭开产品设计的新篇章。本文将从多个维…...

编程日记 2024/7/31 17:04:56

Redis 内存淘汰策略

Redis 作为一个内存数据库，必须在内存使用达到配置的上限时采取策略来处理新数据的写入需求。Redis 提供了多种内存淘汰策略（Eviction Policies），以决定在内存达到上限时应该移除哪些数据。...

编程日记 2024/7/31 17:03:55

逆天！吴恩达+OpenAI合作出了大模型课程！重磅推出《LLM CookBook》中文版

吴恩达老师与OpenAI合作推出的大模型系列教程，从开发者在大型模型时代的必备技能出发，深入浅出地介绍了如何基于大模型API和LangChain架构快速开发出结合大模型强大能力的应用。这些教程非常适合开发者学习，以便开始基于LLM实际构建应用程序…...

编程日记 2024/7/31 17:02:54

uint16_t、uint32_t类型数据高低字节互换

1. 使用位运算和逻辑运算符实现 #include<stdio.h> #include<stdint.h> int main() {void test_3() {uint16_t version = 0x1234;printf("%#x\n",(uint8_t)version);printf("%#x\n", version>>8);/*** 在C语言中，uint16和uint8是无符号…...

编程日记 2024/7/31 17:01:52

Java实现数据库图片上传（包含从数据库拿图片传递前端渲染）-图文详解

目录 1、前言： 2、数据库搭建 ： 建表语句： 3、后端实现，将图片存储进数据库： 思想： 找到图片位置（如下图操作） 图片转为Fileinputstream流的工具类（可直接copy&#…...

编程日记 2024/7/31 17:00:51

开放式耳机原理是什么？通过不入耳的方式，享受健康听音体验

在开放式耳机的领域又细分了骨传导和气传导两种类型的耳机， 气传导开放式耳机原理气传导是传统的声音传递方式，它依赖于空气作为声音传播的介质。声源输入：与普通开放式耳机相同，音频设备通过耳机线将电信号传递到耳机。驱动…...

编程日记 2024/7/31 16:57:48

有趣的PHP小游戏——猜数字

猜数字这个游戏会随机生成一个1到100之间的数字，然后你需要猜测这个数字是什么。每次你输入一个数字后，程序会告诉你这个数字是“高了”还是“低了”，直到你猜对为止！使用指南：代码如下，保存到一个php中：如 index.php。代码部署到PHP服务器，比如 phpstudy。运行网…...

编程日记 2024/7/31 16:54:43

logstash 全接触

简述什么是Logstash ？ Logstash是一个开源的集中式事件和日志管理器。它是 ELK（ElasticSearch、Logstash、Kibana）堆栈的一部分。在本教程中，我们将了解 Logstash 的基础知识、其功能以及它具有的各种组件。 Logstash 是一种基于…...

编程日记 2024/7/31 16:53:42

Windows本地构建镜像推送远程仓库

下载 Docker Desktop https://smartidedl.blob.core.chinacloudapi.cn/docker/20210926/Docker-win.exe 使用本地docker构建镜像和推送至远程仓库（harbor） 1、开启docker的2375端口 2、配置远程仓库push镜像可以通过http harbor.soujer.com:5000ps&am…...

编程日记 2024/7/31 16:52:41

计算机毕业设计LSTM+Tensorflow股票分析预测基金分析预测股票爬虫大数据毕业设计深度学习机器学习数据可视化人工智能

编程日记 2024/7/31 16:51:39

数据库

数据库是什么？ 如何按照和移植数据库？ 如何在命令行使用SQL语句操作数据库？ 如何在C / C程序中操作数据库？ 1. 数据库是什么？ 数据库...

编程日记 2024/7/31 16:48:36

智能城市管理系统设计思路详解：集成InfluxDB、Grafana和MQTTx协议（代码示例）

引言随着城市化进程的加快，城市管理面临越来越多的挑战。智能城市管理系统的出现，为城市的基础设施管理、资源优化和数据分析提供了现代化的解决方案。本文将详细介绍一个基于开源技术的智能城市管理系统，涵盖系统功能、技术实现、环境搭建…...

编程日记 2024/7/31 16:47:35

CloseableHttpClient.close() 导致 Connection pool shut down 的问题

TL;DR; CloseableHttpClient.close() 方法默认行为是关闭 HttpClientConnectionManager如果多个 CloseableHttpClient 共用了同一个 HttpClientConnectionManager，则第一个请求执行完，其他请求就会爆 Connection pool shut down 异常备注：ht…...

编程日记 2024/7/31 16:45:33

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统下面是一个完整的 Python 系统，利用大模型实现智能 UI 自动化，结合计算机视觉和自然语言处理技术，实现"看屏操作"的能力。系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

编程新知 2025/6/21 5:42:11

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

0. 概述上一节对安装和使用有个基本介绍。根据这个 issue 的描述，后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作，其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...

编程新知 2025/7/12 6:32:02

CMake基础：构建流程详解

目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...

编程新知 2025/7/13 18:40:35

STM32标准库-DMA直接存储器存取

文章目录一、DMA1.1简介1.2存储器映像1.3DMA框图1.4DMA基本结构1.5DMA请求1.6数据宽度与对齐1.7数据转运DMA1.8ADC扫描模式DMA 二、数据转运DMA2.1接线图2.2代码2.3相关API 一、DMA 1.1简介 DMA（Direct Memory Access）直接存储器存取 DMA可以提供外设…...

编程新知 2025/7/13 16:29:04