当前位置：首页 > news >正文

Python →爬虫实践

news 2025/8/24 14:47:28

爬取研究中心的书目

现在，想要把如下网站中的书目信息爬取出来。

案例一耶鲁

Publications | Yale Law School

分析网页，如下图所示，需要爬取的页面，标签信息是“<p>”，所以用 items=soup.find_all("p")

代码如下：

import requests
from bs4 import BeautifulSoup as bs
from openpyxl import Workbookurl="https://law.yale.edu/china-center/publications/recent-staff-publications"webfile=requests.get(url)
webfile.encoding="utf-8"
data=webfile.textsoup=bs(data,"html.parser")
soup.prettify()items=soup.find_all("p")
for i in items:print(i.get_text())

完善代码如下：

import requests
from bs4 import BeautifulSoup as bs
from openpyxl import Workbook
import rewb=Workbook()
ws=wb.activewfile=open("bool.txt","w",encoding="utf-8")url="https://law.yale.edu/china-center/publications/recent-staff-publications"webfile=requests.get(url)
webfile.encoding="utf-8"
data=webfile.textsoup=bs(data,"html.parser")
soup.prettify()items=soup.find_all("p")# 正则表达式匹配模式
pattern1 = r'([^,\n“]+), “([^”]+),”\s*([^,\n]+)'
pattern2 = r'([^,]+(?: and [^,]+)*), “([^”]+),”''''
正则表达式匹配模式：([^,]+(?: and [^,]+)*)：匹配作者名。这个模式匹配一个或多个名字，由“and”连接。[^,]+匹配一个或多个非逗号字符，(?: and [^,]+)*是一个非捕获组，匹配零个或多个“and”后跟一个或多个非逗号字符的模式。
“([^”]+),”：匹配文章名。这个模式匹配引号内的任何字符，直到遇到闭合的引号和逗号。([^,\n“]+)：匹配作者名。这个模式匹配一个或多个非逗号、换行符和左引号的字符序列。[^,\n“]是一个字符集，表示匹配除了逗号、换行符和左引号之外的任何字符。+表示匹配一个或多个这样的字符。
“([^”]+),”：匹配文章名。这个模式匹配以左引号开始，以右引号结束的任何字符序列，并且确保文章名后面跟着一个逗号。
([^,\n]+)：匹配期刊名。这个模式匹配一个或多个非逗号和换行符的字符序列。'''for i in items:info=i.get_text()# 查找所有匹配项matches = re.findall(pattern1, info)if len(matches)>0:print(matches)for m in matches:print(m,sep=",",file=wfile)wfile.close()

将txt文本导入excel即可。原因在于正则表达式中得到的列表中的信息，有的似乎是tuptle类型，导致openpyxl无法输入xlsx表格中。所以采用了txt文本方式。

基于以上出现的情况，再次优化代码，如下：

import requests
from bs4 import BeautifulSoup as bs
from openpyxl import Workbook
import rewb=Workbook()
ws=wb.activewfile=open("bool.txt","w",encoding="utf-8")url="https://law.yale.edu/china-center/publications/recent-staff-publications"webfile=requests.get(url)
webfile.encoding="utf-8"
data=webfile.textsoup=bs(data,"html.parser")
soup.prettify()items=soup.find_all("p")# 正则表达式匹配模式
pattern1 = r'([^\n“]+), “([^”]+),”\s*([^,\n]+)' #作者和文章名和期刊名，用括号将三者区分
pattern2 = r'([^\n“]+), “([^”]+),”\s*([^,\n]+[)])'
#parttern1缺少了最后的右括号，在这里补充上。[）]表示可供选择。for i in items:info=i.get_text()# 查找所有匹配项matches = re.findall(pattern2, info)if len(matches)>0:print(matches)for m in matches:mlist=[]#将元组的元素放到列表中，这样可以把列表的字符串输出到xlsx中for k in m:mlist.append(k)print(k,sep=",",end=";",file=wfile)print("\n",file=wfile)
##                print(type(k))ws.append(mlist)##            print(m,sep=",",file=wfile)#注意，m是元组而不是字符串#print(type(m))wfile.close()
wb.save("book2.xlsx")

首先是完善了正则表达式：

'''
正则表达式匹配模式

[^,]+匹配一个或多个非逗号字符，
(?: and [^,]+)*是一个非捕获组，匹配零个或多个“and”后跟一个或多个非逗号字符的模式。

([^\n“]+)：匹配作者名。这个模式匹配一个或多个非换行符和左引号的字符序列。

“([^”]+),”：匹配文章名。这个模式匹配引号内的任何字符，直到遇到闭合的引号和逗号。
[^,\n“]是一个字符集，表示匹配除了逗号、换行符和左引号之外的任何字符。+表示匹配一个或多个这样的字符。
“([^”]+),”：匹配文章名。这个模式匹配以左引号开始，以右引号结束的任何字符序列，并且确保文章名后面跟着一个逗号。
([^,\n]+)：匹配期刊名。这个模式匹配一个或多个非逗号和换行符的字符序列。
'''

# 正则表达式匹配模式
pattern1 = r'([^\n“]+), “([^”]+),”\s*([^,\n]+)' #作者和文章名和期刊名，用括号将三者区分
pattern2 = r'([^\n“]+), “([^”]+),”\s*([^,\n]+[)])'
#parttern1缺少了最后的右括号，在这里补充上。[）]表示可供选择。

然后循环输出元组中的元素，放到列表中，从而将元组的元素转化为列表中的字符串。

最后，将不必要的信息清除，简洁代码如下：

import requests
from bs4 import BeautifulSoup as bs
from openpyxl import Workbook
import rewb=Workbook()
ws=wb.activewfile=open("bool.txt","w",encoding="utf-8")url="https://law.yale.edu/china-center/publications/recent-staff-publications"webfile=requests.get(url)
webfile.encoding="utf-8"
data=webfile.textsoup=bs(data,"html.parser")
soup.prettify()items=soup.find_all("p")# 正则表达式匹配模式pattern2 = r'([^\n“]+), “([^”]+),”\s*([^,\n]+[)])'#作者和文章名和期刊名，用括号将三者区分for i in items:info=i.get_text()# 查找所有匹配项matches = re.findall(pattern2, info)if len(matches)>0:print(matches)for m in matches:mlist=[]for k in m:mlist.append(k)print(k,sep=",",end=";",file=wfile)            ws.append(mlist)wfile.close()
wb.save("book2.xlsx")

即可完成。

案例二哈佛

爬取哈佛大学费正清中心出版书籍的信息时候，标签信息是class="article-container entry-content clear"，所以用：item1=soup.find_all(attrs={"class":"article-container entry-content clear"})

所以，爬取代码如下：

 
'''
下面这段代码，爬取哈佛大学费正清中心出版书籍的信息
'''
import requests
from bs4 import BeautifulSoup as bs
from openpyxl import Workbookwb=Workbook()
ws=wb.activefor page in range(1,9):url=f'https://fairbank.fas.harvard.edu/research/publications/page/{page}/'webFile=requests.get(url)webFile.eocoding="utf-8"data=webFile.textsoup=bs(data,'html.parser')soup.prettify()##item1=soup.find_all(attrs={"class":"uagb-post__title"})#提取书本标题信息##for i in item1:##    print(i.get_text())######item2=soup.find_all(attrs={"class":"ast-excerpt-container ast-blog-single-element"})#提取书目介绍信息##for k in item2:##    print(k.get_text())item3=soup.find_all(attrs={"class":"article-container entry-content clear"})#在网络页面中，找到的整个的文本for m in item3:info=m.get_text()row1=info.split("\n")row2=list(filter(lambda x:len(x)>1,row1))#过滤掉空字符串。ws.append(row2)#worksheet中添加的是列表，然后把列表中的元素挨个放到了xlsx表格中。wb.save("bool.xlsx")

即可完成。

案例三普林斯顿大学

观察该网站，标签信息是class="row search-result-wrapper"

其网站如下：

url="https://catalog.princeton.edu/?f%5Bformat%5D%5B%5D=Book&f%5Blocation%5D%5B%5D=East+Asian+Library&page=1&per_page=100"

于是写代码如下：

import requests
from bs4 import BeautifulSoup as bs
from openpyxl import Workbook
import rewb=Workbook()
ws=wb.activefor pageNum in  range(1,100):#提取一百页，共10000条书目的信息url=f"https://catalog.princeton.edu/?f%5Bformat%5D%5B%5D=Book&f%5Blocation%5D%5B%5D=East+Asian+Library&page={pageNum}&per_page=100"webfile=requests.get(url)webfile.encoding="utf-8"data=webfile.textsoup=bs(data,"html.parser")soup.prettify()item=soup.find_all(attrs={"class":"row search-result-wrapper"})for m in item:info=m.get_text()row1=info.split("\n")row2=list(filter(lambda x: len(x)>1,row1))ws.append(row2)print(pageNum,pageNum/100)
wb.save("book3.xlsx")

即可完成。

一日一图

代码如下：

"""
使用Python中的turtle模块绘制一个壮观的太阳系图是一个有趣且具有挑战性的任务"""import turtle
import math# 设置屏幕
screen = turtle.Screen()
screen.bgcolor("black")
screen.title("Solar System")# 创建太阳
sun = turtle.Turtle()
sun.hideturtle()
sun.penup()
sun.goto(0, -200)
sun.pendown()
sun.color("yellow")
sun.begin_fill()
sun.circle(50)
sun.end_fill()# 行星数据（名称，距离太阳的距离（单位：像素），大小（单位：像素））
planets = [("Mercury", 35, 5),("Venus", 72, 10),("Earth", 98, 10),("Mars", 152, 7),("Jupiter", 279, 30),  # 简化大小，实际应更大("Saturn", 449, 25),   # 简化大小，实际应更大# "Uranus" 和 "Neptune" 由于距离太远，在这个比例下可能无法很好地显示
]# 绘制行星和轨道
orbit_color = "gray"
planet_color = ["gray", "yellow", "blue", "red", "orange", "gold", "lightblue"]  # 对应行星的颜色，实际应根据行星选择for i, (name, distance, size) in enumerate(planets):# 绘制轨道orbit_turtle = turtle.Turtle()orbit_turtle.hideturtle()orbit_turtle.speed(0)orbit_turtle.penup()orbit_turtle.goto(0, 0)orbit_turtle.pendown()orbit_turtle.color(orbit_color)orbit_turtle.width(2)orbit_turtle.circle(distance)orbit_turtle.hideturtle()# 绘制行星planet_turtle = turtle.Turtle()planet_turtle.hideturtle()planet_turtle.speed(0)planet_turtle.penup()# 计算行星在轨道上的位置angle = 360 * i / len(planets)  # 均匀分布行星x = distance * math.cos(math.radians(angle))y = distance * math.sin(math.radians(angle)) - 200  # 减去太阳的高度planet_turtle.goto(x, y)planet_turtle.pendown()planet_turtle.color(planet_color[i % len(planet_color)])  # 循环使用颜色planet_turtle.begin_fill()planet_turtle.circle(size)planet_turtle.end_fill()planet_turtle.write(name, align="center", font=("Arial", 8, "normal"))planet_turtle.hideturtle()# 隐藏turtle光标
turtle.done()
turtle.tracer(False)

图片如下：

即可完成。

Python →爬虫实践

爬取研究中心的书目现在，想要把如下网站中的书目信息爬取出来。案例一耶鲁 Publications | Yale Law School 分析网页，如下图所示，需要爬取的页面，标签信息是“<p>”，所以用 itemssoup.find_all("p&…...

编程日记 2024/11/15 22:43:08

Visitor 访问者模式

1)意图表示一个作用于某对象结构中的各元素的操作。它允许在不改变各元素的类的前提下定义用于这些元素的新操作。 2)结构访问者模式的结构图如图 7-48 所示。其中: Visitor(访问者) 为该对象结构中ConcreteElement 的每一个类声明一个 Vsit 操作。该操作的名字和特征标识…...

编程日记 2024/11/15 22:41:06

Mac解压包安装MongoDB8并设置launchd自启动

记录一下在mac上安装mongodb8过程，本机是M3芯片所以下载m芯片的安装包，intel芯片的类似操作。首先下载安装程序包。 # M芯片下载地址 https://fastdl.mongodb.org/osx/mongodb-macos-arm64-8.0.3.tgz # intel芯片下载地址 https://fastdl.mongodb.org…...

编程日记 2024/11/15 22:40:05

Springboot采用jasypt加密配置

目录前言一、Jasypt简介二、运用场景三、整合Jasypt 2.1.环境配置 2.2.添加依赖 2.3.添加Jasypt配置 2.4.编写加/解密工具类 2.5.自定义加密属性前缀和后缀 2.6.防止密码泄露措施 2.61.自定义加密器 2.6.2通过环境变量指定加密盐值总结前言在以往的多数项目中&#xff0…...

编程日记 2024/11/15 22:32:58

加载shellcode

#include <stdio.h>#include <windows.h>DWORD GetHash(const char* fun_name){ DWORD digest 0; while (*fun_name) { digest ((digest << 25) | (digest >> 7)); //循环右移 7 位 digest *fun_name; //累加…...

编程日记 2024/11/15 22:28:55

K8S如何基于Istio实现全链路HTTPS Istio 简介Istio 是什么？为什么选择 Istio？Istio 的核心概念Service Mesh(服务网格)Data Plane(数据平面)Sidecar Mode(边车模式)Ambient Mode(环境模式)Control Plane(控制平面)Istio 的架构与组件Envoy ProxyIstiod其他组件Istio 的流量管…...

编程日记 2024/11/15 22:20:45

React Query在现代前端开发中的应用

💓 博客主页：瑕疵的CSDN主页 📝 Gitee主页：瑕疵的gitee主页 ⏩ 文章专栏：《热点资讯》 React Query在现代前端开发中的应用 React Query在现代前端开发中的应用 React Query在现代前端开发中的应用引言 React Query …...

编程日记 2024/11/15 22:19:45

【HAProxy09】企业级反向代理HAProxy高级功能之压缩功能与后端服务器健康性监测

HAProxy 高级功能介绍 HAProxy 高级配置及实用案例压缩功能对响应给客户端的报文进行压缩，以节省网络带宽，但是会占用部分CPU性能建议在后端服务器开启压缩功能，而非在HAProxy上开启压缩注意：默认Ubuntu的包安装nginx开…...

编程日记 2024/11/15 22:11:38

PostgreSQL中表的数据量很大且索引过大时怎么办

在PostgreSQL中，当表的数据量很大且索引过大时，可能会导致性能问题。以下是一些优化索引和表数据的方法： 1. 评估和删除不必要的索引识别未使用的索引：使用pg_stat_user_indexes和pg_index系统视图来查找未被使用的索引&#x…...

编程日记 2024/11/15 22:09:36

【QML】QML多线程应用(WorkerScript)

1. 实现功能 QML项目中，点击一个按键后，运行一段比较耗时的程序，此时ui线程会卡住。如何避免ui线程卡住。 2. 单线程（会卡住） 2.1 界面 2.2 现象点击delay btn后，执行耗时函数（TestJs.func…...

编程日记 2024/11/15 22:05:33

认证鉴权框架SpringSecurity-1--概念和原理篇

1、基本概念 Spring Security 是一个强大且高度可定制的框架，用于构建安全的 Java 应用程序。它是 Spring 生态系统的一部分，提供了全面的安全解决方案，包括认证、授权、CSRF防护、会话管理等功能。 2、认证、授权和鉴权 （1&am…...

编程日记 2024/11/15 22:02:31

计算器上的MC、MR、M+、M—、CE是什么意思？

在计算器中， MC键叫做memory clear，中文清除存储，是一个清除寄存器中存储数字的指令。 MS键叫做memory save，中文存入存储。而MR键，则是一个读取原先存储在寄存器中的数字的指令。 M键指将当前数值存入寄存器以…...

编程日记 2024/11/15 22:00:29

无人机飞手执照处处需要，森林、石油管道、电力巡检等各行业都需要

无人机飞手执照在多个行业中确实具有广泛的应用需求，包括森林、石油管道、电力巡检等领域。以下是对这些领域无人机飞手执照需求的具体分析： 一、森林领域在森林领域，无人机飞手执照对于进行高效、准确的森林资源管理和监测至关重要。无人机…...

编程日记 2024/11/15 21:57:26

计算机网络——路由选择算法

路由算法路由的计算都是以子网为单位计算的——找到从原子网到目标子网的路径链路状态算法...

编程日记 2024/11/15 21:56:24

【前端】技术演进发展简史

一、前端 1、概述 1990 年，第一个web浏览器诞生，Tim 以超文本语言 HTML 为基础在 NeXT 电脑上发明了最原始的 Web 浏览器。 1991 年，WWW诞生，这标志着前端技术的开始。前端（Front-end）和后端（…...

编程日记 2024/11/15 21:55:24

深入解析贪心算法及其应用实例

标题：深入解析贪心算法及其应用实例一、引言贪心算法（Greedy Algorithm）是一类简单、直观的算法设计策略，广泛应用于优化问题中。其基本思想是每一步都选择当前状态下最优的选择，即在每一步做出局部最优的决策&…...

编程日记 2024/11/15 21:54:23

电子工牌独立双通道定向拾音方案(有视频演示)

现在一些行业的客服人员在面对客户都要求使用电子工牌分别记录客服和顾客的声音,我们利用双麦克风阵列双波束拾音的方案设计了一个电子工牌方案.可以有效分别记录客服和顾客的声音. 方案思路: 我们采用了一个双麦阵列波束拾音的模块A-59,此模块可以利用2个麦克风组成阵列进行双…...

编程日记 2024/11/15 21:53:22

举例理解LSM-Tree，LSM-Tree和B+Tree的比较

写操作 write1：WAL 把操作同步到磁盘中WAL做备份（追加写、性能极高） write2：Memtable 完成WAL后将(k,v)数据写入内存中的Memtable，Memtable的数据结构一般是跳表或者红黑树内存内采用这种数据结构一方面支持内存…...

编程日记 2024/11/15 21:50:19

React Native 全栈开发实战班 - 核心组件与导航

在 React Native 中，组件是构建用户界面的基本单元。React Native 提供了丰富的内置组件，涵盖了从基础布局到复杂交互的各种需求。本章节将详细介绍常用的内置组件，并重点讲解列表与滚动视图的使用。 1. 常用内置组件详解 React Native 提供…...

编程日记 2024/11/15 21:49:18

Leecode热题100-35.搜索插入位置

给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。示例 1: 输入: nums [1,3,5,6], target 5 输出: 2示例 2: 输入:…...

编程日记 2024/11/15 21:47:15

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

可靠性灵活性：电力载波技术在楼宇自控中的核心价值在智能楼宇的自动化控制中，电力载波技术（PLC）凭借其独特的优势，正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据，无需额外布…...

编程新知 2025/8/11 11:25:20

Opencv中的addweighted函数

一.addweighted函数作用 addweighted（）是OpenCV库中用于图像处理的函数，主要功能是将两个输入图像（尺寸和类型相同）按照指定的权重进行加权叠加（图像融合），并添加一个标量值&#x…...

编程新知 2025/8/22 4:40:49

GitHub 趋势日报 (2025年06月08日)

📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图今日获星趋势图 884 cognee 566 dify 414 HumanSystemOptimization 414 omni-tools 321 note-gen …...

编程新知 2025/7/29 21:54:16

UR 协作机器人「三剑客」：精密轻量担当（UR7e）、全能协作主力（UR12e）、重型任务专家（UR15）

UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中，UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化&#xf…...

编程新知 2025/8/22 11:37:46

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。您还将了解如何分析列，以便知晓哪些列包含有价值的数据，…...

编程新知 2025/8/22 3:59:09

USB Over IP专用硬件的5个特点

USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中，从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备（如专用硬件设备），从而消除了直接物理连接的需要。USB over IP的…...

编程新知 2025/8/22 3:59:13

算法笔记2

1.字符串拼接最好用StringBuilder，不用String 2.创建List<>类型的数组并创建内存 List arr[] new ArrayList[26]; Arrays.setAll(arr, i -> new ArrayList<>()); 3.去掉首尾空格...

编程新知 2025/8/22 3:59:16

VM虚拟机网络配置（ubuntu24桥接模式）：配置静态IP

编辑-虚拟网络编辑器-更改设置选择桥接模式，然后找到相应的网卡（可以查看自己本机的网络连接） windows连接的网络点击查看属性编辑虚拟机设置更改网络配置，选择刚才配置的桥接模式静态ip设置： 我用的ubuntu24桌…...

编程新知 2025/8/22 4:52:35

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。它们中的大多数将生成纯 CSS 代码，而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库，可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画，可以包含在你的网页或应用项目中。 3.An…...

编程新知 2025/8/22 5:18:34

MySQL 主从同步异常处理

阅读原文：https://www.xiaozaoshu.top/articles/mysql-m-s-update-pk MySQL 做双主，遇到的这个错误： Could not execute Update_rows event on table ... Error_code: 1032是 MySQL 主从复制时的经典错误之一，通常表示&#xff…...

编程新知 2025/8/4 1:00:56

爬取研究中心的书目

案例一 耶鲁

案例二 哈佛

案例三 普林斯顿大学

一日一图

相关文章：

案例一耶鲁

案例二哈佛

案例三普林斯顿大学