当前位置: 首页 > article >正文

Python:简单的爬虫程序,从web页面爬取图片与标题并保存MySQL

文章目录

  • 一、环境说明
  • 二、基本思路
  • 三、代码

一、环境说明

python 版本:3.10
MySQL版本:8

二、基本思路

首先,我们需要查看网页源代码
通过html源码,确定我们要抓取的内容所在标签的特点

然后,利用BeautifulSoup进行html代码解析
在逐一获取我们需要的标签即可。

最后,将图片下载到本地,基本信息保存到MySQL

三、代码

import os  # 同来创造文件夹
from bs4 import BeautifulSoup  # 用来解析回应的数据
import pymysql
import requests  # 发送请求和得到响应用的def main(pages):filepath = os.getcwd() + '\myImgs\\'  # 创造一个文件夹if not os.path.exists(filepath):  # 如果没有则创造os.makedirs(filepath)#创建数据库连接# 连接 MySQL 数据库db = pymysql.connect(host='127.0.0.1',  # 主机名port=3306,  # 端口号,MySQL默认为3306user='root',  # 用户名password='root',  # 密码database='test',  # 数据库名称)cur = db.cursor()img_url = ""context = ""local_path = ""for page in range(pages):url = "https://www.huffpost.com/news/?page=" + str(page+1)  # 第几页print(url)r = requests.get(url, verify=False)     #取消SSL验证soup = BeautifulSoup(r.text, 'html.parser')  # html.parser是解析器divs = soup.find_all(name='div', attrs={'class': ['card card--standard js-card']})  # 根据class值,获取对应的divfor item in divs:title = item.find(name='h3', attrs={'class': ['card__headline__text']})context = title.text     #读取标签内容image = item.find(name='img', attrs={'width': ['368']})img_url = image.get('src')  # 获取图片url地址imgcontent = requests.get(img_url).content  # 获取图片的二进制数据filename = img_url[img_url.index('asset/') + 6:img_url.rfind('.')] + '.jpeg'# filename = str(fnum) + '.jpg'local_path = str(filepath).replace("\\", "\\\\") + filenamewith open(filepath + filename, 'wb') as wf:  # 二进制形式写入数据wf.write(imgcontent)sql = 'INSERT INTO `test`.`py_news` (`img_url`, `context`, `local_path`) VALUES ( "' + img_url + '", "' + context + '", "' + local_path + '");'print(sql)cur.execute(sql)  # 引号中为SQL语句r.close()  # 关闭连接# 关闭数据库连接cur.close()db.close()if __name__ == '__main__':main(3)

相关文章:

Python:简单的爬虫程序,从web页面爬取图片与标题并保存MySQL

文章目录 一、环境说明二、基本思路三、代码 一、环境说明 python 版本:3.10 MySQL版本:8 二、基本思路 首先,我们需要查看网页源代码 通过html源码,确定我们要抓取的内容所在标签的特点 然后,利用BeautifulSoup进…...

GStreamer —— 2.3、Windows下Qt加载GStreamer库后运行 - “教程3:动态管道“(附:完整源码)

运行效果(音频) 简介 上一个教程演示了GStreamer 概念。本教程中的管在它设置为 playing 状态之前完全构建。这没关系。如果 我们没有采取进一步的行动,数据会到达 pipeline 的 pipeline 和 pipeline 将生成错误消息并停止。但 我们将采取进一…...

【Java数据结构】前K个高频单词

前K个高频单词 692. 前K个高频单词 - 力扣(LeetCode) 解决这个问题我们先得知道每个单词出现的次数,用map存储下来,然后将出现次数最多的通过建立小根堆解决top-K问题 ,重点是top-K的求取。 1.建立map 首先我们可以…...

Ubuntu20.04本地配置IsaacLab 4.5.0的训练环境(一)

Ubuntu20.04本地配置IsaacLab 4.5.0的训练环境(一) 配置conda虚拟环境(对于这一步,个人感觉跟在配置IsaacLab那一节的./isaaclab.sh --install同样要执行这一步,建议先不执行)配置IsaacSim配置IsaacLab 写在…...

第二次CCF-CSP认证(含C++源码)

第二次CCF-CSP认证 第一道(easy)思路及AC代码 第二道(easy)基本思路及AC代码 第三道(mid)基本思路及AC代码solution 1 (模拟)solution 2(KMP) 第一道(easy) 题…...

前端多角色权限页面(同浏览器同时登录)数据互串解决

项目是使用vue3写的 问题说明 现在的问题是,在同个浏览器打开两个标签页(都是登录页面),A标签页先登录A的账号,然后B标签页登录B账号。我的登录信息(userInfo和token、权限等都是存放在localStorage中的&…...

常见面试问题:MVC模式

MVC(Model-View-Controller)是一种分层架构设计模式,核心思想是通过职责分离提升代码的可维护性和扩展性。它的三个组件分工如下: 1. Model(模型) 职责:管理数据和业务逻辑,与数据库…...

【项目】视频点播

一、项目介绍 1. 对视频点播系统的认识 搭建视频共享点播服务器,可以让所有人通过浏览器访问服务器,实现视频的上传查看,以及管理并播放的功能。主要是完成服务器端的程序业务功能的实现以及前端访问界面 html 的编写,能够支持客…...

vue videojs使用canvas截取视频画面

前言 刚开始做的时候太多坑,导致一直报错: Uncaught (in promise) TypeError: Failed to execute ‘drawImage’ on ‘CanvasRenderingContext2D’: The provided value is not of type ‘(CSSImageValue or HTMLCanvasElement or HTMLImageElement or H…...

DeepSeek私有化部署6:openEuler 24.03-LTS-SP1安装Open WebUI

Open WebUI是一个 Open WebUI 是一个可扩展的、功能丰富、用户友好的自托管 AI 平台,专为完全离线运行而设计。 它支持多种 LLM 运行环境,包括 Ollama 和 OpenAI 兼容的 API,并内置了用于 RAG 的推理引擎,是一个强大的 AI 部署解决…...

uniapp+微信小程序+地图+传入多个标记点显示+点击打开内置地图导航+完整代码

一、效果展示 二、完整代码 <template><view class"container"><map class"map-container" :latitude"latitude" :longitude"longitude" :markers"markers" :controls"controls" show-location m…...

摄像头应用编程(四):ARM Linux LCD实时预览UVC摄像头画面

文章目录 1、前言2、环境介绍3、步骤4、应用程序编写4.1、lcd初始化4.2、摄像头初始化4.3、jpeg解码4.4、开启摄像头4.5、完整的程序如下 5、测试5.1、编译应用程序5.2、运行应用程序 6、总结 1、前言 本次应用程序主要针对支持MJPEG格式输出的UVC摄像头。 2、环境介绍 rk35…...

Linux下的c进程和java进程的通信-UnixSocket

1、开发c代码 引用的库 /usr/include c代码 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <sys/socket.h> #include <sys/un.h> #include <unistd.h>#define SOCKET_PATH "/tmp/my_socket"int mai…...

单线程 Redis 如何实现高可用?深入图解主从复制与哨兵模式

单线程 Redis 如何实现高可用&#xff1f;深入解析主从复制与哨兵模式 一、主从模式&#xff1a;高可用的基石 主从模式是 Redis 实现高可用的基础架构&#xff0c;通过数据冗余和读写分离提升系统可靠性。其核心结构如下&#xff1a; 角色功能主节点唯一可写节点&#xff0c…...

ubuntu 启动不起来,光标闪烁 解决方法

ubuntu 启动不起来&#xff0c;光标闪烁 进不了系统&#xff0c;解决方法 按ctrl alt f2&#xff0c;进入终端&#xff0c;登录。 jounal -b 查看启动日志。 发现是找不到显卡驱动程序。 解决方法&#xff1a; 卸载nvidia程序。 sudo systemctl stop gdm # 适用于GNOME…...

RV1126采集VI视频数据流

这节分享一下通过rkmedia的api获取RV1126的VI视频流&#xff0c;但是具体的已经在第一个推流项目已经说了。这里更多是回顾一下这部分的api。 采集vi数据实现 VI_CHN_ATTR_S&#xff0c;视频采集的VI模块。 int main() {int ret;VI_CHN_ATTR_S vi;vi.pcVideoNode CAMERA_PAH…...

Linux(Centos 7.6)命令详解:vi

1.命令作用 vi/vim 是Linux 系统内置不可或缺的文本编辑命令&#xff0c;vim 是vi 的加强版本&#xff0c;兼容vi 的所有指令&#xff0c;不仅能编辑文本&#xff0c;而且还具有shell 程序编辑的功能&#xff0c;可以不同颜色的字体来辨别语法的正确性。 2.命令语法 usage: …...

音视频入门基础:RTP专题(15)——FFmpeg源码中,获取RTP的视频信息的实现

一、引言 通过FFmpeg命令可以获取到SDP文件描述的RTP流的视频压缩编码格式、色彩格式&#xff08;像素格式&#xff09;、分辨率、帧率信息&#xff1a; ffmpeg -protocol_whitelist "file,rtp,udp" -i XXX.sdp 本文以H.264为例讲述FFmpeg到底是从哪个地方获取到这…...

【2025小白版】计算复试/保研机试模板(个人总结非GPT生成)附代码

一、编程语言选择 很多高校在机试中对编程语言都有明确规定&#xff0c;像复旦大学计算机学院就说明可选择 C、C 或 Java 语言答题&#xff0c;还支持 C11&#xff08;gcc5.4&#xff09;&#xff0c;C14&#xff08;g5.4&#xff09;&#xff0c;Java (openjdk1.8&#xff09…...

Linux查看TP6 command定时任务并重启

TP6定时任务设置: 1、在项目根目录/app/command 目录下创建定时任务类文件MemberSubmit.php 使用 $this->setName(memberSubmit) 方法设置名称为 memberSubmit 的定时任务。 namespace app\command;use think\console\Command; use think\console\Input; use think\conso…...

系统运维分级掌握知识技能

以下是针对系统运维工程师的初中高三个等级的详细学习路线规划&#xff0c;结合理论知识与实践技能&#xff0c;帮助您逐步成长为专业运维人员&#xff1a; 初级阶段&#xff08;入门基础&#xff09; 目标&#xff1a;掌握运维基础工具与概念&#xff0c;能独立完成基础运维任…...

aardio - 虚表 —— 两个虚表之间互相拖动交换数据

插入到虚表末尾的方法&#xff1a; import win.ui; import godking.vlistEx; /*DSG{{*/ mainForm win.form(text"vlistEx - table adapter";right849;bottom578;border"thin") mainForm.add( radiobutton{cls"radiobutton";text"移动&qu…...

第一:goland安装

GOPROXY (会话临时性)&#xff0c;长久的可以在配置文件中配置 go env -w GOPROXYhttps://goproxy.cn,direct 长久的&#xff0c;在~/.bashrc文件中添加&#xff1a; export GOPROXYhttps://goproxy.cn,direct &#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d…...

Dockerfile 深入浅出:从基础到进阶全解析

Dockerfile 深入浅出&#xff1a;从基础到进阶全解析 各位同学&#xff0c;大家好&#xff01;欢迎来到今天的 Dockerfile 课程。Docker 技术在当今的软件开发和部署领域可以说是非常热门&#xff0c;而 Dockerfile 作为构建 Docker 镜像的关键文件&#xff0c;掌握它对于我们…...

Mybatis中的分页操作,如何使用PageHelper进行分页,以及Spring Boot整合Mybatis Plus分页

目的&#xff1a; 学会分页功能&#xff0c;学会分页方法 场景&#xff1a; 将下面的数据进行分页&#xff1a; 文章目录 Mybatis 单独使用分页&#xff08;没有整合&#xff09;1. PageHelper 插件 Spring Boot 整合 Mybatis Plus 使用分页1. selectPage 方法实现分页2. selec…...

python学习第三天

条件判断 条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。 # 条件判断 age 18 if age < 18:print("你还是个孩子&#xff01;") elif age 18:print("永远十八岁&#xff01;") else:print("你还年轻&#xff01;")…...

CSS Overflow 属性详解

CSS Overflow 属性详解 在网页设计和开发中,CSS Overflow 属性是一个非常重要的特性,它决定了当内容超出其容器大小时应该如何处理。本文将详细介绍 CSS Overflow 属性的相关知识,包括其语法、作用、常用属性值以及一些实际应用场景。 1. CSS Overflow 属性概述 CSS Over…...

深度解析:视频软编码与硬编码的优劣对比

视频编码 一、基本原理与核心技术 压缩原理 通过时空冗余消除实现数据压缩&#xff1a; 空间冗余&#xff1a;利用帧内预测&#xff08;如DC/角度预测&#xff09;消除单帧内相邻像素相似性。时间冗余&#xff1a;运动估计与补偿技术&#xff08;ME/MC&#xff09;减少连续帧间…...

【网络安全】API安全防护完整指南

文章目录 API安全为什么 API 安全性重要?API 安全性与通用应用程序安全性的区别传统 Web 安全的主要特征API 安全的关键特征OWASP API 前 10 大安全威胁API1:2019 - 破坏对象级授权(Broken Object-Level Authorization)API2:2019 - 破坏用户身份验证(Broken User Authentic…...

Docker 学习(四)——Dockerfile 创建镜像

Dockerfile是一个文本格式的配置文件&#xff0c;其内包含了一条条的指令(Instruction)&#xff0c;每一条指令构建一层&#xff0c;因此每一条指令的内容&#xff0c;就是描述该层应当如何构建。有了Dockerfile&#xff0c;当我们需要定制自己额外的需求时&#xff0c;只需在D…...