当前位置: 首页 > news >正文

爬虫案例——爬取情话网数据

需求:

1.爬取情话网站中表白里面的所有句子(表白词_表白的话_表白句子情话大全_情话网)

2.利用XPath来进行解析

3.使用面向对象形发请求——创建一个类

4.将爬取下来的数据保存在数据库中

8282f421d831464da90687bc3ab0a034.png

c1eef08bee8f4953bc89d9d2ab7611f4.png

c075da74c46b4e3aa86e4a7c841e8eea.png

74141cffdc364ee48287b7ca55db0dfc.png

b6a051b68ba847e68f7a7d031f8a8c8b.png

702a27b6ded643829edee5bf12d65171.png

b78c5f13c9c74c7cba32ac8ae8ccde80.png

写出对应解析语法

//div[@class="box labelbox"]/h4/a/@href

1e464526bf2d4c19b668b1f8c4298037.png

如此照推,详情页文本对应的解析语法

//div[@class="stbody "]//p[1]/text()|//div[@class="stbody first"]//p[1]/text()

b68c938feda74f909c73356958c25b8e.png示例代码:

import requests
from lxml import etree
import pymysql
#面向对象发请求 1.创建一个类
class Spiderqinghua():def __init__(self):self.url ='http://www.ainicr.cn/qh/t8.html'self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}#建立与MySQL的连接self.db = pymysql.connect(user='root',password='wx990826',database='pingping')self.cursor=self.db.cursor()#获取操作游标def get_data(self,url):r = requests.get(url=url,headers=self.headers)return r.textdef get_list_data(self,data):#列表页#//div[@class="box labelbox"]/h4/a/@hrefxml=etree.HTML(data)hrefs = xml.xpath('//div[@class="box labelbox"]/h4/a/@href')# print(hrefs)return hrefsdef parse_data(self,data):#详情页xml=etree.HTML(data)content = xml.xpath('//div[@class="stbody "]//p[1]/text()|//div[@class="stbody first"]//p[1]/text()')for contents in content:print('文本:',contents)print('=====================')self.save_data(contents)def save_data(self,qinghua):sql = 'insert into qinghua_data(text) value ("%s")'self.cursor.execute(sql,[qinghua])#执行sql语句self.db.commit()#提交def main(self):html_data=self.get_data(self.url)hrefs = self.get_list_data(html_data)for href in hrefs:print('详情页连接:',href)x_data = self.get_data(href)# print(x_data)self.parse_data(x_data)
#//div[@class="stbody "]//p[1]/text()|//div[@class="stbody first"]//p[1]/text()if __name__ == '__main__':spider=Spiderqinghua()spider.main()# h = spider.get_data()# # print(h)# spider.get_list_data(h)

运行结果:

dc1ff20b0bdc4e12bd995ab08d0c72a7.png

cdc903e90ed54574945aacca9ff486eb.png

 

相关文章:

爬虫案例——爬取情话网数据

需求: 1.爬取情话网站中表白里面的所有句子(表白词_表白的话_表白句子情话大全_情话网) 2.利用XPath来进行解析 3.使用面向对象形发请求——创建一个类 4.将爬取下来的数据保存在数据库中 写出对应解析语法 //div[class"box labelbo…...

端模一体,猎豹移动对大模型机器人发展路径清晰

今年世界机器人大会刚刚收官不久,接咖啡、拿苹果、摊煎饼……人形机器人在这届大会上备受关注,厂商们编排“整活”,展位几乎水泄不通。 自从AI大模型开始全面改变市场开始,关于机器人的方向性争论就不绝于耳,就在最近的…...

操作系统笔记

1、操作系统是什么 操作系统是管理硬件和软件的一种应用程序。操作系统是运行在计算机上最重要的一种软件,它管理计算机的资源和进程以及所有软硬件。为计算机提供一种中间层,使得应用软件和硬件进行分离,让我们无需关注硬件的实现&#xff…...

两个wordpress网站共用一个数据库的数据表

在WordPress中,如果你想要两个不同的网站调用同一个数据表,你可以通过以下几种方法实现: 方法一:使用共享数据库 1. 设置共享数据库: – 确保两个WordPress网站都可以访问同一个数据库。 – 在数据库服务器上创建一…...

工具方法 - 面试中回答问题的技巧

在面试中,回答问题的技巧尤为重要。它不仅展示了你的知识和能力,还体现了你处理压力和沟通的技巧。以下是一些在面试中常用的回答技巧,以及如何在这些场合有效地回应问题的示例: 1. 抓住问题的核心 面试官通常会提出直接的问题&a…...

频繁full gc问题排查及解决

为什么我们要对频繁full gc的情况进行处理---》频繁full gc会导致stw,影响用户体验。 (1)先进行问题的排查 如果频繁full gc 会报警,公司有自己的监控平台,可以查看full gc的情况 如果公司没有自己的监控平台&#…...

昇思学习打卡营第33天|基于MindSpore的恶性皮肤肿瘤识别

1. 实验介绍 本次实验的目标是基于MindSpore框架,训练一个ResNet50模型,用于恶性皮肤肿瘤的分类识别。本实验将使用包含四类皮肤肿瘤图片的数据集,针对ResNet50模型进行微调,训练出一个能够精准分类皮肤病的模型。主要过程包括数据…...

基于SpringBoot+Vue的网约车管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…...

Java、PHP、ASP、JSP、Kotlin、.NET、Go

Java 1995年,Java诞生了,微软的Java是J#,早期是J. 它在C的基础上增强了安全性,不允许多重继承,堆栈不允许类对象,数组和枚举都是类对象。 Java的诞生 早期的Sun公司想要在消费级嵌入式设备编写可移植的代码…...

华为-单臂路由

1、什么是单臂路由 单臂路由(Single-Arm Routing)是一种网络架构和配置技术,它允许路由器通过一个物理接口来管理多个虚拟局域网(VLAN)之间的通信。 这个物理接口被配置为Trunk模式,以便能够传输来自不同VL…...

AI应用的东风,奥特曼不想错过

文|魏琳华 编|王一粟 作为炙手可热的AI公司,Open AI又一次拿到了一轮足以令对手眼红的巨额融资。10月2日,Open AI宣布顺利完成66亿美元融资,补上了烧钱研发亏损的同时,还为下一轮竞争拿到了资金支持。 跻…...

LeetCode[中等] 238. 除自身以外数组的乘积

给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂…...

Linux plt表调用汇编代码分析

linux调用共享库中的函数时通过plt表和got表实现位置无关代码,过程中涉及到lazy binding,即在第一调用外部函数时解析被调用的函数地址并将地址写入到got表,后续调用则不需要解析函数地址,具体过程如下 1.c程序如下 #include &l…...

ubunut声卡配置 播放视频没有声音的解决方法 蓝牙问题

文章目录 🌕ubuntu22.04网页没有声音,声卡提示Dummy Output🌙方法一:切换内核🌙方法二:UBUNTU 声卡提示Dummy Output或伪输出解决办法(2020.04.02🌙方法三:解决Ubuntu18.…...

《软件工程概论》作业一:新冠疫情下软件产品设计

课程说明:《软件工程概论》为浙江科技学院2018级软件工程专业在大二下学期开设的必修课。课程使用《软件工程导论(第6版)》(张海藩等编著,清华大学出版社)作为教材。以《软件设计文档国家标准GBT8567-2006》…...

大厂出来的人为什么不比你高效?

在最近参加的一个线下聚会上,有人问我:“我们单位有来自阿里、腾讯、华为这些大厂的人,为什么我没觉得他们做事比我们这些没大厂经历的人更有章法和效率?”你别说,这一问所反映的现象,与我在阿里巴巴工作时…...

71.【C语言】动态内存管理(重点)(4)

本文为数据结构打下基础 备注:数据结构需要掌握指针,结构体和动态内存管理 目录 6.常见的动态内存的错误 1.对空指针解引用 2.对动态空间的越界访问 3.对非动态内存空间进行free释放 4.使用free只释放开辟的内存空间的一部分 5.对同一块动态内存多次释放 6.动态开辟的…...

JavaScript 用HTML5约束验证API做表单验证

一、验证属性与通过与否 以下为在表单元素上的可用属性&#xff1a; required<boolean> 必填字段&#xff0c;接受布尔值&#xff0c;默认false pattern<string> 接受正则&#xff0c;用户输入的文本必须满足该正则表单元素对象上有checkValidity()方法&#xff…...

Unity 编辑器多开

开发多人联机的功能时大多数会遇到测试机不方便的问题。想多开同一个项目Uinty又禁止。。。因为在使用Unity Editor打开一个项目时&#xff0c;Unity Editor会在项目目录建立一个Temp目录&#xff0c;同时对里面的一个UnityLockfile文件进行加锁。SO...可以使用以下方法进行多开…...

【Spring Boot React】Spring Boot和React教程 完整版

【Spring Boot & React】Spring Boot和React教程 在B站找到一个不错的SpringBoot和React的学习视频&#xff0c;作者是amigoscode 【Spring Boot & React】Spring Boot和React教程 2023年更新版【Spring Boot React】价值79.9美元&#xff0c;全栈开发&#xff0c;搭…...

数据分析师简历封神指南:数据可视化 + 业务洞察双重点

引言:别让你的简历,死在6秒筛选期 “熟练使用Python、SQL、Tableau,擅长数据分析与可视化”——当HR第101次看到这句千篇一律的技能描述时,手指已经悬在“删除”键上。2026年数据分析师岗位竞争有多卷?某招聘平台数据显示,平均每个岗位收到250份简历,HR平均花6秒扫描一…...

终极罗技鼠标宏指南:3步实现PUBG完美压枪

终极罗技鼠标宏指南&#xff1a;3步实现PUBG完美压枪 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 还在为《绝地求生》中难以控制的武器后坐力…...

企业级应用如何通过Taotoken实现API调用的审计与安全管控

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 企业级应用如何通过Taotoken实现API调用的审计与安全管控 将大模型能力集成到企业内部系统&#xff0c;为业务流程带来智能化的同时…...

ANFIS驱动的电力系统稳定控制器方法【附代码】

✨ 长期致力于电力系统稳定性、PSS2A、ANFIS研究工作&#xff0c;擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流&#xff0c;点击《获取方式》 &#xff08;1&#xff09;基于减法聚类与混合学习的ANFIS结构自动生成方法&#xf…...

【HarmonyOS6.1全场景实战】基线版本:我用了15篇文章,造出了一个能登录、能推荐、带后台的鸿蒙全栈App

我用了15篇文章&#xff0c;造出了一个能登录、能推荐、带后台的鸿蒙全栈App 摘要&#xff1a;从开篇词到第15篇&#xff0c;《灵犀厨房》的第一个里程碑版本 v2.0 正式发布。它不再是一个前端Demo&#xff0c;而是一个拥有用户认证系统、Python Flask后台、MySQL数据库、AI智能…...

如何让Windows资源管理器完美预览iPhone照片:HEIC缩略图插件全解析

如何让Windows资源管理器完美预览iPhone照片&#xff1a;HEIC缩略图插件全解析 【免费下载链接】windows-heic-thumbnails Enable Windows Explorer to display thumbnails for HEIC/HEIF files 项目地址: https://gitcode.com/gh_mirrors/wi/windows-heic-thumbnails 你…...

zen-rails-security-checklist测试策略:安全测试用例与自动化扫描

zen-rails-security-checklist测试策略&#xff1a;安全测试用例与自动化扫描 【免费下载链接】zen-rails-security-checklist Checklist of security precautions for Ruby on Rails applications. 项目地址: https://gitcode.com/gh_mirrors/ze/zen-rails-security-checkli…...

蓝桥杯单片机备赛:AT24C02 EEPROM存储整型数据的完整流程与常见错误分析

蓝桥杯单片机备赛&#xff1a;AT24C02 EEPROM存储整型数据的完整流程与常见错误分析 在蓝桥杯单片机竞赛中&#xff0c;AT24C02 EEPROM模块是必考内容之一。许多选手已经掌握了基本字符型数据的读写操作&#xff0c;但当面对整型数据时&#xff0c;往往会遇到各种问题。本文将深…...

Go语言微服务架构设计:从理论到实践

Go语言微服务架构设计&#xff1a;从理论到实践 引言 微服务架构已经成为现代软件架构的主流模式。Go语言凭借其高性能、轻量级和并发能力&#xff0c;成为构建微服务的理想选择。本文将深入探讨微服务架构的核心概念、Go语言实现策略&#xff0c;以及如何构建可扩展、高可用的…...

通达信主力进场洗盘拉升出货副图指标公式源码

以下是指标365网整理的通达信主力进场洗盘拉升出货副图指标公式的源码&#xff1a;指标核心逻辑&#xff1a;1、紫色表示主力进场吸筹阶段&#xff1b;2、红色表示试盘洗盘阶段&#xff1b;3、黄色表示拉升阶段&#xff1b;4、绿色表示出货阶段&#xff1b;5、柱子长短表示各阶…...