当前位置：首页 > news >正文

爬取89ip代理、爬取豆瓣电影

news 2025/10/17 1:55:17

1 爬取89ip代理
2 爬取豆瓣电影

1 爬取89ip代理

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
from requests.exceptions import ProxyErrorclass SpiderIP:def __init__(self):# 定义目标地址哦self.tag_url = "https://www.89ip.cn/"self.headers = {"User-Agent": UserAgent().random}def spider_index_response(self):response = requests.get(url=self.tag_url, headers=self.headers)return response.textdef create_soup(self):return BeautifulSoup(self.spider_index_response(), 'lxml')def spider_ip_port(self):soup = self.create_soup()tr_list = soup.select('div.layui-row.layui-col-space15 > div.layui-col-md8 > div > div.layui-form > table > tbody > tr')data_list = []for tr in tr_list:td_list = tr.find_all("td")ip = td_list[0].text.strip()port = td_list[1].string.strip()store = td_list[3].get_text().strip()# {"http":"http://IP:PORT"}data_list.append({"store": store, "proxies": {"http": f"http://{ip}:{port}"}})return data_listdef __spider_baidu(self, proxies):try:response = requests.get("http://httpbin.org/get", headers=self.headers, proxies=proxies, timeout=2)# 检查请求是否成功if response.status_code == 200:# 处理响应内容response.encoding = 'utf-8'  # 设置响应内容的编码格式为utf-8# 解析JSON结果data = response.text  # 获取响应信息print(data)else:print("请求失败:", response.status_code)except ProxyError:passdef test_ip(self):data_list = self.spider_ip_port()for index, data in enumerate(data_list, start=1):store = data.get("store")proxies = data.get("proxies")print(f"这是第 {index} 条数据! 运营商是 :>>> {store}")proxies = self.__spider_baidu(proxies=proxies)if proxies:print(f"当前代理可用")else:print(f"已废除")def main(self):self.test_ip()if __name__ == '__main__':s = SpiderIP()s.main()

2 爬取豆瓣电影

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
from lxml import etreeclass SpiderBase:def __init__(self):self.tag_url_list = []self.headers = {"User-Agent": UserAgent().random}class SpiderTopSoup(SpiderBase):def __init__(self):super().__init__()self.tag_url_list = self.__create_tag_url_list()def __create_tag_url_list(self):tag_url_list = []for i in range(0, int(250 / 25)):if i == 0:tag_url = "https://movie.douban.com/top250"tag_url_list.append(tag_url)else:tag_url = f"https://movie.douban.com/top250?start={i * 25}"tag_url_list.append(tag_url)return tag_url_listdef __create_soup(self, page_text):return BeautifulSoup(page_text, 'lxml')def __spider_detail_data(self, soup):data_list = []div_list = soup.find_all("div", class_="item")for div in div_list:#pic_div = div.find("div", class_="pic")# 封面图链接地址img_url = pic_div.a.img.get("src")# 排名level = pic_div.em.text# 详情链接detail_url = pic_div.a.get("href")bd_a_span_list = div.find("div", class_="info").find("div", class_="hd").a.find_all("span")try:title = bd_a_span_list[0].textexcept:title = ""try:title_eg = bd_a_span_list[1].textexcept:title_eg = ""try:title_desc = bd_a_span_list[2].textexcept:title_desc = ""bd_div = div.find("div", class_="info").find("div", class_="bd")# 导演和上映日期action, publish_date = [data.replace("\xa0", "").strip() for data in bd_div.p.text.strip().split("\n")]# 评分 和 评价span_list = bd_div.find("div", class_="star").find_all("span")score = span_list[1].textcomment_num = span_list[-1].text[0:-3]# 格言try:quote = bd_div.find("p", class_="quote").span.textexcept:quote = ""data_list.append({"title": title,"title_eg": title_eg,"title_desc": title_desc,"img_url": img_url,"level": level,"detail_url": detail_url,"action": action,"publish_date": publish_date,"score": score,"comment_num": comment_num,"quote": quote,})print(data_list)return data_listdef spider_index_data(self, tag_url):response = requests.get(url=tag_url, headers=self.headers)soup = self.__create_soup(page_text=response.text)return self.__spider_detail_data(soup=soup)def main(self):data_list_all = []for tag_url in self.tag_url_list:data_list = self.spider_index_data(tag_url=tag_url)data_list_all.extend(data_list)print(len(data_list_all))if __name__ == '__main__':s = SpiderTopSoup()s.main()

版本2（建议用这个）

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
from lxml import etreemovie_dict = {"title": '电影名',"title_eg": '英文名',"title_desc": '简介',"img_url": '图片链接',"level": '级别',"detail_url": '播放地址',"action": '导演和演员',"publish_date": '播放日期',"score": '评分',"comment_num": '评论数',"quote": '格言',
}class SpiderBase:def __init__(self):self.tag_url_list = []self.headers = {"User-Agent": UserAgent().random}class SpiderTopSoup(SpiderBase):def __init__(self):super().__init__()self.tag_url_list = self.__create_tag_url_list()def __create_tag_url_list(self):tag_url_list = []for i in range(0, int(250 / 25)):if i == 0:tag_url = "https://movie.douban.com/top250"tag_url_list.append(tag_url)else:tag_url = f"https://movie.douban.com/top250?start={i * 25}"tag_url_list.append(tag_url)return tag_url_listdef __create_soup(self, page_text):return BeautifulSoup(page_text, 'lxml')def __spider_detail_data(self, soup):data_list = []div_list = soup.find_all("div", class_="item")for div in div_list:#pic_div = div.find("div", class_="pic")# 封面图链接地址img_url = pic_div.a.img.get("src")# 排名level = pic_div.em.text# 详情链接detail_url = pic_div.a.get("href")bd_a_span_list = div.find("div", class_="info").find("div", class_="hd").a.find_all("span")try:title = bd_a_span_list[0].textexcept:title = ""try:title_eg = bd_a_span_list[1].textexcept:title_eg = ""try:title_desc = bd_a_span_list[2].textexcept:title_desc = ""bd_div = div.find("div", class_="info").find("div", class_="bd")# 导演和上映日期action, publish_date = [data.replace("\xa0", "").strip() for data in bd_div.p.text.strip().split("\n")]# 评分 和 评价span_list = bd_div.find("div", class_="star").find_all("span")score = span_list[1].textcomment_num = span_list[-1].text[0:-3]# 格言try:quote = bd_div.find("p", class_="quote").span.textexcept:quote = ""data_dict = {"title": title,"title_eg": title_eg,"title_desc": title_desc,"img_url": img_url,"level": level,"detail_url": detail_url,"action": action,"publish_date": publish_date,"score": score,"comment_num": comment_num,"quote": quote,}for key, value in movie_dict.items():new_dict = f"{value}: {data_dict[key]}"data_list.append(new_dict)print(data_list)return data_listdef spider_index_data(self, tag_url):response = requests.get(url=tag_url, headers=self.headers)soup = self.__create_soup(page_text=response.text)return self.__spider_detail_data(soup=soup)def main(self):data_list_all = []for tag_url in self.tag_url_list:data_list = self.spider_index_data(tag_url=tag_url)data_list_all.extend(data_list)print(len(data_list_all))if __name__ == '__main__':s = SpiderTopSoup()s.main()

爬取89ip代理、爬取豆瓣电影

1 爬取89ip代理 2 爬取豆瓣电影 1 爬取89ip代理 import requests from fake_useragent import UserAgent from bs4 import BeautifulSoup from requests.exceptions import ProxyErrorclass SpiderIP:def __init__(self):# 定义目标地址哦self.tag_url "https://www.89i…...

编程日记 2024/5/6 15:13:02

XBoot：基于Spring Boot 2.x的一站式前后端分离快速开发平台

XBoot：基于Spring Boot 2.x的一站式前后端分离快速开发平台摘要随着信息技术的迅速发展，快速构建高质量、高可靠性的企业级应用成为了迫切需求。XBoot，作为一个基于Spring Boot 2.x的一站式前后端分离快速开发平台，通过整合微信…...

编程日记 2024/5/6 15:10:41

24年最新抖音、视频号0成本挂机，单号每天收益上百，可无限挂

详情介绍这次给大家带来5月份最新的短视频挂机项目，简单易上手，而且不需要任何投入，经过测试收益非常可观，软件完全免费，特别适合没有时间但是想做副业的家人们...

编程日记 2024/5/6 15:09:37

Day31：单元测试、项目监控、项目部署、项目总结、常见面试题

单元测试保证独立性。 Assert：断言，一般用来比较是否相等，比如 Assert.assertEquals 在JUnit测试框架中，BeforeClass，Before，After和AfterClass是四个常用的注解，它们的作用如下： …...

编程日记 2024/5/6 15:08:12

Flutter笔记：使用Flutter私有类涉及的授权协议问题

Flutter笔记使用Flutter私有类涉及的授权协议问题 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite：http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.cs…...

编程日记 2024/5/6 15:07:04

面试过程种遇到的面试题收集

文章目录讲一讲这个项目是干什么的？需求规格说明书有哪些章节？职工部门层级如何显示在一张SQL表上？需求开发用到了哪些技术？HashMap 底层数据结构说一下？介绍一下红黑树？HashMap是线程不安全的&#xff0c…...

编程日记 2024/5/6 15:03:18

Vue学习：21.mixins混入

在Vue中，mixins（混入）是一种用于分发Vue组件中可复用功能的灵活机制。它们允许你抽取组件中的共享功能，如数据、计算属性、方法、生命周期钩子等，并将其作为单独的模块复用到多个组件中。这种方式有助于保持代码的DRY&…...

编程日记 2024/5/6 15:00:59

上传文件到 linux

一、mac 法一：scp 先进入mac的 Node_exporter文件（要上传的文件）目录下输入scp -P 端口号文件名 rootIP:/存放路径 scp -P 22 node_exporter-1.8.0.linux-amd64.tar.gz root192.***.2:/root 法二、 rz mac 安装 lrzsz，然后…...

编程日记 2024/5/6 14:59:55

NEO 学习之session7

文章目录选项 A：它涉及学习标记数据。选项 B：它需要预定义的输出标签进行训练。选项 C：它涉及在未标记的数据中寻找模式和关系。选项 D：它专注于根据输入-输出对进行预测。答案：选项 C 描述了无监督学习的本质&am…...

编程日记 2024/5/6 14:58:53

毕业设计uniapp+vue有机农产品商城系统销售统计图微信小程序

本人在网上找了一下这方面的数据发现农村中的信心普及率很是低农民们都不是怎么会用手机顶多就是打打电话发发短信，平时不太会上网更不会想到通过网络手段去卖出自己的劳作成果—农产品，这无疑大大浪费了农民的劳动成果和国家资源也大大打击了人们的生产…...

编程日记 2024/5/6 14:57:44

php使用Canal监听msyql

canal需要java8 去官网下载java8 安装JAVA #创建目录 mkdir -p /usr/local/java/ #解压到目录 tar zxvf jdk-8u411-linux-x64.tar.gz -C /usr/local/java/配置环境变量在 /etc/profile 最后加入 export JAVA_HOME/usr/local/java/jdk1.8.0_411 export CLASSPATH.:$JAVA_HOM…...

编程日记 2024/5/6 14:54:23

metabase部署与实践

1. 项目目标 （1）了解metabase特点 （2）熟练部署metabase工具 （3）掌握metabase基本使用 2. 项目准备 2.1. 规划节点主机名主机IP 节点规划 metabase 10.0.1.141 metabase 2.2. 基础准备系统镜…...

编程日记 2024/5/6 14:53:18

nacos v2.2.3 docker简单安装使用

nacos v2.2.3 docker简单安装使用 Nacos 官方文档： https://nacos.io/zh-cn/docs/v2/quickstart/quick-start.html 控制台： http://127.0.0.1:8848/nacos/ 初始用户名、密码： 账号：nacos 密码：nacos 启动docker…...

编程日记 2024/5/6 14:52:10

java设计模式-生成器模式

文章目录生成器模式（Builder）1、目的和适用场景2、角色和职责3、实现步骤4、示例15、示例26、优点7、示例场景生成器模式（Builder） 生成器模式（Builder Pattern）是一种创建型设计模式，它用于…...

编程日记 2024/5/6 14:42:22

《前端面试题》- TypeScript - TypeScript的优/缺点

问题简述TypeScript的优/缺点答案优点增强了代码的可读性和可维护性包容性，js可以直接改成ts，ts编译报错也可以生成js文件，兼容第三方库，即使不是ts编写的社区活跃，完全支持es6 缺点增加学习成本增加开发成…...

编程日记 2024/5/6 14:41:12

微服务---feign调用服务

目录 Feign简介 Feign的作用 Feign的使用步骤引入依赖具体业务逻辑配置日志在其它服务中使用接口接着上一篇博客，我们讲过了nacos的基础使用，知道它是注册服务用的，接下来我们我们思考如果一个服务需要调用另一个服务的接口信息&…...

编程日记 2024/5/6 14:40:00

刷题笔记 - 滑动窗口

文章目录滑动窗口最长无重复子串最小覆盖子串串联所有单词的子串长度最小的子数组滑动窗口最大值字符串的排列最小区间滑动窗口所有题目来自leetcode的回答：https://leetcode.cn/problems/longest-substring-without-repeating-characters/solutions/3982/hua-d…...

编程日记 2024/5/6 14:38:49

Docker搭建LNMP+Wordpress的实验

目录一、项目的介绍 1、项目需求 2、服务器环境 3、任务需求二、Linux系统基础镜像三、部署Nginx 1、建立工作目录 2、编写Dockerfile 3、准备nginx.conf配置文件 4、设置自定义网段和创建镜像和容器 5、启动镜像容器 6、验证nginx 三、Mysql 1、建立工作目录…...

编程日记 2024/5/6 14:35:18

使用Python Pandas实现两表对应列相加（即使表头不同）

目录引言 Pandas库简介实现对应列相加步骤一：加载数据步骤二：重命名列步骤三：对应列相加步骤四：保存结果案例分析结论引言在数据分析和处理的日常工作中，我们经常会遇到需要将来自不同数据源的数据…...

编程日记 2024/5/6 14:34:05

Linux 虚拟主机切换php版本及参数

我使用的Hostease的Linux虚拟主机产品,由于网站程序需要支持高版本的PHP,程序已经上传到主机，但是没有找到切换PHP以及查看PHP有哪些版本的位置，因此咨询了Hostease的技术支持，寻求帮助了解到可以实现在cPanel面板上找到此切换PHP版本的按钮&…...

编程日记 2024/5/6 14:32:31

日语AI面试高效通关秘籍：专业解读与青柚面试智能助攻

在如今就业市场竞争日益激烈的背景下，越来越多的求职者将目光投向了日本及中日双语岗位。但是，一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧？面对生疏的日语交流环境，即便提前恶补了…...

编程新知 2025/10/15 18:51:32

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧一、链表基础概念与内核链表优势1.1 为什么使用链表？1.2 Linux 内核链表与用户态链表的区别二、内核链表结构与宏解析常用宏/函数三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

编程新知 2025/8/28 9:42:18

React Native 开发环境搭建（全平台详解）

React Native 开发环境搭建（全平台详解） 在开始使用 React Native 开发移动应用之前，正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南，涵盖 macOS 和 Windows 平台的配置步骤，如何在 Android 和 iOS…...

编程新知 2025/10/7 2:47:54

Linux简单的操作

ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名转换路径 …...

编程新知 2025/9/11 13:56:27

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展，消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁，不仅优化了客户体验，还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用，并…...

编程新知 2025/10/17 1:33:35

【算法训练营Day07】字符串part1

文章目录反转字符串反转字符串II替换数字反转字符串题目链接：344. 反转字符串双指针法，两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...

编程新知 2025/8/27 14:38:58

大学生职业发展与就业创业指导教学评价

这里是引用作为软工2203/2204班的学生，我们非常感谢您在《大学生职业发展与就业创业指导》课程中的悉心教导。这门课程对我们即将面临实习和就业的工科学生来说至关重要，而您认真负责的教学态度，让课程的每一部分都充满了实用价值。尤其让我…...

编程新知 2025/10/6 22:42:00

Redis数据倾斜问题解决

Redis 数据倾斜问题解析与解决方案什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中，部分节点存储的数据量或访问量远高于其他节点，导致这些节点负载过高，影响整体性能。数据倾斜的主要表现部分节点内存使用率远高于其他节…...

编程新知 2025/10/14 9:58:18

大数据学习（132）-HIve数据分析

🍋🍋大数据学习🍋🍋 🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。 💖如果觉得博主的文章还不错的话，请点赞👍收藏⭐️留言&#x1f4…...

编程新知 2025/10/7 8:52:21

python报错No module named ‘tensorflow.keras‘

是由于不同版本的tensorflow下的keras所在的路径不同，结合所安装的tensorflow的目录结构修改from语句即可。原语句： from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Dense 修改后： from tensorflow.python.keras.lay…...

编程新知 2025/9/24 7:39:50

1 爬取89ip代理

2 爬取豆瓣电影

版本2（建议用这个）

相关文章：