当前位置: 首页 > news >正文

简单的爬虫代码 爬(豆瓣电影)

路漫漫其修远兮,吾将上下而求索

这次写一个最简单的python爬虫代码,也是大多教程第一次爬取的,代码里面有个别的简单介绍,希望能加深您对python爬虫的理解。

本次爬取两个网页数据

一 爬取的网站  豆瓣电影

爬取网页中的(肖申克的救赎 1994 评分是: 9.7 共 911165人评价)

                      (电影名, 年份, 评分,评价人数)

代码

import csv
import re,requests
#拿到源代码 requests,通过re获取想要的数据,csv写入操作
url='https://movie.douban.com/top250'
h={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62'
}
r=requests.get(url,headers=h);r.encoding='utf-8'yuanma=r.text# 拿到网页源代码
#解析数据
obj=re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>'r'.*?<p class="".*?<br>(?P<year>.*?)&nbsp.*?property="v:average".(?P<pf>.*?)</span>'r'.*?<span>.(?P<pl>.*?)</span>',re.S)
#开始匹配
r=obj.finditer(yuanma)
f=open('shuju.csv',mode='w')#打开一个文件
csvs=csv.writer(f)
for i in r:print(i.group("name"),i.group("year").strip(),'评分是:',i.group('pf'),'共',i.group('pl'))#strip()去掉空白
print("完成!")

实验效果:

二  爬取保定学院官网网页的href(链接)

代码

#爬取保定学院官网网页的href(链接)
import re,requests
from bs4 import BeautifulSoup
#拿到源代码 requests,通过re获取想要的数据,csv写入操作
url="https://www.bdu.edu.cn/"
r=requests.get(url);r.encoding='utf-8'
yuanma=r.text# 拿到网页源代码
bs=BeautifulSoup(yuanma)
cha=bs.findAll('a')
for i in cha:if 'href' in i.attrs:#print(i)print(i.attrs['href'],'-',i.text)
r.close()

实验效果:

 本文章只是单纯的从技术角度介绍使用python代码搜索网页数据,读者要正常使用技术。

希望对您有所帮助。

 最后,谢谢您的观看

相关文章:

简单的爬虫代码 爬(豆瓣电影)

路漫漫其修远兮&#xff0c;吾将上下而求索 这次写一个最简单的python爬虫代码&#xff0c;也是大多教程第一次爬取的&#xff0c;代码里面有个别的简单介绍&#xff0c;希望能加深您对python爬虫的理解。 本次爬取两个网页数据 一 爬取的网站 豆瓣电影 爬取网页中的&#…...

微服务之架构演变

随着互联网的发展&#xff0c;网站应用规模不断扩大&#xff0c;网站架构随之不断演变&#xff0c;演变历史大致分为单体应用架构-垂直应用架构-分布式架构-SOA架构-微服务架构-云原生架构 架构演变 单体应用架构 以前网站流量小&#xff0c;只需要一个应用就可以把所有功能…...

面试问题记录一 --- C++(Qt方向)

以下是我于2023年6~7月间换工作时遇到的面试题目,有需要的小伙伴可以参考下。约100个题目。 1 C和C++的区别 1) 文件区别:C源文件后缀 .c;C++源文件后缀 .cpp 2) 返回值: C默认返回int型;C++ 若无返回值,必须指定为void 3) 参数列表:C默认接收多个…...

使用词袋模型(BoW)测试提取图像的特征点和聚类中心

文章目录 环境配置代码测试 环境配置 (1) 导入opencv&#xff0c;参考链接 https://blog.csdn.net/Aer_7z/article/details/132612369(2) 安装numpy 激活虚拟环境的前提下&#xff0c;输入&#xff1a; pip install numpy(3) 安装sklearn 激活虚拟环境的前提下&#xff0c;输…...

利用vba处理Excel表格数据实现键值转化,适用于将编码转化成对应的文本

最近遇到了一个甲方需要提供系统登录的用户名单和对应的角色权限内容。无奈直接从数据库导出的数据对应的都是编码&#xff0c;没有转成中文&#xff0c;想着偷个懒能不能直接用Excel直接转&#xff0c;网上看了一下有修改单元格格式的&#xff0c;但需要编码是2到3个。多的就用…...

IntelliJ IDEA(Windows 版)的所有快捷键

&#x1fa81;&#x1f341; 希望本文能够给您带来一定的帮助&#x1f338;文章粗浅&#xff0c;敬请批评指正&#xff01;&#x1f341;&#x1f425; 大家好 本文参考了 IntelliJ IDEA 的官网&#xff0c;列举了IntelliJ IDEA&#xff08;Windows 版&#xff09;的所有快捷…...

文件上传漏洞全面渗透姿势

0x00 文件上传场景 (本文档只做技术交流) 文件上传的场景真的随处可见&#xff0c;不加防范小心&#xff0c;容易造成漏洞&#xff0c;造成信息泄露&#xff0c;甚至更为严重的灾难。 比如某博客网站评论编辑模块&#xff0c;右上角就有支持上传图片的功能&#xff0c;提交带…...

GreenPlum的gpfdist使用与原理流程分析

一、简介 GreenPlum 的数据导入功能作为对数据源的一种扩充&#xff0c;数据导入的方式有&#xff1a; 1、insert 该方式通过 sql 语句&#xff0c;把数据一条一条插入至表中。这种方式&#xff0c;不仅读取数据慢&#xff08;一条一条读取&#xff09;&#xff0c;且数据需要…...

Spring AOP与静态代理/动态代理

文章目录 一、代理模式静态代理动态代理代理模式与AOP 二、Spring AOPSping AOP用来处理什么场景jdk 动态代理cglib 动态代理面试题&#xff1a;讲讲Spring AOP的原理与执行流程 总结 一、代理模式 代理模式是一种结构型设计模式&#xff0c;它允许对象提供替代品或占位符&…...

【LeetCode算法系列题解】第51~55题

CONTENTS LeetCode 51. N 皇后&#xff08;困难&#xff09;LeetCode 52. N 皇后 II&#xff08;困难&#xff09;LeetCode 53. 最大子序和&#xff08;中等&#xff09;LeetCode 54. 螺旋矩阵&#xff08;中等&#xff09;LeetCode 55. 跳跃游戏&#xff08;中等&#xff09; …...

驱动开发错误汇编

本博文将会不定期更新。以便记录我的驱动开发生涯中的一些点点滴滴的技术细节和琐事。 1. link阶段找不到导出函数 比如"LNK2019 无法解析的外部符号 _FltCreateCommunicationPort32"。 出现这种情况的原因是&#xff0c;驱动的编译环境忽略了所有的默认库&#x…...

知识图谱项目实践

目录 步骤 SpaCy Textacy——Text Analysis for Cybersecurity Networkx Dateparser 导入库 写出页面的名称 ​编辑 自然语言处理 词性标注 可能标记的完整列表 依存句法分析&#xff08;Dependency Parsing&#xff0c;DEP&#xff09; 可能的标签完整列表 实例理…...

stable diffusion实践操作-提示词-人物属性

系列文章目录 stable diffusion实践操作-提示词 文章目录 系列文章目录前言一、提示词汇总1.1 人物属性11.2 人物属性2 前言 本文主要收纳总结了提示词-人物属性。 一、提示词汇总 1.1 人物属性1 角色类型人物身材胸部头发-发型头发-发色[女仆][霊烏路空][大腿][乳房][呆毛…...

RabbitMQ的安装和配置

将RabbitMQ文件夹传到linux根目录 开启管理界面及配置...

WebRTC 日志

WebRTC 日志 flyfish WebRTC支持的日志等级 // // The meanings of the levels are: // LS_VERBOSE: This level is for data which we do not want to appear in the // normal debug log, but should appear in diagnostic logs. // LS_INFO: Chatty level used in de…...

【python爬虫】16.爬虫知识点总结复习

文章目录 前言爬虫总复习工具解析与提取&#xff08;一&#xff09;解析与提取&#xff08;二&#xff09;更厉害的请求存储更多的爬虫更强大的爬虫——框架给爬虫加上翅膀 爬虫进阶路线指引解析与提取 存储数据分析与可视化更多的爬虫更强大的爬虫——框架项目训练 反爬虫应对…...

Windows系统中Apache Http服务器简单使用

1 简介 Apache HTTP服务器是一个开源的、跨平台的Web服务器软件。它由Apache软件基金会开发和维护。Apache HTTP服务器可以在多种操作系统上运行&#xff0c;如Windows、Linux、Unix等&#xff0c;并且支持多种编程语言和技术&#xff0c;如PHP、Perl、Python、Java等。…...

Django ORM 框架中的表关系,你真的弄懂了吗?

Django ORM 框架中的表关系 为了说清楚问题&#xff0c;我们设计一个 crm 系统&#xff0c;包含五张表&#xff1a; 1.tb_student 学生表 2.tb_student_detail 学生详情表 3.tb_salesman 课程顾问表 4.tb_course 课程表 5.tb_entry 报名表 表关系和字段如下图&#xff1a…...

第五课:C++实现加密PDF文档解密

请注意,未经授权的加密PDF文件解密是非法的,本文仅为学术和研究目的提供参考。 打开加密的PDF文件并获取密钥 在C++中,可以使用pdfium库打开加密的PDF文件。使用pdfium库中的FPDF_LoadCustomDocument函数可以打开具有自定义访问权限的加密文件。该函数接受一个IFX_FileRead*…...

罗马数字转整数

罗马数字转整数 题目: 罗马数字包含以下七种字符: I&#xff0c; V&#xff0c; X&#xff0c; L&#xff0c;C&#xff0c;D 和 M。字符 数值 I 1 V 5 X 10 L 50 C 100 D 500 M …...

eLabFTW:开源电子实验笔记本如何重塑科研数据管理流程

eLabFTW&#xff1a;开源电子实验笔记本如何重塑科研数据管理流程 【免费下载链接】elabftw :notebook: eLabFTW is the most popular open source electronic lab notebook for research labs. 项目地址: https://gitcode.com/gh_mirrors/el/elabftw 在数字化科研时代&…...

Photoshop图层批量导出终极指南:5分钟掌握高效工作流

Photoshop图层批量导出终极指南&#xff1a;5分钟掌握高效工作流 【免费下载链接】Photoshop-Export-Layers-to-Files-Fast This script allows you to export your layers as individual files at a speed much faster than the built-in script from Adobe. 项目地址: http…...

保姆级教程:用YOLOv8和Pyside6从零搭建一个火焰烟雾检测桌面应用(附完整源码和数据集)

从零构建火焰烟雾检测桌面应用&#xff1a;YOLOv8与Pyside6实战指南 在工业安全、家庭监控和实验室防护场景中&#xff0c;火焰与烟雾的早期检测至关重要。传统监控系统依赖人工值守或简单传感器&#xff0c;难以实现精准的实时预警。本文将带你用Python生态中最前沿的YOLOv8目…...

51单片机电子秤的语音播报怎么选?JQ8400模块 vs OTP芯片,实测成本与易用性对比

51单片机电子秤语音方案实战选型&#xff1a;JQ8400模块与OTP芯片的深度拆解 在智能硬件开发中&#xff0c;语音交互功能正从锦上添花的附加项逐渐变为核心用户体验的关键组成部分。以51单片机电子秤为例&#xff0c;语音播报功能不仅能提升产品的无障碍使用体验&#xff0c;还…...

深入RPMsg-Lite virtqueue:拆解异构多核芯片共享内存通信的‘黑盒子’

深入RPMsg-Lite virtqueue&#xff1a;拆解异构多核芯片共享内存通信的‘黑盒子’ 在现代异构多核芯片设计中&#xff0c;核间通信&#xff08;IPC&#xff09;的效率直接决定了系统整体性能。当你在调试一个基于NXP i.MX RT1170的双核系统时&#xff0c;是否曾好奇过&#xff…...

告别手动注册!用Inno Setup为你的C# SolidWorks插件制作一键安装包(附VS生成后事件脚本)

从代码到产品&#xff1a;用Inno Setup打造SolidWorks插件的专业安装体验 在SolidWorks二次开发领域&#xff0c;许多开发者投入大量精力完善插件功能&#xff0c;却在最后交付环节草草了事——简单复制DLL文件搭配批处理脚本的方式&#xff0c;不仅显得业余&#xff0c;更给终…...

Multisim仿真避坑:手把手教你搞定MOS管共源放大电路的静态工作点(含参数扫描技巧)

Multisim实战&#xff1a;MOS管共源放大电路静态工作点优化全攻略 刚接触Multisim仿真的电子工程师常会遇到这样的困境&#xff1a;明明按照教科书步骤搭建了MOS管共源放大电路&#xff0c;仿真结果却与理论计算相差甚远。静态工作点&#xff08;Q点&#xff09;不是偏高就是偏…...

AI行业的“人才缺口”:哪些AI岗位最紧缺

一、AI行业人才缺口的整体态势在AI技术飞速发展的当下&#xff0c;其对各行业的渗透速度远超预期&#xff0c;人才供需矛盾愈发凸显。据《人工智能产业人才发展报告(2025~2026)》测算&#xff0c;中国AI人才总缺口超过580万人&#xff0c;其中核心技术岗位缺口超过80万人。人力…...

D3KeyHelper:暗黑3终极宏工具完整指南 - 5分钟快速上手

D3KeyHelper&#xff1a;暗黑3终极宏工具完整指南 - 5分钟快速上手 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面&#xff0c;可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper D3KeyHelper是一款专为《暗黑破坏…...

3分钟搞定OFD转PDF:免费开源工具Ofd2Pdf完整使用指南

3分钟搞定OFD转PDF&#xff1a;免费开源工具Ofd2Pdf完整使用指南 【免费下载链接】Ofd2Pdf Convert OFD files to PDF files. 项目地址: https://gitcode.com/gh_mirrors/ofd/Ofd2Pdf 还在为打不开OFD文件而烦恼吗&#xff1f;今天我要向你推荐一个完全免费、简单高效的…...