当前位置：首页 > news >正文

Python编程技术

news 2025/11/4 2:44:04

设计目的

该项目框架Scrapy可以让我们平时所学的技术整合旨在帮助学习者提高Python编程技能并熟悉基本概念：

1. 学习基本概念：介绍Python的基本概念，如变量、数据类型、条件语句、循环等。

2. 掌握基本编程技巧：教授学生如何使用Python编写简单的程序，如计算器、字符串处理等。

3. 熟悉Python样式指南：学习Python的官方样式指南（PEP 8），如编码风格、行长限制等，以确保代码的可读性和可维护性。

4. 掌握常见数据结构和算法：介绍列表、元组、字典、栈、队列等常见数据结构，以及相关的算法，如排序、搜索等。

5. 学习基于对象的编程：教授学生如何使用Python的面向对象编程（OOP）概念，如类、对象、继承、多态等。

6. 掌握网络编程：介绍Python网络编程中的基本概念和技术，如网络请求、网络服务器、套接字等。

7. 学习多线程和多进程编程：教授学生如何使用Python的多线程和多进程编程技术，以提高程序性能和可扩展性。

8. 熟悉Python库和模块：介绍Python的常用库和模块，如from os import remove from time import sleep等，以便学生在实际项目中应用Python编程技能。

9. 实践项目：通过完成实践项目，帮助学生将所学知识应用到实际编程场景，提高实际编程能力。

代码审查和优化：教授学生如何对自己和他人的Python代码进行审查，以提高代码质量和可读性。

10.通过这个课程，学生将掌握Python编程的基本技能，了解Python的编程风格和最佳实践，并学会应用Python编程技能来解决实际问题

11. Scrapy框架介绍：介绍Scrapy的主要功能和使用场景，以便学习者了解如何使用Scrapy进行爬取。Scrapy的使用步骤：详细介绍如何使用Scrapy编写爬虫脚本，包括定义爬虫项目、设置爬虫设置、编写爬虫规则和处理爬取结果等。实际爬取案例：通过实际爬取案例，如爬取广东各城市天气预报，帮助学习者了解如何使用Scrapy爬取实际世界中的天气预报数据。处理HTML标签和网页源代码：教授学习者如何识别和处理常见HTML标签，以及如何理解网页源代码结构。使用Beautiful Soup库：介绍Beautiful Soup库的功能，并通过实际例子教授学习者如何使用Beautiful Soup从网页中提取数据。

设计内容与要求

1、熟练安装 Python 扩展库 scrapy。

2、熟悉常见 HTML 标签的用法。

3、理解网页源代码结构。

4、理解 scrapy 框架工作原理。实验内容：

5.安装 Python 扩展库 scrapy ，然后编写爬虫项目，从网站 http://www.weather.com.cn/guangdong/index.shtml 爬取广东各城市的天气预报数据，并把爬取到的天气数据写入本地文本 weather.txt。

设计思路

学习使用Scrapy框架爬取天气预报，提高Python爬虫技能

在这次课程考核实验中，我们将使用Python和Scrapy框架编写一个爬取天气预报的项目。具体实验步骤如下：

1. 安装Scrapy：首先，确保已安装Python扩展库Scrapy。可以通过`pip install scrapy`命令安装。

2. 创建爬虫项目：创建一个新的Python文件，例如`weather_spider.py`，并在其中定义爬虫类。在爬虫类中，我们将编写代码来爬取天气预报信息。

3. 编写爬虫代码：在爬虫类的`parse`方法中，我们将使用Scrapy的API来提取网页中的天气信息。具体实现方法可能因网站的结构和布局而异，但通常可以使用XPath或CSS选择器来提取所需的元素。

4. 运行爬虫：在命令行中运行爬虫项目，并指定爬取的城市和天气预报的时间范围。例如：`scrapy crawl weather_spider -a start_dates=2023-12-15,end_dates=2023-12-24 -s OUTPUT=file:///path/to/output.txt`.

5. 保存爬取结果：爬虫运行完成后，将爬取到的天气信息保存到指定的文件中，例如`output.txt`。

通过这个实验，您将学习如何使用Python和Scrapy框架爬取天气预报信息。在实际应用中，您可以根据需要调整爬虫代码以适应不同的网站结构和布局。同时，您还可以尝试使用其他爬虫技术，如 Beautiful Soup 和 Selenium，以进一步提高爬取效率和灵活性。以下是设计的流程图

实现过程

实验过程和实验步骤如下以及详细的核心代码解释

1.在命令提示符环境使用 pip install scrapy 命令安装 Python 扩展库 scrapy

2.在vscode的终端中使用命令提示符 scrapy startproject GuangDongWeather创建爬虫项目文件

3.进入爬虫项目文件夹，然后执行命令 scrapy genspider GuangDongWeatherSpider www.weather.com.cn 创建爬虫程序。

4.使用浏览器打开网址http://www.weather.com.cn/guangdong/index.shtml，

5.找到下面位置广东天气预报 - 广东

6.在页面上单击鼠标右键，选择“查看网页源代码”，然后找到与“城市预报列表” 对应的位置。

7.选择并打开广东省内任意城市的天气预报页面，此处以深圳为例

8.在页面上单击鼠标右键，选择“查看网页源代码”，找到与上图中天气预报相对应的位置。

9.修改items.py文件，定义要爬取的内容如下

import scrapyclass GuangDongWeatherSpiderItem(scrapy.Item):city = scrapy.Field()weather = scrapy.Field()# define the fields for your item here like:# name = scrapy.Field()pass

10.修改爬虫文件 GuangDongWeatherSpider.py，定义如何爬取内容，其中用到的规则参考前面对页面的分析，如果无法正常运行，有可能是网页结构有变化，可以回到前面的步骤重新分析网页源代码,代码如下

import scrapy
from os import remove
from time import sleep
from GuangDongWeather.items import GuangDongWeatherSpiderItemclass EveryCitySpider(scrapy.Spider):name = 'GuangDongWeatherSpider'allowed_domains = ['www.weather.com.cn']# 首页，爬虫开始工作的页面start_urls = ['http://www.weather.com.cn/shengzhen/index.shtml']try:remove('lqf.txt')except:passdef parse(self, response):# 获取每个地市的链接地址，针对每个链接地址发起请求urls = response.css('dt>a[title]::attr(href)').getall()for url in urls:yield scrapy.Request(url=url, callback=self.parse_city)sleep(0.3)def parse_city(self, response):'''处理每个地市天气预报链接地址的实例方法'''# 用来存储采集到的信息的对象item = GuangDongWeatherSpiderItem()# 获取城市名称city = response.xpath('//div[@class="crumbs fl"]/a[3]/text()')item['city'] = city.get()# 定位包含天气预报信息的ul节点，其中每个li节点存放一天的天气selector = response.xpath('//ul[@class="t clearfix"]')[0]weather = []# 遍历当前ul节点中的所有li节点，提取每天的天气信息for li in selector.xpath('./li'):# 提取日期date = li.xpath('./h1/text()').get()# 云的情况cloud = li.xpath('./p[@title]/text()').get()# 晚上不显示高温high = li.xpath('./p[@class="tem"]/span/text()').get('none')low = li.xpath('./p[@class="tem"]/i/text()').get()wind = li.xpath('./p[@class="win"]/em/span[1]/@title').get()wind += ','+li.xpath('./p[@class="win"]/i/text()').get()weather.append(f'{date}:{cloud},{high}/{low},{wind}')item['weather'] = '\n'.join(weather)return [item]

11.修改 settings.py 文件，分派任务，指定处理数据的程序如下，这里划线的名称要对应你的文件名，相当于再找信道，在GuangDongWeather这个文件下找pipelines然后再找里面的GuangDongWeathersSpiderPipeline

BOT_NAME = "GuangDongWeather"SPIDER_MODULES = ["GuangDongWeather.spiders"]
NEWSPIDER_MODULE = "GuangDongWeather.spiders"
ITEM_PIPELINES = {
'GuangDongWeather.pipelines.GuangDongWeatherSpiderPipeline':1,
}

12.修改 pipelines.py 文件，把爬取到的数据写入文件 lqf.txt代码如下

from itemadapter import ItemAdapterclass GuangDongWeatherSpiderPipeline(object):def process_item(self, item, spider):with open('lqf.txt', 'a', encoding='utf8') as fp: fp.write(item['city']+'\n') fp.write(item['weather']+'\n\n')return item

13.最后就可以通过命令去运行框架如下，你需要去到对应的目录下运行，不然会报错

scrapy crawl GuangDongWeatherSpider

最后需要注意以下几点，第一需要注意的就是版本的问题，第二框架问题，第三电脑问题，这个时候你就要多留意一下报错的原因，然后代码都要进行分析看看它再说的什么，这样子就可以解决大部分问题

Python编程技术

设计目的

设计内容与要求

设计思路

实现过程

相关文章：

Python编程技术

「Mac玩转仓颉内测版55」应用篇2 - 使用函数实现更复杂的计算

map参数详解

OSI 七层模型 | TCP/IP 四层模型

高转速风扇|无刷暴力风扇方案设计

GPU 进阶笔记（三）：华为 NPU/GPU 演进

计算机网络（13）信道复用技术

数据库约束和查询

网工日记：FTP两种工作模式的区别

NLP模型工程化部署

分布式版本管理工具——git 中忽略文件的版本跟踪（初级方法及高级方法）

【LangChain】Chapter4 - Question and Answer Over Documents

TCP/IP 协议演进中的瓶颈，权衡和突破

软件测试面试八股文，查漏补缺（附文档）

IDEA工具使用介绍、IDEA常用设置以及如何集成Git版本控制工具

YOLOv10-1.1部分代码阅读笔记-transformer.py

机器人革新！ModbusTCP转CCLINKIE网关揭秘

JWT包中的源码分析【Golang】

SpringBoot数据字典字段自动生成对应code和desc

TencentOS 2.4 final 安装mysql8.0备忘录

网络六边形受到攻击

Java 8 Stream API 入门到实践详解

智能仓储的未来：自动化、AI与数据分析如何重塑物流中心

select、poll、epoll 与 Reactor 模式

Xen Server服务器释放磁盘空间

Yolov8 目标检测蒸馏学习记录

springboot 日志类切面，接口成功记录日志，失败不记录

实战设计模式之模板方法模式

多元隐函数偏导公式

鸿蒙Navigation路由导航-基本使用介绍